Hoofdstukken
Steekproefgrootte | Lean Six Sigma Partners
Doel
Basisbegrippen leren kennen die te maken hebben met steekproeven (selectie van metingen)
In het kort
Een steekproef is een selectie van alle mogelijke metingen (populatie). Een steekproef neem je in de praktijk vaak om uitspraken te doen over de gehele populatie.
Toelichting
1. Een steekproef is een selectie van alle mogelijke metingen (populatie). Een steekproef gebruik je in de praktijk vaak om uitspraken te doen over de gehele populatie. Bijvoorbeeld de exit polls bij verkiezingen, of een periode in de tijd in een proces.
2. Een populatie is een complete, gedefinieerde groep eenheden waar je iets aan kunt meten. Bijvoorbeeld alle stemgerechtigde mannen in Nederland.
3. Een proces is een verzameling tijdgerelateerde activiteiten (processtappen), om een stroom aan eenheden (diensten of producten) samen te stellen en te leveren aan (een) klant(en). Voorbeeld: het samenstellen van een leasecontract. Alle contracten die ooit zijn samengesteld in het proces vormen samen een populatie. Meet je de doorlooptijd van het opstellen van een leasecontract in de laatste maand, dan is dat een steekproef.
4. Statistische symbolen per kengetal: zie onderstaande tabel.
Meer te weten komen overr de steekproefgrootte? Klik dan hier en schrijf je nu in voor de Green Belt training
Voorbeeld
Hieronder zie je een steekproef met vier cirkels (1 zwarte, 3 grijze).
De populatie (cirkel) is hier alle 28 cirkels (4 zwarte en 24 grijze).
Vuistregels
Doel
• Identificeren van minimaal benodigde
hoeveelheid metingen per indicator
• Met een beperkt aantal metingen (steekproef) toch uitspraken over ‘alle data’
(populatie) kunnen maken
In het kort
Een steekproef is een selectie van alle mogelijke metingen (populatie). Als je uitspraken over de gehele populatie wilt kunnen doen, moet je zorgen dat je steekproef representatief is.
Toelichting
Er zijn vuistregels over hoe groot de minimale steekproefgrootte moet zijn, om vaak toch verantwoorde uitspraken te doen over de populatie. Aanname hierbij is dat de populatie ‘erg groot’ of bij benadering oneindig is. Verder zijn onderstaande vuistregels voor steekproef-groottes in ieder geval. afhankelijk van het type data (discreet of continu) en de statistische parameter.
Synoniem en/of alternatief
Soms kom je de ‘30-300-regel’ tegen: gebruik n≥ 30 (data continu) en n ≥ 300 (data discreet). Je kunt soms met minder uit. Twijfel je nog, of zijn de belangen groot, kijk dan ook naar de formules en voorbeelden op de volgende pagina. Bij deze formules heb je vaak plezier van een expert, dit kan een ingenieur, een Master Black Belt of een toegepast statisticus zijn.
Leren werken met de steekproefgrootte? Klik dan hier en schrijf je in voor een van onze trainingen!
Formules en voorbeelden
Synoniem en/of alternatief (vervolg)Een gangbare formule voor de steekproefgrootte bij discrete data is:
waarbij,
• 1,96 de waarde is voor een 95% betrouwbaarheidinterval (gangbaar)
• p de geschatte proportie (kans) is dat er een ‘defect’ of ‘juiste’ waarde optreedt
• Δ de foutmarge (relatieve onbetrouwbaarheid of ‘95% betrouwbaarheidsinterval’)
• n de vereiste steekproefgrootte
Een gangbare formule voor de steekproefgrootte bij continue data is:
met s nog als standaardafwijking
De centrale Limietsteling
Doel
• Weten dat deze ‘natuurwet’, ofwel de ‘centrale limietstelling’, bestaat
• Inzien dat deze wet gebruikt wordt om normaal verdeelde data te krijgen
In het kort
De centrale limietstelling is een natuurkundige wet: ongeacht de kansverdeling van een variabele of indicator 𝑥, convergeert de kansverdeling van de som van meerdere 𝑥’en of het gemiddelde -𝑥 ervan, altijd naar een normale kansverdeling.
Toelichting
Een gemiddelde -𝑥 is normaal verdeeld. Als je een normaal verdeeld gemiddelde wilt krijgen, is het altijd voldoende om het gemiddelde te nemen van n> 30 metingen. Voor sommaties (optellingen) geldt hetzelfde. Vaak krijg je zelfs al een normaal verdeeld gemiddelde zelfs al met veel kleinere aantallen, bijvoorbeeld met n=10 (zie hierna).
Het bewijs van de centrale limietstelling laten wij hier achterwege. Praktisch toets je eerst of data (zeg variabele 𝑥) normaal verdeeld zijn. Zo niet, dan kun je met bijvoorbeeld dag- of weekgemiddelden alsnog statistische analyses maken, uitgaande van normaliteit.
Synoniem en/of alternatief
De centrale limietstelling wordt in het Engels Central Limit Theorem (CLT) genoemd.