Steekproefgrootte


Basisgebrippen, vuistregels en formules

foto_boek.jpg


Doel
Basisbegrippen leren kennen die te maken hebben met steekproeven (selectie van metingen)

In het kort
Een steekproef is een selectie van alle mogelijke metingen (populatie). Een steekproef neem je in de praktijk vaak om uitspraken te doen over de gehele populatie.

Toelichting
1. Een steekproef is een selectie van alle mogelijke metingen (populatie). Een steekproef gebruik je in de praktijk vaak om uitspraken te doen over de gehele populatie. Bijvoorbeeld de exit polls bij verkiezingen, of een periode in de tijd in een proces.
2. Een populatie is een complete, gedefinieerde groep eenheden waar je iets aan kunt meten. Bijvoorbeeld alle stemgerechtigde mannen in Nederland.
3. Een proces is een verzameling tijdgerelateerde activiteiten (processtappen), om een stroom aan eenheden (diensten of producten) samen te stellen en te leveren aan (een) klant(en). Voorbeeld: het samenstellen van een leasecontract. Alle contracten die ooit zijn samengesteld in het proces vormen samen een populatie. Meet je de doorlooptijd van het opstellen van een leasecontract in de laatste maand, dan is dat een steekproef.
4. Statistische symbolen per kengetal: zie onderstaande tabel.

Steekproefgrootte tabel.png

Meer te weten komen overr de steekproefgrootte? Klik dan hier en schrijf je nu in voor de Green Belt training

Voorbeeld
Hieronder zie je een steekproef met vier cirkels (1 zwarte, 3 grijze).
De populatie (cirkel) is hier alle 28 cirkels (4 zwarte en 24 grijze).

Steekproefgrootte voorbeeld.png

Vuistregels

Steekproefgrootte vuistregels.pngDoel
• Identificeren van minimaal benodigde
hoeveelheid metingen per indicator
• Met een beperkt aantal metingen (steekproef) toch uitspraken over ‘alle data’
(populatie) kunnen maken

In het kort
Een steekproef is een selectie van alle mogelijke metingen (populatie). Als je uitspraken over de gehele populatie wilt kunnen doen, moet je zorgen dat je steekproef representatief is.

Toelichting
Er zijn vuistregels over hoe groot de minimale steekproefgrootte moet zijn, om vaak toch verantwoorde uitspraken te doen over de populatie. Aanname hierbij is dat de populatie ‘erg groot’ of bij benadering oneindig is. Verder zijn onderstaande vuistregels voor steekproef-groottes in ieder geval. afhankelijk van het type data (discreet of continu) en de statistische parameter.

Steekproefgrootte vuistregels tabel.png

Synoniem en/of alternatief
Soms kom je de ‘30-300-regel’ tegen: gebruik n≥ 30 (data continu) en n ≥ 300 (data discreet). Je kunt soms met minder uit. Twijfel je nog, of zijn de belangen groot, kijk dan ook naar de formules en voorbeelden op de volgende pagina. Bij deze formules heb je vaak plezier van een expert, dit kan een ingenieur, een Master Black Belt of een toegepast statisticus zijn.

Leren werken met de steekproefgrootte? Klik dan hier en schrijf je in voor een van onze trainingen!

Formules en voorbeelden

Synoniem en/of alternatief (vervolg)
Steekproefgrootte formule tip.pngEen gangbare formule voor de steekproefgrootte bij discrete data is:

Steekproefgrootte formule.pngwaarbij, 

• 1,96 de waarde is voor een 95% betrouwbaarheidinterval (gangbaar)
• p de geschatte proportie (kans) is dat er een ‘defect’ of ‘juiste’ waarde optreedt
• Δ de foutmarge (relatieve onbetrouwbaarheid of ‘95% betrouwbaarheidsinterval’)
• n de vereiste steekproefgrootte

Steekproefgrootte formule Quotes.png

Steekproefgrootte formule discrete data tip.pngEen gangbare formule voor de steekproefgrootte bij continue data is:
Steekproefgrootte formule discrete data.pngmet s nog als standaardafwijking

Steekproefgrootte formule Quotes discrete data.png

De centrale Limietsteling

Doel
• Weten dat deze ‘natuurwet’, ofwel de ‘centrale limietstelling’, bestaat
• Inzien dat deze wet gebruikt wordt om normaal verdeelde data te krijgen

In het kort
De centrale limietstelling is een natuurkundige wet: ongeacht de kansverdeling van een variabele of indicator 𝑥, convergeert de kansverdeling van de som van meerdere 𝑥’en of het gemiddelde -𝑥 ervan, altijd naar een normale kansverdeling.

Toelichting
Een gemiddelde -𝑥 is normaal verdeeld. Als je een normaal verdeeld gemiddelde wilt krijgen, is het altijd voldoende om het gemiddelde te nemen van n> 30 metingen. Voor sommaties (optellingen) geldt hetzelfde. Vaak krijg je zelfs al een normaal verdeeld gemiddelde zelfs al met veel kleinere aantallen, bijvoorbeeld met n=10 (zie hierna).

Het bewijs van de centrale limietstelling laten wij hier achterwege. Praktisch toets je eerst of data (zeg variabele 𝑥) normaal verdeeld zijn. Zo niet, dan kun je met bijvoorbeeld dag- of weekgemiddelden alsnog statistische analyses maken, uitgaande van normaliteit.

Synoniem en/of alternatief
De centrale limietstelling wordt in het Engels Central Limit Theorem (CLT) genoemd.

Steekproefgrootte Centrale limietstelling.png

foto_boek.jpg