Hypothesetoetsen


Hypothese toetsen en analyses

foto_boek.jpg

Aanleiding
Is het enkel weergeven van grafieken of tabellen, genoeg om zeker te zijn? Eerlijk is eerlijk: het helpt best wel vaak en het is zeker beter dan ‘nooit wat onderbouwen’. Maar toch: vraag tien mensen wat ze zien in een grafiek, getal of tabel, en je krijgt soms tien verschillende antwoorden. Dat is niet alleen bij politieke partijen zo. Ook op je werk. Moet je dan overtuigen met nog meer macht, of moet je een beetje framing introduceren? En wat als de belangen of gevolgen groot zijn? Of als er sprake is van een intern conflict in je team?

Wat extra metingen of berekeningen uitvoeren kan natuurlijk ook. Toegegeven, dat is niet de eerste reflex van velen, maar je hebt extra feiten nodig, als er nog teveel onduidelijkheden zijn. Kortom: veronderstellingen (hypothesen) met behulp van statistiek toetsen kan helpen.
Populatie en steekproef.jpg

Verschillende percentages (op steekproef- en op populatieniveau)
Kijk naar de afbeelding hierboven: je hebt een steekproef van 4 ballen (de blauwe cirkel). Een steekproef in processen is vaak als een ‘momentopname’. Is er echt sprake van 25% zwarte ballen? Wel op basis van de steekproef hierboven. De kans p is immers als volgt te berekenen: p = 1/4 = 0,25 (= 25%). En wat als de populatie ‘oneindig’ groot is (zeg: de lange termijn)? Je kunt je rijk rekenen, indien je enkel afgaat op wat je als eerste ziet (vaak een steekproef). Daarentegen, als je altijd alles wilt blijven meten, kan dat teveel inzet kosten.
Nu met een hypothesetoets erbij. Met de hypothesetoets 1 Proportion test, kom je erachter dat een steekproef van 4 ballen (p = 1/4 = 0,25 ofwel 25%), bij een ‘oneindig’ grote populatie nog steeds een kans van 1% (p = 0,01) tot 81% (p = 0,81) kan zijn. Kortom, enkel ‘met wat data’ werken zegt niet altijd veel. Werk met steekproeven die groot genoeg zijn (meer info hierover in hoofdstuk Measure). En gebruik hypothesetoetsen, om verschillen echt goed te duiden. Toets, kortom, eventuele verschillen in je data op significantie.

Type fouten bij interpretaties van hypothesetoetsen
Als je in de statistiek iets probeert te toetsen, dan formuleer je je probleem (uitdaging) in zogeheten ‘hypothesen’. Het ‘onschuldige’ uitgangspunt wordt de nulhypothese (H0) genoemd, versus de ‘schuldige’, oftewel alternatieve hypothese (Ha of H1).
We gaan bij hypothesetoetsen uit van de ‘saaie’ hypothese H0. Waarom? In ieder geval, omdat H0 makkelijker rekent (de kans op een afwijking berekenen), dan Ha. Een statistische hypothesetoets berekent de waarschijnlijkheid (kans p) dat de nulhypothese waar is. Dat er ‘niets aan de hand’ is (H0 : geen effect). Deze p-waarde wordt berekend met een statistische toetsingsgrootheid (bijvoorbeeld de t van de Student t-test) op basis van de aanwezige data. We hebben veel hypothesetoetsen. Gelukkig resulteren al deze toetsen naar een p-waarde.
Er zijn twee fouten die voorkomen bij het toetsen van hypothesen (bij steekproeven). We praten allereerst over de α-fout (type I: je zegt ten onrechte dat er een effect is, ofwel significantie). En over de β-fout (type II: je zegt ten onrechte dat het effect toeval is). Bij een hypothesetoets heb je dan vier mogelijke uitkomsten: zie onderstaande tabel.

Mogelijke uitkomsten van een hypothesetoets.png

In werkelijkheid wil je deze twee fouten klein houden. De α-fout wordt vooraf aan de toetsing veelal op α = 0,05 gezet (soms op 0,01; bij kleine datasets soms op 0,1). De β-fout wordt vaak op β = 0,10 gezet voorafgaand aan een hypothesetoets. De β-fout hangt af van:
(1) De steekproefgrootte (hoe meer metingen, hoe kleiner β); (2) Van de grootte van het effect (verschil) dat je toetst (hoe groter het effect, hoe kleiner β); (3) De hypothesetoets (met bijbehorende aannames!) zelf en (4) Het gekozen α-niveau (hoe lager α, hoe groter β).
Populair verwoord: de kans dat H0 ‘klopt’, wordt vaak als onwaarschijnlijk gezien bij p< 0,05 (α=0,05). Een p-waarde van >0,05 wil echter niet altijd zeggen dat H0 ‘klopt’! Misschien is er wel te weinig data (‘bewijs’) verzameld. Ofwel: een hoge β-fout (zie (1)).

Hypothesetoetsen

Doel
• Grondoorzaken valideren (Y=F(X)) in de analysefase (DMAIC)
• Na invoering van verbeteringen, deze ook toetsen op significantie (DMAIC)

In het kort
Hypothesetoetsen zijn statistische methoden om effecten (zoals statistische relaties op basis van een steekproef) te toetsen op langetermijnwaarschijnlijkheid (significantie). Als het goed is, wordt hierbij ook altijd de praktische relevantie (sterkte) meegenomen.

Toelichting
Hypothesetoetsen kun je altijd inzetten, indien er sprake is van twist, twijfel en/of grote gevolgen. Algemeen geldt hier: bewijs dat een effect niet alleen geldt als aanname (op basis van gevoel of een steekproef), maar juist ook voor de langere termijn (populatie). Dit alles op basis van kansberekening (significantie) en (uiteindelijk) praktische relevantie.

Belangrijke hypothesetoetsen zijn rondom het begin van de vorige eeuw ontstaan (Pearson zijn correlatie ρ (1897) en Chi2-toets (1900); Gosset zijn Student’s t-test (1908); Fisher met zijn ANOVA en DOE et cetera), en hebben in de twintigste eeuw een enorme vlucht genomen. En niet alleen in de (academische) wetenschap, ook in toporganisaties binnen bijvoorbeeld de automobielindustrie tot en met vele overheidsinstanties. En dus ook al vele decennia binnen de wereld van het verbeteren van organisaties, processen en afdelingen.
Met steeds snellere computers zijn kansberekeningen anno nu een ‘fluitje van een cent’ geworden. Wat rekenkracht betreft.

De Aanpak hierna slaat voornamelijk op de analysefase in DMAIC. Of er is sprake van géén relatie tussen Y en X (H0) versus wel een X-Y relatie (Ha). Desalniettemin zijn de vier stappen om een hypothese te toetsen in de hierop volgende Aanpak ook ‘breder’ in te zetten.

Zoals het toetsen van kansverdelingen op normaliteit, en of er sprake is van identieke variatie per categorie (beiden zijn aannames bij ANOVA). Bij de eerste stap dien je bijvoorbeeld de hypothesen wel anders te formuleren. En bij stap 4 heb je met een andere interpretatie van doen.

AanpakHypothesetoetsen tip.png
• Stel hypothesen op. Formuleer je probleem in stellingen (‘hypothesen’). Het ‘onschuldige’ uitgangspunt heet de nulhypothese (H0) versus de alternatieve hypothese (Ha of H1). Ga uit van α=0,05 (vuistregel binnen DMAIC).

Hypothesetoetsen stap 1.pngH0: geen effect (Analyse: géén X-Y relatie)
Ha: wel een effect (Analyse: wel een X-Y relatie)

Visualiseer. Gebruik betrouwbare data (steekproef) om de relatie tussen een Y en X te visualiseren in een grafiek. Houd, bij het kiezen van de juiste grafiek, er rekening mee of Y en X continu of discreet zijn. Controleer ook nog op eventuele meetfouten.

Hypothesetoetsen stap 2 en 3.png

Toets op significantie. Toets de X-Y relatie met behulp van een juiste hypothesetoets. Houd, bij het kiezen van de juiste toets, rekening met of data (Y en X) continu of discreet is. Indien de -bij een hypothesetoets altijd berekende- kans p kleiner is dan 0,05… dan H0 verwerpen
• Bepaal de relevantie. Indien de relatie significant is, is deze relatie ook nog praktisch relevant? Bereken hiervoor statistieken die de sterkte bepalen, zoals de correlatie r (Y en X ‘continu’), de R2, of het verschil in gemiddeldes of medianen (X ‘discreet’). Interpreteer deze statistieken met inhoudelijke experts.Hypothesetoetsen stap 4.png

Je kunt op basis van de berekende formule Y=F(X) letterlijk (!) aflezen of een relatie ‘hout snijdt’ voor jouw project

Duur
Een hypothesetoets zelfstandig uitvoeren, is digitaal met statistische software in seconden tot minuten te doen. De interpretatie ervan met experts kan veel langer duren.

Synoniem en/of alternatief
In het Engels: Hypothesis testing. Ook wel statistische toetsen genaamd.
Binnen webmarketing en startende organisaties (Lean Startup) wordt ook veel gerept over bijvoorbeeld A/B testing op basis van data. Bijvoorbeeld over verschillen in aantal leads per dag op een website. Dat blijft vaak bij het vergelijken van totalen of gemiddeldes. Statistische hypothesetoetsen, ofwel kansberekeningen, worden hierbij zelden gemaakt.

Voorbeeld
Onderstaande tabel geeft bekende hypothesetoetsen weer. Deze toetsen zijn ingedeeld in enerzijds parametrische toetsen (Y is ‘redelijk’ normaal verdeeld) en verdelingsvrije toetsen (gaan uit van bijvoorbeeld discrete data of zijn robuuster voor scheve kansverdelingen, maar hebben vaak een iets grotere β-fout). In veel gevallen geven ze vergelijkbare p-waarden.

Hypothesetoetsen tabel.png

Lees meer over sterktematen en hypothesetoetsen:
-
Correlatiecoefficient r en Determinatiecoefficient R² , R-kwadraat of R-sq

- One-Way ANOVA

- Regressieanalyse

- Overzcht Hypothesetoetsen in Minitab

 foto_boek.jpg