Hypothesetoetsen


Sterktematen:
Correlatie- (r) en determinatiecoëfficiënt (R²)

foto_boek.jpg

Correlatiecoëfficiënt

Doel
Bepalen van de sterkte van de lineaire relatie tussen twee continue variabelen

In het kort
Een correlatiecoëfficiënt r is een lineaire maat voor de sterkte tussen twee continue variabelen.

Toelichting
De correlatiecoëfficiënt r die we hier bedoelen (de ‘standaard’), is ontwikkeld door Karl Pearson (1897). Het is een maat die tussen de -1 en +1 ligt.

De correlatie r wordt als volgt berekend:Hypothesetoetsen formule correlatiecoefficient r.png

waarbij:
S staat voor de standaardafwijking van Y of X, of de covariantie tussen Y en X
y de onafhankelijke, vaak de te verbeteren continue variabele is
x de afhankelijke, mogelijk de continue (grond)oorzaak is

Aanpak
• Correlaties bereken je vaak met statistische software
• We classificeren correlaties als volgt:
·· Correlatie r rond de 0:                             geen relatieHypothesetoetsen formule opmerking.png
·· Correlatie r groter dan 0,25 (< 0,25)      een zwak positieve (negatieve) relatie
·· Correlatie r groter dan 0,50 (<-0,5)        een matig positieve (negatieve) relatie
·· Correlatie r groter dan 0,70 (< -0,7)       een sterk positieve (negatieve) relatie
·· Correlatie r nabij de 1 (nabij de -1)        een perfect positieve (negatieve) relatie

Synoniem en/of alternatief
In het Engels: Correlation, Correlation Coefficient of Correlation Analysis.
Alternatief is Spearman’s correlatie (1904) of Fitted Line Plot (Minitab).

Duur
Een correlatie zelf berekenen is digitaal (met software) in enkele minuten te realiseren.

Determinatiecoëfficiënt

DoelHypothesetoetsen sterktematen tip1.png
•Bepalen van de mate waarin een model Y=F(X) de werkelijkheid benadert

In het kort
De determinatiecoëfficiënt R² is een maat voor het deel van de variatie, dat wordt verklaard door het statistisch model. Zoals: voor hoeveel % verklaart je regressielijn de processituatie?

Toelichting
De R² wordt binnen Lean Six Sigma ook vaak gebruikt als percentage voor hoeveel de variatie van ‘oorzaak’ X, de variatie van ‘gevolg’ Y verklaart. De R² ligt tussen de 0 en 100%. In het geval van enkelvoudige lineaire regressie is R² gelijk aan het kwadraat van de correlatiecoëfficiënt. In het geval van meervoudige regressie (meerdere X’en) valt R² te definiëren als de fractie verklaarde variantie van het betreffende regressiemodel.

De R² kun je als volgt berekenen: Hypothesetoetsen determinatiecoefficient formule.png

, waarbij
• VAR staat voor de variantie van het model (regressie), en van alle metingen (totaal)
• y de onafhankelijke, vaak de te verbeteren continue indicator is (in model- of meetwaarden)

Aanpak
• De R² bereken je normaliter met statistische software
• De R² kun je als volgt interpreteren (indicatief):Hypothesetoetsen determinatiecoefficient opmerking.png
·· R² onder de 25%        een zwak tot geen verklarend model (of geen verklarende X)
·· R² groter dan 25%      een voor procesverbetering mogelijk interessante, verklarende X
·· R² groter dan 50%      een matig tot uitstekend verklarend model (of goed verklarende X)

Synoniem en/of alternatief
De R² wordt ook wel Fractie Verklaarde Variantie (FVV) genoemd. In het Engels: coefficient of determination. Alternatief bij enkelvoudige regressie is de correlatie. Bij relatief weinig data adviseren wij een aangepaste (Engels: adjusted) R²: de R(Ajd)². Ook kun je kijken naar de Standaardafwijking S van het residu van het model (een absolute maat voor modelafwijking).

Duur
Een R² berekenen is, met behulp van statistische software, in seconden/minuten voor elkaar.

Determinatiecoëfficiënt

Voorbeeld
Onderstaande voorbeelden geven patronen weer, zoals ‘geen relatie’, een ‘positieve lineaire relatie’ en een ‘negatieve lineaire relatie’. Bij deze Matrixplot zijn ook de bijbehorende correlatie r en determinatiecoëfficiënt R² weergegeven.

De correlatie tussen ‘Op tijd leveren’ en ‘Aantal missende onderdelen’ is nihil (r= -0,16).
De correlatie tussen ‘Op tijd leveren’ en ‘Extra kosten’ is zwak negatief (r= -0,46).
De correlatie tussen ‘Aantal missende onderdelen’ en ‘Extra kosten’ is sterk positief (r= 0,85).

De R² tussen ‘Op tijd leveren’ en ‘Aantal missende onderdelen’ is nihil (R² = 3%).
De R² tussen ‘Op tijd leveren’ en ‘Extra kosten’ is zwak (R² = 21%).
De R² tussen ‘Aantal missende onderdelen’ en ‘Extra kosten’ is hoog (R² = 72%).

Hypothesetoetsen sterktematen voorbeeld.png
 foto_boek.jpg