Hypothesetoetsen: sterktematen r en R2

op

Een correlatiecoëfficiënt r is een lineaire maat voor de sterkte tussen twee continue variabelen. De correlatiecoëfficiënt r die we hier bedoelen (de ‘standaard’) is ontwikkeld door Karl Pearson (1897). Het is een maat die tussen de -1 en +1 ligt.

De correlatie r wordt als volgt berekent: , waarbij

  • S staat voor de standaardafwijking van Y of X, of de covariantie tussen Y en X
  • y de onafhankelijke, vaak de te verbeteren continue variabele is
  • x de afhankelijke, mogelijk de continue (grond)oorzaak is

Correlatiecoëfficiënt r berekenen

Correlaties bereken je vaak met statistische software. We classificeren correlaties als volgt:

  • Correlatie r rond de 0 --> geen relatie
  • Correlatie r groter dan 0,25 (< 0,25) --> een zwak positieve (negatieve) relatie
  • Correlatie r groter dan 0,50 (<-0,5) --> een matig positieve (negatieve) relatie
  • Correlatie r groter dan 0,70 (< -0,7) --> een sterk positieve (negatieve) relatie
  • Correlatie r nabij de 1 (nabij de -1) --> een perfect positieve (negatieve) relatie

Synoniem en alternatief van correlatie

In het Engels: Correlation, Correlation Coefficient of Correlation Analysis.

Alternatief is Spearman’s correlatie (1904) of Fitted Line Plot (Minitab).

Duur van het berekenen van een correlatie

Een correlatie zelf berekenen is digitaal (met software) in wat minuten te realiseren.

De correlatiecoëfficiënt R2

De determinatiecoëfficiënt R2 is een maat voor het deel van de variatie, dat wordt verklaard door het statistisch model. Zoals: voor hoeveel % verklaart je regressielijn de processituatie?

Doel van de correlatiecoëfficiënt R2

Bepalen van de mate waarin een model Y=F(X) de werkelijkheid benadert

Toelichting

De R2 wordt binnen (Lean) Six Sigma ook vaak gebruikt als percentage voor hoeveel de variatie van ‘oorzaak’ X, de variatie van ‘gevolg’ Y verklaart. De R2 ligt tussen de 0 en 100 procent (%). In het geval van enkelvoudige lineaire regressie is  gelijk aan het kwadraat van de correlatiecoëfficiënt. In het geval van meervoudige regressie (meerdere X’en) valt R² te definiëren als de fractie verklaarde variantie van het betreffende regressiemodel.

De R2 kan je als volgt berekenen: , waarbij

  • VAR staat voor de variantie van het model (regressie), en van alle metingen (totaal)
  • y de onafhankelijke, vaak de te verbeteren continue indicator is (in model- of meetwaarden)

Correlatiecoëfficiënt R2 berekenen

De R2 bereken je normaliter met statistische software. De R2 kun je als volgt interpreteren (indicatief):

  • R2 onder de 25% --> een zwak tot geen verklarend model (of geen verklarende X)
  • R2 groter dan 25% --> een voor procesverbetering mogelijk interessante, verklarende X
  • R2 groter dan 50% --> een matig tot uitstekend verklarend model (of goed verklarende X)

Synoniem en alternatief van de correlatiecoëfficiënt R2

De R2 wordt ook wel Fractie Verklaarde Variantie (FVV) genoemd. In het Engels: coefficient of determination. Alternatief bij enkelvoudige regressie is de correlatie. Bij relatief weinig data adviseren wij een aangepaste (Engels: adjusted) R2: de R_Adj^2. Ook kun je kijken naar de Standaardafwijking S van het residu van het model (een absolute maat voor modelafwijking).

Ook wordt voor de hypothesetoets ANOVA bijvoorbeeld de η2 als sterktemaat aangegeven. De η2 (eta-kwadraat) is identiek aan de interpretatie van R2. 

Duur van het berekenen van de correlatiecoëfficiënt R2

Een R2 berekenen is, met behulp van statistische software, in seconden/ minuten voor elkaar.

Voorbeeld van r en R2

Onderstaande voorbeelden geven patronen weer, zoals “geen relatie”, een “positieve lineaire relatie” en een “negatieve lineaire relatie”. Bij deze Matrixplot zijn ook de bijbehorende correlatie r en determinatiecoëfficiënt R2 weergegeven.

  • De correlatie tussen ‘Op tijd leveren’ en ‘Aantal missende onderdelen’ is nihil (r= -0,16).
  • De correlatie tussen ‘Op tijd leveren’ en ‘Extra kosten’ is zwak negatief (r= -0,46).
  • De correlatie tussen ‘Aantal missende onderdelen’ en ‘Extra kosten’ is sterk positief (r= 0,85).

  • De R2 tussen ‘Op tijd leveren’ en ‘Aantal missende onderdelen’ is nihil (R2 = 3%).
  • De R2 tussen ‘Op tijd leveren’ en ‘Extra kosten’ is zwak (R2 = 21%).
  • De R2 tussen ‘Aantal missende onderdelen’ en ‘Extra kosten’ is hoog (R2 = 72%).

Matrixplot met sterktematen r en R2

Meer lezen over de volgende onderwerpen:

Meer weten over sterktematen?

Portretfoto Tom cirkelvorm

Tom Torpstra

Trainer/adviseur

LSSP boek: Samenzinnig verbeteren
De complete toolbox om aantoonbaar te verbeteren.

Portretfoto Tom cirkelvorm

Tom Torpstra

Black Belt

"Bedenk: een statistische relatie betekent nog geen causale relatie!"

Onze Lean Six Sigma Trainingen

Benieuwd naar wat wij doen?
 
In onze brochure vind je ons volledige trainings- en consultancyaanbod.
Download de brochure