20. Correlació

Índex | Anterior | Següent | Taules

 

Coeficient de correlació

El coeficient de correlació indica en quina mesura es relacionen els valors de dues variables.

En la venda d'un producte, hi ha una correlació perfecta entre la quantitat adquirida i el preu pagat (si no hi ha descomptes per quantitat, el gràfic serà una recta; si n'hi ha, una altre tipus de línia). El nombre de paraules d'un conjunt de novel·les i l'hora de naixement dels respectius autors no tindrà probablement cap mena de correlació (amb perdó dels astròlegs). I en aquell exemple de l'alçada i el pes de les persones, hi haurà no pas una correlació perfecta, però sí algun grau de correlació.

El coeficient de correlació lineal o de Pearson es defineix com

ρ = σxy / σxσy

L'avantatge d'aquesta definició és que estableix una mesura de la correlació independent de l'establiment de qualsevol línia d'ajustament en particular.

Reprenent l'exemple del tema anterior, en què

U= {(-3, -5), (-1, 1), (2, 3), (3, 4), (5, 8), (6, 7), (7, 7)}
μx = 2,714
μy = 3,571
σxy = 13,592
σx2 = 11,633
y' = 1,168 x + 0,400

1) Calculem σx:

σx = 3,411

2) Calculem σy:

σy2 = 17,673 ==>
σy = 4,204

3) Calculem ρ:

ρ = 13,592 / (3,411 . 4,204 ) = 0,948

 

Valors del coeficient de correlació

El valor de ρ pot anar de +1 a -1. Un valor de 0 indica absoluta manca de correlació o, dit d'una altra manera, aleatorietat total. Un valor +1 significa correlació perfecta. Un valor -1 significa correlació negativa perfecta (com més gran és el valor x, més petit és el valor y). Els valors compresos entre 0 i +1 representen els diversos nivells de correlació positiva, i els valors compresos entre 0 i -1, els diversos nivells de correlació negativa.

 

Càlcul del coeficient de correlació de Pearson

A partir de la definició del coeficient de correlació lineal de Pearson, es demostren diverses relacions útils per al càlcul d'aquest paràmetre.

Si estandarditzem les variables, obtenim una expressió molt simple:

ρ = Σ(zxzy) / N

Si coneixem les desviacions estàndard de la x i de la y i el pendent α de la recta, tenim que

α / ρ = σy / σx

En el cas que ens ocupa,

ρ = 1,168 . 3,411 / 4,204 = 0,948

que és el mateix valor que ja havíem obtingut.

 

Variància explicada i variància no explicada

Quan calculem els valors teòrics y' de la variable dependent a partir de l'equació d'una línia d'ajustament, els valors teòrics obtinguts difereixen dels valors reals. Per a cada valor real y tenim un valor teòric y', i una diferència entre els dos,

d = y - y'

Es demostra que per al mètode de mínims quadrats

σy2 = σy'2 + σd2

El terme σy'2 s'anomena variància explicada, perquè representa la part de la variància que depèn de la variància de la x, i que seria l'única si tots els punts estiguessin realment sobre la línia d'ajustament. El terme σd2 s'anomena variància no explicada.

Hi ha una relació entre la variància explicada i el coeficient de correlació de Pearson:

ρ2 = σy'2 / σy2

Així, en l'exemple reiterat,

ρ2 = 0,899

i això significa que el 89,9% de la variància d'y és explicat per la dependència de la variància d'x. El 10,1% restant queda inexplicat i es considera aleatori.

 

Error típic de l'estimació d'y

Quan estimem el valor y desconegut assimilant-lo al valor y' calculat amb una línia d'ajustament y' = f(x), incorrem en un error.

L'error consisteix a ignorar les desviacions entre els valors y' i y, és a dir, a considerar perfecta una correlació que no ho és.

Aquest error és doncs inherent a la naturalesa de la població que examinem, i totalment diferent dels que podem atribuir al fet de treballar amb mostres: en tot cas s'acumula a aquests.

El valor σd s'anomena error típic de l'estimació d'y'.

Aquest error típic té unes propietats semblants a les de la desviació estàndard. Si construïm línies paral·leles a la línia d'ajustament a les distàncies corresponents a una, dues i tres vegades l'error típic, les franges delimitades contindran, si N és prou gran, el 68,26%, el 95,44% i el 99,74% dels punts.

Si N és petit, és preferible definir l'error típic de l'estima com

[ Σ( y - y' )2 / N - 2 ]1/2

 

Correlació i causalitat

És molt important no confondre correlació i causalitat. Dues variables matemàticament correlacionades poden ésser en realitat totalment independents. El cas típic es dóna quan dues variables depenen causalment d'una tercera, fet que produeix una correlació no causal entre les dues primeres.

Quan fa calor, la gent tendeix a menjar més gelats. Quan fa calor, la gent tendeix més a banyar-se en el mar, i quan hi ha més gent que es banya en el mar, n'hi ha més que mor ofegada. Per consegüent pot donar-se una correlació entre consum de gelats i morts per ofegament, però seria absurd de dir que el consum de gelats és la causa de les morts per ofegament.

Abans d'establir cap hipòtesi sobre les relacions de causa a efecte, és imprescindible assegurar-se, amb proves complementàries, que no hi hagi terceres variables que donin correlacions de significat fictici.