11. Teoria elemental de les mostres

Índex | Anterior | Següent | Taules

 

Teoria de les mostres

La teoria de les mostres estudia la relació que hi ha entre els paràmetres d'una població i els estadístics obtinguts a partir de les mostres. En general els paràmetres són estimats pels estadístics homòlegs. Així la mitjana aritmètica μ de la població és estimada per la mitjana aritmètica M de la mostra, la desviació estàndard σ de la població per la desviació estàndard s de la mostra, etc.

Però aquesta relació no és senzilla, i cal elaborar una teoria que n'estableixi l'exactitud i el grau de fiabilitat.

Per fonamentar una teoria de les mostres cal procedir a la inversa del que es farà en aplicar-la: si d'un estadístic n'hem d'inferir un paràmetre, cal que comencem estudiant sistemàticament les mostres que podem obtenir d'una població, els estadístics obtinguts en aquestes mostres i la relació entre els estadístics i els paràmetres poblacionals corresponents.

Per a aquesta comesa es fan servir la combinatòria i el càlcul de probabilitats.

 

Mostres amb reemplaçament

Per a la fonamentació de la teoria de les mostres es fa servir el concepte de mostres amb reemplaçament. En una mostra amb reemplaçament disposem tots els elements de la població en una urna i n'extraiem un i el retornem a l'urna; fem la segona extraccció i així successivament. D'aquesta manera, en una mostra un mateix element pot aparèixer més d'una vegada.

Per a mides de mostra grans una mostra sense reemplaçament és, a efectes pràctics, equivalent a una mostra amb reemplaçament.

En tot el que segueix, quan parlem de mostres cal entendre-hi mostres amb reemplaçament.

 

Distribucions mostrals i errors típics

Considerem totes les mostres possibles de mida N d'una població. Per a cada una de les mostres calculem un determinat estadístic; aquest, lògicament, variarà d'una mostra a l'altra. El conjunt dels estadístics així calculats constitueix una distribució, anomenada distribució mostral.

La desviació estàndard de la distribució mostral d'un estadístic constitueix l'error típic d'aquest. Es representa amb σe, on e és l'estadístic corresponent.

 

Qualitats dels estadístics

Els estadístics que fem servir per a estimar paràmetres han de reunir una sèrie de qualitats per tal que l'estima sigui fiable.

Entre aquests propietats n'hi ha dues de fonamentals:

Es tracta de qualitats independents: l'una no comporta l'altra.

 

Biaix

Diem que un estadístic és esbiaixat quan la mitjana aritmètica de la distribució mostral de l'estadístic no coincideix amb el paràmetre que es tracta d'estimar.

En canvi, si hi ha coincidència, diem que l'estadístic és no esbiaixat; com és lògic, aquesta és la situació òptima.

Si un estadístic és esbiaixat, per fer-lo servir caldrà introduir-hi algun factor de correcció.

Com veurem, les mitjanes aritmètiques mostrals constitueixen una distribució la mitjana aritmètica de la qual coincideix amb la mitjana aritmètica poblacional. Diem doncs que la mitjana aritmètica mostral és un estimador no esbiaixat de la mitjana aritmètica poblacional.

En canvi, la mitjana aritmètica de les desviacions estàndard mostrals no coincideix amb la desviació estàndard poblacional. La desviació estàndard mostral és un estimador esbiaixat de la desviació estàndard poblacional.

 

Eficiència

Diem que un estadístic és eficient si la seva variació de mostra a mostra, és a dir, el seu error típic, és petit.

Tant la mitjana aritmètica mostral com la mediana mostral són estimadors no esbiaixats de la mitjana aritmètica poblacional. L'error típic de la primera és més petit que el de la segona. Diem doncs que la mitjana aritmètica mostral és més eficient que la mediana mostral com a estimador de la mitjana aritmètica poblacional.

 

Estimes per punts i estimes per intervals

L'estimació d'un paràmetre poblacional donada per un sol nombre s'anomena estimació per punt del paràmetre.

L'estimació donada per dos nombres entre els quals es considera que es troba el paràmetre, s'anomena estimació per interval del paràmtre.

Les estimes per intervals n'indiquen la precisió i per això són preferibles.

Si diem que una distància és de 4,75 cm., donem una estimació per punt. En canvi, si diem que es troba compresa entre 4,74 i 4,76 cm., en donem una estimació per interval.

 

Intervals de confiança

Si volem fer una estimació per intervals, és un gran avantatge que la distribució mostral de l'estadístic corresponent sigui propera a la distribució normal, cosa que s'esdevé sovint. En efecte, en aquest cas s'hi poden aplicar, amb un marge d'error molt petit, les notables propietats de les distribucions normals.

Considerem un paràmetre ε. Suposem que e n'és un estadístic no esbiaixat, i que la seva distribució mostral és aproximadament normal.

En una primera aproximació diem

e = ε

Però per afinar més considerem que e en realitat és només un element d'una distribució. Ens preguntem doncs pels límits superior i inferior d'e amb una probabilitat p, i com que la distribució és normal, concloem que e queda comprès entre els límits donats per

e = μe ± σe zc

amb una probabilitat

p = f(zc)

que obtenim consultant les taules de la distribució estàndard normalitzada.

 

Estimes mitjançant intervals de confiança

El problema real habitual és l'invers: coneixem un sol valor e, i a partir d'aquest volem estimar ε. En un primer moment, el de l'estima per punts, diem que

ε = e

Si volem fer l'estima per intervals, ens preguntem pels valors màxim i mínim de ε.

Si e és el mínim, correspondrà al màxim μe capaç d'incloure'l en el seu interval de confiança, i si és el màxim, correspondrà al màxim. Per tant:

μe = e ± σe zc

I com que es tracta d'un estimador no esbiaixat, serà també

ε = e ± σ zc