Manuale di Statistica di base < documenti
 
Manuale di statistica descrittiva

 

INTRODUZIONE *

STATISTICA DESCRITTIVA *

1. Classificazione *
2. Distribuzioni di frequenze *
3. Rappresentazioni grafiche *
4. Valori medi *
5. Misure di variabilità o dispersione *

 

 

 

 

INTRODUZIONE

 

 

 

E' difficile dare una definizione esaustiva di statistica, in termini molto generali si può dire che si tratta di un insieme di metodi aventi per oggetto lo studio di fenomeni collettivi.

Si tratta cioè di una varietà di tecniche, ognuna con finalità diverse, volte ad analizzare un insieme di valori risultanti dall'osservazione di un fenomeno collettivo caratterizzato da una certa variabilità.

Il contesto è quindi sempre costituito da un insieme di unità dotate di uno o più caratteristiche comuni. L'obiettivo è quello di passare dal caso individuale all'insieme dei casi, alla ricerca di leggi dell'insieme, e questo a causa della variabilità dei fenomeni collettivi.

Un esempio può risultare utile per chiarire questi concetti. Se consideriamo la produzione di bulloni da parte di una macchina, per quanto possa essere precisa la macchina, dovremo aspettarci che ogni pezzo differisca dagli altri rispetto ad una caratteristica a cui possiamo essere interessati, ad esempio il diametro. Abbiamo cioè un collettivo costituito dalla produzione di bulloni, un carattere comune a tutte le unità di tale collettivo rappresentata dal diametro. Questo carattere sarà in ogni caso caratterizzato da una variabilità, ovvero da una naturale diversità fra le unità.

Il primo obiettivo che si pone la statistica è quello di sintetizzare le informazioni raccolte per ogni unità riguardo al carattere a cui si è interessati per individuare una legge generalmente valida sul comportamento di tale carattere nel collettivo in esame. Nell'esempio dei bulloni si può quindi essere interessati a determinare se la produzione deve essere ritenuta conforme a delle specifiche fissate in fase di progettazione della macchina.

Il problema che si pone nella maggioranza dei casi pratici è rappresentato dalla difficoltà di osservare tutte le unità di un determinato collettivo. Dato ad esempio un lotto di 10000 bulloni, può infatti risultare dispendioso, in termini di tempo e quindi economici, misurare il diametro di tutti i pezzi del lotto per verificarne la qualità. Si dovrà quindi osservare una parte di tale lotto, e, sulla base di questa osservazione parziale, decidere se il lotto può essere ritenuto "soddisfacente". Questo è un tipico esempio di inferenza statistica, poichè le caratteristiche del collettivo, il lotto, sono indotte da quelle di un suo sottoinsieme, detto campione. Si dovranno perciò inizialmente sintetizzare le informazioni del campione per mezzo di metodi di statistica descrittiva, per poi indurle per l'intera popolazione.

Abbiamo quindi due insiemi di tecniche statistiche: quelle di tipo descrittivo che hanno la finalità di sintetizzare un insieme di osservazioni riguardanti uno o più caratteri comuni alle unità di un collettivo, o di una parte di un collettivo; quelle di tipo induttivo che si prefiggono lo scopo di individuare le modalità per una corretta selezione di un sottoinsieme di un collettivo e le descrizione di quest'ultimo attraverso una sua osservazione parziale. Nella prima parte di questa dispensa verranno presentati alcuni strumenti di statistica descrittiva, quali la classificazione, le medie e le misure di variabilità. Nella seconda parte verranno invece presi in considerazione tutti gli aspetti concernenti l'induzione statistica. A questo riguardo si deve sottolineare che, prima di affrontare in specifico le modalità attraverso cui effettuare inferenza su una popolazione partendo da un campione, va affrontato il problema di come, data una popolazione, si ottiene un campione che possa essere utilizzato per studiare la popolazione da cui è tratto.

In altri termini saremo principalmente interessati ad una argomentazione induttiva: cioè che un carattere della popolazione può essere indotto dall'osservazione di un campione, ma questa argomentazione si basa su una deduzione a priori: il carattere osservato nel campione molto probabilmente è vicino a quello della popolazione.

Ritorniamo all'esempio del lotto i 10000 bulloni, e supponiamo ad esempio di essere interessati alla proporzione di pezzi difettosi presenti in tale lotto. In pratica noi osserveremo un campione (ad esempio di 500 bulloni) tratto da questo lotto e, sulla base della proporzione registrata nel campione, riterremo che la proporzione di difettosi nel lotto sia pari a quella campionaria, più o meno un certo errore, derivante dalla situazione di informazione connessa al fatto di avere osservato solo una parte della popolazione.

In realtà il problema che sta a monte di questo procedimento inferenziale è rappresentato da: con quale probabilità avrò un campione rappresentativo della popolazione che debbo studiare? In altri termini il fatto di ritenere la proporzione di difettosi calcolata sui 500 bulloni, rappresentativa di quella dei 10000 bulloni, si basa sul fatto che ritengo molto probabile che la proporzione di difettosi nel campione sia vicina a quella del lotto.

 

I primi capitoli della seconda parte della dispensa sono quindi dedicati alla deduzione, in particolare allo studio della probabilità, delle variabili casuali, delle loro distribuzioni caratteristiche e del problema del campionamento. In breve ci chiederemo; "data una certa popolazione, come si comporterà un campione tratto da essa? Sarà rappresentativo?". Solo quando saranno risulti questi problemi di deduzione potremo affrontare quelli di induzione. Si cercherà quindi di rispondere alla seguente domanda: "con quale precisione potremo compiere inferenze sulla popolazione ignota partendo da un campione osservato?". Individueremo, in primo luogo, il modo per fornire una stima di un parametro della popolazione partendo da un campione e, in secondo luogo, le modalità per verificare delle ipotesi su un parametro della popolazione, partendo sempre dal campione.

 

 

 

STATISTICA DESCRITTIVA

 

1. Classificazione

Un primo passaggio per giungere ad una sintesi delle osservazioni consiste nella loro classificazione; questa darà luogo ai dati statistici.

Ogni tipo di classificazione riflette un'ipotesi di lavoro, anche se provvisoria.

Il momento classificatorio è alla base di tutte le scienze di osservazione (fisiche, biologiche, sociali) e permette una schematizzazione di una realtà complessa e prepara il passaggio alle quantità.

La classificazione si risolve nella convenzionale riduzione di una pluralità di oggetti in due o più categorie (classi) mutuamente escludentisi. Questo impone la scelta di un criterio discriminante per la costruzione delle classi; tale criterio sarà evidentemente dettato da quelli che sono gli obiettivi conoscitivi.

Innanzitutto sono da distinguere diversi tipi di dati derivanti dall'osservazione dei caratteri delle unità:

caratteri di tipo quantitativo esprimibili con una misura (statura, peso, diametro, ecc.) su un continuo, oppure discreti, che assumono cioè solo determinati valori (numero di pezzi difettosi, numero di difetti in una unità, numero di pezzi prodotti, ecc.)

caratteri di tipo qualitativo, per i quali non è prevedibile un ordinamento (sesso, religione, difettoso/non difettoso, ecc.).

In base al tipo di dati osservati è possibile definire diversi tipi di classificazione:

1.scale nominali: livello più basso di misurazione; in esse si attribuiscono dei nomi alle varie classi, in modo arbitrario, senza che questo implichi una relazione di merito tra le classi stesse. Un esempio di classificazione di questo tipo è il sesso di un gruppo di persone osservate: non è infatti un carattere misurabile, e l'ordinamento della classificazione in maschio-femmina o femmina-maschio non implica alcun cambiamento nella classificazione stessa.

2.scale ordinali: quando è possibile ordinare le classi in base ad una certa caratteristica senza che però sia possibile precisare quanta ne posseggono. Ad esempio il titolo di studio, in questo caso possiamo dire che una classe è maggiore di un'altra, ma non abbiamo alcuna informazione sulla grandezza della differenza tra gli elementi.

3.scale ad intervalli: derivanti da grandezze misurabili (diametro, peso, ore lavorate, reddito, ecc.), possiamo ordinare le unità in relazione al fatto che possiedano in misura maggiore o minore una determinata caratteristica e possiamo inoltre indicare l'esatta distanza tra essi.

La formazione di classi traduce la pluralità di valori osservati in una distribuzione statistica. Possiamo quindi dare che una prima rappresentazione sintetica delle informazioni raccolte tramite delle tavole statistiche.

Se abbiamo perciò n individui osservati, in cui il carattere ordinatore X assume i valori e assunti m livelli (o intervalli) di X, con Mn (m classi), avremo che:

è una distribuzione statistica.

 

2. Distribuzioni di frequenze

Quando si hanno grandi quantità di dati grezzi (osservazioni elementari) è spesso utile distribuire i dati stessi in classi e determinare il numero di individui che appartiene a ciascuna classe. Questo numero è detto frequenza assoluta della classe.

L'ordinamento in una tavola di tutte le classi con le rispettive frequenze è detta distribuzione di frequenze.

Esempio 1:

diametro in mm.

numero di casi

60-62

5

63-65

18

66-68

42

69-71

27

72-74

8

totale

100

I valori 60-62 sono detti limiti della classe (rispettivamente limite inferiore e superiore).

In questo esempio se i diametri sono registrati al mm più prossimo, l'intervallo della classe 60.62 comprende tutti i diametri da 59.5 a 62.5: questi due valori sono detti limiti reali della classe o confini della classe.

L'ampiezza dell'intervallo è data dalla differenza tra confine superiore ed inferiore (62.5-59.5=3).

Il valore centrale si ottiene sommando il limite inferiore e quello superiore e dividendo per due ( (60+62)/2=61 ).

La frequenza relativa di una classe è la frequenza assoluta della rapportata al totale delle osservazioni (freq. relativa della prima classe pari a 5/100=0.05). La tavola che si ottiene utilizzando le frequenze relative è detta distribuzione delle frequenze relative. Spesso le frequenze relative sono espresse in termini percentuali: questo esprime il numero di osservazioni che si avrebbero in una classe se il numero totale di osservazioni fosse di 100 unità.

La frequenza totale di tutti i valori inferiori al confine superiore di una classe è detta frequenza cumulata. Ad esempio per la classe 66-68, la freq. cumulata è pari a 5+18+42=65, cioè 65 pezzi hanno un diametro inferiore a 68.5 mm.

diametro in mm.

frequenza assoluta

frequenza relativa

frequenza assoluta cumulata

frequenza relativa cumulata

60-62

5

0.05

5

0.05

63-65

18

0.18

23

0.23

66-68

42

0.42

65

0.65

69-71

27

0.27

92

0.92

72-74

8

0.08

100

1

totale

100

1

   

 

 

 

 

 

 

3. Rappresentazioni grafiche

Il modo più immediato per rendere graficamente una distribuzione di frequenze consiste nella costruzione di un istogramma. Si tratta di un grafico composto da tanti rettangoli quante sono le classi della distribuzione, ognuno con una altezza pari alla frequenza della classe (la frequenza può essere quella assoluta o, in alternativa, quella relativa).

 

 

 

 

E' possibile costruire istogrammi in cui sia l'area ad essere proporzionale alla frequenza relativa. L'utilità di questo tipo di istogramma consiste nella possibilità di rappresentare correttamente anche classificazioni in cui l'ampiezza degli intervalli non è uguale per tutte le classi.

 

 

Si dicono spezzate quei grafici in cui il valore centrale di ciascuna classe è congiunto a quello delle classi vicine appunto per mezzo di una spezzata:

 

 

Vengono invece dette ogive le rappresentazioni grafiche delle distribuzioni cumulate di frequenza:

 

 

Oltre agli istogrammi e alle spezzate è possibile rendere visivamente distribuzioni per mezzo di altri tipi di grafico, quali le torte o le pile.

Le torte sono costitute da un cerchio la cui area è suddivisa in spicchi proporzionali alle diverse classi della distribuzione da rappresentare. L'area complessiva della torta rappresenta quindi la totalità delle osservazioni, mentre ciascuna fetta rappresenta il peso percentuale di ciascuna classe.

 

Le pile sono grafici concettualmente simili alle torte, con la differenza che, anzichè fare riferimento ad un cerchio, la totalità delle osservazioni è rappresentata da un rettangolo la cui area è suddivisa proporzionalmente tra le varie classi.

 

 

4. Valori medi

Affrontiamo ora il problema di come si possa caratterizzare una distribuzione di frequenze o una serie di osservazioni, per mezzo di una singola misura descrittiva. In realtà si tratta di individuare due tipi di descrizione molto utili: la prima è costituita dal punto centrale o valore medio, la seconda dalla dispersione o misura di variabilità.

Vi possono essere diverse misure del valore medio; la prima e più semplice è costituita dalla moda, che in una distribuzione di frequenze è rappresentata dal valore centrale della classe più numerosa. Questa misura non può essere considerata sufficiente per descrivere in sintesi una classificazione, dipende infatti dal raggruppamento arbitrario di dati.

La misura di intensità più comunemente utilizzata è la media aritmetica. Questa rappresenta l'ammontare del carattere che spetterebbe a ciascuna unità se il carattere fosse distribuito uniformemente.

Nel caso di osservazioni elementari la media aritmetica si calcola come somma dell'ammontare del carattere in ciascuna unità, e dividendo tale somma per il numero di unità che hanno contribuito a tale somma:

Esempio 1:

osservazioni: spessore in cm. 12.5 13.2 12.7 13.0 13.1 12.4

somma osservazioni= = 12.5+13.2+12.7+13.0+13.1+12.4= 76.9

media =76.9/6=12.82

Nel caso invece che si abbiano dei dati già classificati in una distribuzione di frequenze, non sarà più possibile sommare l'ammontare del carattere in ciascuna unità perchè, per mezzo della classificazione, si è già perso il riferimento alle singole unità; si deve quindi ricorrere all'ipotesi che ciascuna unità appartenente ad una classe disponga di una quantità del carattere pari al punto centrale della classe a cui appartiene. In altri termini, ritornando all'esempio dei diametri, non sappiamo quali siano le misure dei diametri dei 5 pezzi che ricadono nella prima classe; dovremo quindi porre l'ipotesi che tutti e 5 abbiano un diametro pari a 61 mm (valore centrale di quella classe). A questo punto per ricostruire l'ammontare complessivo del carattere in tutte le unità osservate, si dovrà sommare il prodotto tra il valore centrale per la frequenza assoluta per tutte le classi, e dividere per il numero totale di unità:

dove:

 

Esempio 2:

classificazione diametri in mm.

diametro in mm.

numero di casi

valori centrali delle classi

60-62

5

61

63-65

18

64

66-68

42

67

69-71

27

70

72-74

8

73

totale

100

 

Una terza misura di intensità è rappresentata dalla mediana. Si tratta del cinquantesimo percentile, ovvero del valore al di sotto del quale cade la metà dei valori osservati.

Nel caso quindi di osservazioni elementari non si dovrà fare altro che ordinare in modo crescente le osservazioni e verificare quale sia il valore centrale, nel caso in cui il numero di osservazioni sia dispari; se le osservazioni sono pari si dovrà invece considerare la semisomma dei due valori centrali:

osservazioni ordinate

osservazioni ordinate

 

2

2

5

5

7

7

11

11

12

12

 

15

mediana=7

mediana=(7+11)/2=9

Se invece si dispone di una distribuzione di frequenze la procedura di calcolo della mediana diviene:

dove:

l=confine superiore della classe contenente la mediana

F=frequenza cumulata corrispondente al limite inferiore della classe contenente la mediana

f=frequenza assoluta della classe contenente la mediana

i=ampiezza della classe contenente la mediana.

Esempio 3:

Riprendendo la distribuzione dell'esempio precedente abbiamo:

diametro in mm.

frequenza assoluta

frequenza assoluta cumulata

60-62

5

5

63-65

18

23

66-68

42

65

69-71

27

92

72-74

8

100

totale

100

 

5. Misure di variabilità o dispersione

Benchè la media possa essere la più importante caratteristica in una popolazione o in un campione è altrettanto importante conoscere come si dispongono le unità osservate. Come nel caso delle misure medie, vi sono parecchie misure di dispersione.

La più semplice è costituita dal campo di variazione, calcolata come distanza tra il valore più grande e quello più piccolo.

Se consideriamo le osservazioni dello spessore in cm. di un bullone:

[12.5, 13.2, 12.7, 13.0, 13.1, 12.4]

il campo di variazione sarà: 13.2-12.4=0.8cm.

Questo tipo di indice va incontro ad una critica immediata, poichè non dice nient'altro della distribuzione se non i suoi limiti. Questi due valori (il massimo e il minimo) possono anche non essere particolarmente significativi; per questo motivo si preferisce utilizzare indici di variabilità che tengano conto di tutte le osservazioni.

Lo scarto medio si trova calcolando la differenza di ciascuna osservazione dalla media, facendo poi una media aritmetica di questi scarti . Benchè questa possa essere considerata una buona misura di variabilità, sorge il problema che la somma degli scarti positivi annulla la somma degli scarti negativi, dando quindi sempre luogo ad una media nulla. Per ovviare a questo problema una prima soluzione consiste nel calcolare la media degli scarti in valore assoluto; dando luogo allo scarto medio assoluto:

Questa rappresenta una buona misura di variabilità, tuttavia presenta alcuni inconvenienti dal punto di vista matematico. Si preferisce quindi un indice alternativo che supera il problema del segno degli scarti, elevando al quadrato ogni scarto: la varianza:

Una formula calcolatoria che consente di ottenere il valore della varianza in maniera più rapida è costituita da:

La varianza esprime la variabilità delle osservazioni nell'unità di misura delle osservazioni stesse elevata al quadrato; per ottenere una misura di dispersione che abbia invece la stessa unità di misura osservata si calcola lo scarto quadratico medio o deviazione standard:

la quale non è altro che la radice quadrata della varianza.

Le formule viste per la varianza e lo scarto quadratico medio sono valide nel caso in cui si disponga di dati elementari; se invece sono disponibili dati raggruppati in classi dovremo ancora una volta ipotizzare che tutte le osservazioni che ricadono in una determinata classe presentino una intensità del carattere pari al valore centrale della classe. Avremo perciò che la varianza sarà:

dove: c rappresenta il valore centrale delle classi e f la frequenza assoluta.

Anche per dati raggruppati in classi la deviazione standard sarà pari alla radice quadrata della varianza.

Esempio 1

Riprendiamo le osservazioni: spessore in cm. 12.5 13.2 12.7 13.0 13.1 12.4

in questo caso la media è pari a 12.82, per cui la varianza sarà:

lo stesso risultato si può ottenere con la formula calcolatoria:

lo scarto quadratico medio sarà quindi

Esempio 2

consideriamo nuovamente la distribuzione:

diametro in mm.

frequenza assoluta

f

valori centrali

c

valori centrali al quadrato per frequenza assoluta

c2f

60-62

5

61

3721*5=18605

63-65

18

64

4096*18=73728

66-68

42

67

4489*42=188538

69-71

27

70

4900*27=132300

72-74

8

73

5329*8=42632

totale

100

 

455803