Comprendere la varianza, la covarianza e la correlazione – di cosa si tratta?
Mentre riflettevo su alcuni dati e sul tema generale di come la variabilità di un dato possa influire sugli altri, mi sono reso conto che, sebbene utilizzi spesso strumenti matematici a supporto, non mi ero mai soffermato a pensare a come rendere questi concetti più comprensibili per chi non è esperto del settore. Ho quindi deciso di provare a spiegare alcuni concetti di statistica avanzata usando un approccio meno formale. Di seguito cercherò di farlo, ma per completezza includerò anche i formalismi matematici per dare un senso di completezza all’articolo.
Quando analizzi dei dati, è fondamentale capire come le variabili si comportano, sia singolarmente che in relazione tra loro. Tre concetti chiave che aiutano a quantificare e interpretare la variabilità e le relazioni tra variabili sono la varianza, la covarianza e la correlazione.
Varianza
La varianza è una misura della dispersione dei dati rispetto alla loro media. Essa quantifica quanto i valori di un insieme di dati si discostano dalla media.
Dove:
- è il numero totale di dati.
- xi è il singolo valore dei dati.
- μ è la media dei dati.
In modo più rozzo possiamo affermare che La varianza è una misura che ci dice quanto i nostri dati sono “sparpagliati” intorno alla media. Immagina di avere un gruppo di numeri: la varianza ci aiuta a capire se questi numeri sono vicini tra loro o se sono molto distanti dalla media del gruppo.
Interpretazione:
- Varianza alta: Quando la varianza è alta, significa che i dati sono molto dispersi, ovvero i valori individuali sono molto diversi tra loro e dalla media.
- Varianza bassa: Quando la varianza è bassa, significa che i dati sono molto vicini tra loro e alla media, quindi c’è poca dispersione.
Esempio: Prendiamo questi numeri: 2, 4, 4, 4, 5, 5, 7, 9.
- Calcolo della media: La media di questi numeri è 5.
- Calcolo degli scarti: Ora vediamo quanto ogni numero si discosta dalla media (5):
- (2−5)² = 9
- (4−5)² = 1
- (4−5)² = 1
- (4−5)² = 1
- (5−5)² = 0
- (5−5)² = 0
- (7−5)² = 4
- (9−5)² = 16
- Calcolo della varianza: Sommiamo questi scarti e dividiamo per il numero totale di dati:
Quindi, la varianza di questi numeri è 4, indicando che c’è una certa dispersione dei dati rispetto alla media. In altre parole, i numeri non sono tutti molto vicini tra loro, ma nemmeno troppo distanti: sono moderatamente sparpagliati.
Covarianza
La covarianza misura quanto due variabili variano insieme. Se le variabili tendono ad aumentare e diminuire insieme, la covarianza è positiva; se una aumenta mentre l’altra diminuisce, è negativa.
Dove:
- Xi e sono i valori delle due variabili.
- e sono le medie delle due variabili.
La covarianza è dunque un numero che ci dice come due variabili si comportano insieme. È come se stessimo cercando di capire se due cose tendono a cambiare nello stesso modo.
- Covarianza positiva: Se la covarianza è positiva, significa che quando una variabile aumenta, l’altra tende a aumentare anche lei, e quando una diminuisce, l’altra tende a diminuire. È come se le due variabili andassero a braccetto.
- Covarianza negativa: Se la covarianza è negativa, significa che quando una variabile aumenta, l’altra tende a diminuire, e viceversa. È come se una variabile andasse in una direzione e l’altra nella direzione opposta.
- Covarianza vicina a zero: Se la covarianza è vicina a zero, significa che non c’è una relazione chiara tra come le due variabili cambiano. È come se le variabili non avessero alcun legame.
Esempio: Immaginiamo di voler vedere se c’è una relazione tra le ore di studio e i voti degli studenti. Supponiamo di avere questi dati:
- Ore di studio: 2, 3, 5, 7, 9
- Voti: 50, 55, 65, 70, 80
Se calcoliamo la covarianza e troviamo un numero positivo, significa che più uno studente studia, migliori sono i suoi voti. Se il numero fosse negativo, significherebbe che più uno studente studia, peggiori sono i suoi voti, il che non ha molto senso in questo contesto. Se fosse vicino a zero, non ci sarebbe una chiara relazione tra le ore di studio e i voti.
Quindi, la covarianza ci aiuta a capire se e come due variabili si muovono insieme, dandoci un’idea della loro relazione senza dirci esattamente quanto è forte questa relazione.
Correlazione
La correlazione è una misura normalizzata della relazione lineare tra due variabili, indicando sia la direzione che la forza della relazione.
Dove:
- sono le deviazioni standard delle due variabili
Scala: La correlazione varia tra -1 e 1.
- +1 indica una perfetta correlazione positiva.
- -1 indica una perfetta correlazione negativa.
- 0 indica nessuna correlazione lineare.
La correlazione è un numero che ci dice quanto due variabili sono legate tra loro e come si muovono insieme. È simile alla covarianza, ma è più facile da interpretare perché è sempre compresa tra -1 e 1.
Interpretazione:
- Correlazione positiva (vicina a +1): Quando la correlazione è vicina a +1, significa che le due variabili tendono a crescere e diminuire insieme. In altre parole, se una variabile aumenta, l’altra tende ad aumentare anch’essa.
- Correlazione negativa (vicina a -1): Quando la correlazione è vicina a -1, significa che le due variabili tendono a muoversi in direzioni opposte. Se una variabile aumenta, l’altra tende a diminuire.
- Correlazione zero: Una correlazione vicino a 0 indica che non c’è una relazione lineare chiara tra le due variabili. Cambiare una variabile non ci dice nulla su come cambierà l’altra.
Esempio: Immaginiamo di voler capire la relazione tra il numero di ore di studio e i voti degli studenti.
- Se calcoliamo la correlazione e otteniamo un valore di +0.9, possiamo dire che c’è una forte relazione positiva: più uno studente studia, migliori sono i suoi voti.
- Se invece il valore è -0.8, significa che c’è una forte relazione negativa: più uno studente studia, peggiori sono i suoi voti (strano, ma è un esempio).
- Se il valore è 0.1, allora non c’è una chiara relazione lineare: le ore di studio non sembrano influenzare molto i voti.
La correlazione ci fornisce un modo semplice e chiaro per capire la forza e la direzione della relazione tra due variabili, rendendo più facile l’interpretazione dei dati rispetto alla covarianza.
Differenze Chiave tra Covarianza e Correlazione
- Normalizzazione: La covarianza non è normalizzata, quindi il suo valore dipende dalle unità delle variabili. La correlazione, essendo normalizzata, è compresa tra -1 e 1.
- Interpretabile: La correlazione è più facilmente interpretabile poiché fornisce una misura relativa e diretta della relazione lineare.
- Scala: La covarianza è influenzata dalle scale delle variabili, rendendo difficile il confronto diretto. La correlazione consente un confronto indipendente dalle unità di misura.
Esempio Pratico
Consideriamo due set di dati per due variabili,
e Y
- X:1,2,3,4,5
- Media:,
- Deviazione Standard:,
- Covarianza:
- Correlazione:
In questo esempio, la correlazione è 1, indicando una perfetta correlazione positiva tra
e , mentre la covarianza è 5, che da sola non fornisce informazioni sulla forza della relazione.Spero che questa riflessione sia utile per te quanto lo è stata per me.
Sono amante della tecnologia e delle tante sfumature del mondo IT, ho partecipato, sin dai primi anni di università ad importanti progetti in ambito Internet proseguendo, negli anni, allo startup, sviluppo e direzione di diverse aziende; Nei primi anni di carriera ho lavorato come consulente nel mondo dell’IT italiano, partecipando attivamente a progetti nazionali ed internazionali per realtà quali Ericsson, Telecom, Tin.it, Accenture, Tiscali, CNR. Dal 2010 mi occupo di startup mediante una delle mie società techintouch S.r.l che grazie alla collaborazione con la Digital Magics SpA, di cui sono Partner la Campania, mi occupo di supportare ed accelerare aziende del territorio .
Attualmente ricopro le cariche di :
– CTO MareGroup
– CTO Innoida
– Co-CEO in Techintouch s.r.l.
– Board member in StepFund GP SA
Manager ed imprenditore dal 2000 sono stato,
CEO e founder di Eclettica S.r.l. , Società specializzata in sviluppo software e System Integration
Partner per la Campania di Digital Magics S.p.A.
CTO e co-founder di Nexsoft S.p.A, società specializzata nella Consulenza di Servizi in ambito Informatico e sviluppo di soluzioni di System Integration, CTO della ITsys S.r.l. Società specializzata nella gestione di sistemi IT per la quale ho partecipato attivamente alla fase di startup.
Sognatore da sempre, curioso di novità ed alla ricerca di “nuovi mondi da esplorare“.
Comments