Comprendere la  varianza, la covarianza e la correlazione – di cosa si tratta?

APPUNTI, MATEMATICA

Mentre riflettevo su alcuni dati e sul tema generale di come la variabilità di un dato possa influire sugli altri, mi sono reso conto che, sebbene utilizzi spesso strumenti matematici a supporto, non mi ero mai soffermato a pensare a come rendere questi concetti più comprensibili per chi non è esperto del settore. Ho quindi deciso di provare a spiegare alcuni concetti di statistica avanzata usando un approccio meno formale. Di seguito cercherò di farlo, ma per completezza includerò anche i formalismi matematici per dare un senso di completezza all’articolo.

Quando analizzi dei dati, è fondamentale capire come le variabili si comportano, sia singolarmente che in relazione tra loro. Tre concetti chiave che aiutano a quantificare e interpretare la variabilità e le relazioni tra variabili sono la varianza, la covarianza e la correlazione.

Varianza

La varianza è una misura della dispersione dei dati rispetto alla loro media. Essa quantifica quanto i valori di un insieme di dati si discostano dalla media.

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2

Dove:

  • è il numero totale di dati.
  • xi è il singolo valore dei dati.
  • μ è la media dei dati.

In modo più rozzo possiamo affermare che La varianza è  una misura che ci dice quanto i nostri dati sono “sparpagliati” intorno alla media. Immagina di avere un gruppo di numeri: la varianza ci aiuta a capire se questi numeri sono vicini tra loro o se sono molto distanti dalla media del gruppo.

Interpretazione:

  • Varianza alta: Quando la varianza è alta, significa che i dati sono molto dispersi, ovvero i valori individuali sono molto diversi tra loro e dalla media.
  • Varianza bassa: Quando la varianza è bassa, significa che i dati sono molto vicini tra loro e alla media, quindi c’è poca dispersione.

Esempio: Prendiamo questi numeri: 2, 4, 4, 4, 5, 5, 7, 9.

  1. Calcolo della media: La media di questi numeri è 5.
  2. Calcolo degli scarti: Ora vediamo quanto ogni numero si discosta dalla media (5):
    • (2−5)² = 9
    • (4−5)² = 1
    • (4−5)² = 1
    • (4−5)² = 1
    • (5−5)² = 0
    • (5−5)² = 0
    • (7−5)² = 4
    • (9−5)² = 16
  3. Calcolo della varianza: Sommiamo questi scarti e dividiamo per il numero totale di dati:
    σ2=9+1+1+1+0+0+4+168=4\sigma^2 = \frac{9 + 1 + 1 + 1 + 0 + 0 + 4 + 16}{8} = 4

Quindi, la varianza di questi numeri è 4, indicando che c’è una certa dispersione dei dati rispetto alla media. In altre parole, i numeri non sono tutti molto vicini tra loro, ma nemmeno troppo distanti: sono moderatamente sparpagliati.

Covarianza

La covarianza misura quanto due variabili variano insieme. Se le variabili tendono ad aumentare e diminuire insieme, la covarianza è positiva; se una aumenta mentre l’altra diminuisce, è negativa.

Cov(X,Y)=1Ni=1N(XiμX)(YiμY)\text{Cov}(X, Y) = \frac{1}{N} \sum_{i=1}^N (X_i – \mu_X)(Y_i – \mu_Y)

Dove:

  • Xi e sono i valori delle due variabili.
  • e sono le medie delle due variabili.

 

La covarianza è dunque un numero che ci dice come due variabili si comportano insieme. È come se stessimo cercando di capire se due cose tendono a cambiare nello stesso modo.

  • Covarianza positiva: Se la covarianza è positiva, significa che quando una variabile aumenta, l’altra tende a aumentare anche lei, e quando una diminuisce, l’altra tende a diminuire. È come se le due variabili andassero a braccetto.
  • Covarianza negativa: Se la covarianza è negativa, significa che quando una variabile aumenta, l’altra tende a diminuire, e viceversa. È come se una variabile andasse in una direzione e l’altra nella direzione opposta.
  • Covarianza vicina a zero: Se la covarianza è vicina a zero, significa che non c’è una relazione chiara tra come le due variabili cambiano. È come se le variabili non avessero alcun legame.

Esempio: Immaginiamo di voler vedere se c’è una relazione tra le ore di studio e i voti degli studenti. Supponiamo di avere questi dati:

  • Ore di studio: 2, 3, 5, 7, 9
  • Voti: 50, 55, 65, 70, 80

Se calcoliamo la covarianza e troviamo un numero positivo, significa che più uno studente studia, migliori sono i suoi voti. Se il numero fosse negativo, significherebbe che più uno studente studia, peggiori sono i suoi voti, il che non ha molto senso in questo contesto. Se fosse vicino a zero, non ci sarebbe una chiara relazione tra le ore di studio e i voti.

Quindi, la covarianza ci aiuta a capire se e come due variabili si muovono insieme, dandoci un’idea della loro relazione senza dirci esattamente quanto è forte questa relazione.

Correlazione

La correlazione è una misura normalizzata della relazione lineare tra due variabili, indicando sia la direzione che la forza della relazione.

Cor(X,Y)=Cov(X,Y)σXσY\text{Cor}(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}

Dove:

  • sono le deviazioni standard delle due variabili

Scala: La correlazione varia tra -1 e 1.

  • +1 indica una perfetta correlazione positiva.
  • -1 indica una perfetta correlazione negativa.
  • 0 indica nessuna correlazione lineare.

La correlazione è un numero che ci dice quanto due variabili sono legate tra loro e come si muovono insieme. È simile alla covarianza, ma è più facile da interpretare perché è sempre compresa tra -1 e 1.

Interpretazione:

  • Correlazione positiva (vicina a +1): Quando la correlazione è vicina a +1, significa che le due variabili tendono a crescere e diminuire insieme. In altre parole, se una variabile aumenta, l’altra tende ad aumentare anch’essa.
  • Correlazione negativa (vicina a -1): Quando la correlazione è vicina a -1, significa che le due variabili tendono a muoversi in direzioni opposte. Se una variabile aumenta, l’altra tende a diminuire.
  • Correlazione zero: Una correlazione vicino a 0 indica che non c’è una relazione lineare chiara tra le due variabili. Cambiare una variabile non ci dice nulla su come cambierà l’altra.

Esempio: Immaginiamo di voler capire la relazione tra il numero di ore di studio e i voti degli studenti.

  • Se calcoliamo la correlazione e otteniamo un valore di +0.9, possiamo dire che c’è una forte relazione positiva: più uno studente studia, migliori sono i suoi voti.
  • Se invece il valore è -0.8, significa che c’è una forte relazione negativa: più uno studente studia, peggiori sono i suoi voti (strano, ma è un esempio).
  • Se il valore è 0.1, allora non c’è una chiara relazione lineare: le ore di studio non sembrano influenzare molto i voti.

La correlazione ci fornisce un modo semplice e chiaro per capire la forza e la direzione della relazione tra due variabili, rendendo più facile l’interpretazione dei dati rispetto alla covarianza.

Differenze Chiave tra Covarianza e Correlazione

  1. Normalizzazione: La covarianza non è normalizzata, quindi il suo valore dipende dalle unità delle variabili. La correlazione, essendo normalizzata, è compresa tra -1 e 1.
  2. Interpretabile: La correlazione è più facilmente interpretabile poiché fornisce una misura relativa e diretta della relazione lineare.
  3. Scala: La covarianza è influenzata dalle scale delle variabili, rendendo difficile il confronto diretto. La correlazione consente un confronto indipendente dalle unità di misura.

Esempio Pratico

Consideriamo due set di dati per due variabili,

e Y

  • X:1,2,3,4,5
  1. Media:,
  2. Deviazione Standard:,
  3. Covarianza:
  4. Correlazione:

In questo esempio, la correlazione è 1, indicando una perfetta correlazione positiva tra e , mentre la covarianza è 5, che da sola non fornisce informazioni sulla forza della relazione.

Spero che questa riflessione sia utile per te quanto lo è stata per me.

Se vuoi farmi qualche richiesta o contattarmi per un aiuto riempi il seguente form

    Comments