“PCA” ( Principle component Analisys) cosa è ed a cosa serve.

AI, TUTORIAL

L’Analisi delle Componenti Principali (PCA) è una tecnica statistica utilizzata per ridurre la dimensionalità dei dati. La sua funzione principale è semplificare un dataset, mantenendo comunque il maggior numero possibile di informazioni rilevanti. Questa tecnica è particolarmente utile quando si ha a che fare con dataset contenenti molte variabili, dove il rischio di ridondanza o complessità eccessiva è elevato.

Perché utilizzare la PCA?

Quando si lavora con dati multidimensionali, l’analisi può diventare complessa a causa delle numerose variabili presenti. Molte di queste variabili potrebbero essere correlate e quindi non aggiungono nuove informazioni. La PCA riduce il numero di variabili trasformandole in componenti principali, che sono nuove variabili combinate linearmente dalle variabili originali.

I vantaggi principali della PCA includono:

  • Semplifica l’analisi: Riducendo il numero di dimensioni, è più facile comprendere e visualizzare i dati.
  • Riduce il rumore: Le componenti principali catturano solo le variazioni significative nei dati, eliminando informazioni ridondanti.
  • Ottimizza le risorse computazionali: Un minor numero di variabili richiede meno risorse computazionali.

Come funziona la PCA?

La PCA trasforma le variabili originali in nuove variabili, chiamate componenti principali, che sono combinazioni lineari delle variabili originali. Queste componenti principali vengono ordinate in base alla varianza che catturano: la prima componente principale cattura la maggior parte della varianza, la seconda componente cattura la seconda maggior quantità di varianza, e così via.

La PCA si basa su due concetti chiave dell’algebra lineare:

  • Autovettori (Eigenvector): Questi rappresentano le direzioni principali lungo le quali i dati variano.
  • Autovalori (Eigenvalue): Questi rappresentano la quantità di varianza lungo una specifica direzione.

Immaginiamo di avere un dataset tridimensionale che descrive la relazione tra tre variabili: età, ore passate su internet e ore spese usando uno smartphone. Se visualizzassimo questi dati, vedremmo che formano una nube in uno spazio 3D. La PCA consente di ridurre queste dimensioni a uno spazio 2D (o addirittura 1D), mantenendo la maggior parte dell’informazione utile.

Passaggi della PCA

1. Standardizzazione dei dati

Prima di applicare la PCA, è essenziale standardizzare i dati, soprattutto quando le variabili hanno scale diverse (ad esempio, età in anni e ore di utilizzo di uno smartphone). La standardizzazione trasforma tutte le variabili in modo che abbiano una media pari a 0 e una deviazione standard pari a 1.

2. Calcolo della matrice di covarianza

La matrice di covarianza rappresenta quanto due variabili variano insieme. Se due variabili sono strettamente correlate, la covarianza sarà alta. La PCA utilizza questa matrice per determinare la relazione tra le variabili e identificare le direzioni di massima varianza.

3. Calcolo degli autovettori e degli autovalori

Gli autovettori e gli autovalori della matrice di covarianza vengono calcolati. Gli autovettori indicano la direzione delle componenti principali, mentre gli autovalori ci dicono quanta varianza c’è lungo ciascuna di queste direzioni.

4. Proiezione dei dati

Infine, i dati originali vengono proiettati su un nuovo spazio creato dalle componenti principali. La proiezione consente di ridurre il numero di variabili, preservando il più possibile la varianza originale.

Proiezione dei dati con PCA

Dopo aver applicato la PCA, proiettiamo i dati su un nuovo spazio bidimensionale creato dalle due principali componenti.

Varianza spiegata dalle componenti principali

La PCA ordina le componenti principali in base alla quantità di varianza che spiegano. In questo caso, possiamo visualizzare quanta varianza è spiegata dalle prime componenti principali.

Se vuoi saperne di più sui concetti di varianza, covarianza e correlazione leggi questo articolo.

 

Se vuoi farmi qualche richiesta o contattarmi per un aiuto riempi il seguente form

    Comments