Differenze tra Word2Vec e BERT Embedding

AI, INFORMATICA, INTELLIGENZA ARTIFICIALE, SVILUPPO SW

Word2Vec e BERT sono stati e sono due modelli ampiamente utilizzati nell’elaborazione del linguaggio naturale (NLP), ognuno con i suoi punti di forza e debolezze. Entrambi mirano a rappresentare le parole o le frasi in una forma vettoriale, che può essere facilmente processata dalle macchine.

Word2Vec

Word2Vec, un modello più anziano tra i due, crea embedding di parole basati su un insieme di addestramento, senza prendere in considerazione il contesto in cui le parole sono utilizzate. Ad esempio, considera la parola “calcio”. Nel contesto di una partita, “calcio” si riferisce allo sport, mentre in un altro contesto potrebbe riferirsi all’azione fisica di colpire qualcosa con il piede. Nonostante i diversi significati, Word2Vec genera lo stesso embedding per “calcio” indipendentemente dal contesto.

Questo modello non tiene conto dell’ordine delle parole nell’embedding, il che significa che permutare le parole in una frase non cambierebbe il suo embedding.

Inoltre, Word2Vec ha un grosso limite riguardo le parole che non erano presenti nel suo set di addestramento, conosciute come parole fuori dal vocabolario (OOV). Poiché Word2Vec apprende gli embedding a livello di parola, non è in grado di creare un embedding per una parola che non ha mai visto prima.

BERT

D’altra parte, BERT, che sta per Bidirectional Encoder Representations from Transformers, genera embedding di parole contestualizzate. Questo significa che la stessa parola può avere più embedding a seconda del contesto in cui viene utilizzata. Quindi, nel caso della parola “calcio”, BERT sarebbe in grado di produrre due embedding diversi, uno per quando si riferisce allo sport e un altro per quando si riferisce all’azione fisica di colpire.

A differenza di Word2Vec, BERT tiene conto dell’ordine delle parole. Utilizza un tipo di modello chiamato Transformer, che considera esplicitamente la posizione di ogni parola in una frase quando crea l’embedding.

Per quanto riguarda l’uso dei modelli, Word2Vec fornisce un set di embedding di parole pre-addestrati che possono essere utilizzati direttamente, eliminando la necessità di avere il modello completo. Al contrario, poiché BERT crea embedding contestualizzati, è necessario avere il modello completo per generare embedding in base al contesto specifico.

Infine, BERT supera una delle principali limitazioni di Word2Vec, ovvero la gestione delle parole OOV.

Le parole OOV (Out-Of-Vocabulary) si riferiscono a quelle parole che non sono presenti nel vocabolario conosciuto di un modello linguistico. In altre parole, sono parole che il modello non ha mai “visto” durante la sua fase di addestramento.

Ad esempio, immagina di addestrare un modello di elaborazione del linguaggio naturale su un insieme di testi che non contengono mai la parola “extraterrestre”. Se, successivamente, provi a utilizzare il modello per analizzare un testo che include la parola “extraterrestre”, quella parola sarebbe considerata una parola OOV perché è al di fuori del vocabolario che il modello ha imparato durante l’addestramento.

Le parole OOV possono presentare una sfida significativa nell’elaborazione del linguaggio naturale perché il modello non avrà una rappresentazione o una comprensione diretta di queste parole. Diversi modelli e tecniche cercano di gestire le parole OOV in modi diversi. Per esempio, il modello BERT, di cui abbiamo discusso prima, gestisce le parole OOV dividendo le parole in sottoparole più piccole per le quali potrebbe avere delle rappresentazioni.

BERT, per risolvere il problema delle OOV  apprende rappresentazioni a livello di sottoparola, quindi può gestire parole che non sono  presenti nel suo set di addestramento. Può dividere, dunque,  le parole sconosciute in sottoparole conosciute per creare un embedding, dando a BERT un vocabolario effettivamente infinito.

 

Se vuoi farmi qualche richiesta o contattarmi per un aiuto riempi il seguente form

    Comments