Esercizio su h2o
In R sono disponibili diverse librerie di Machine Learning. Tuttavia, la libreria h2o è semplice da usare e offre un'implementazione di word2vec. h2o può essere utilizzata anche per molte altre attività di Machine Learning. Per usare la libreria h2o, però, è necessario eseguire ulteriori passaggi di pre-elaborazione sui dati. Hai a disposizione un insieme di dati chiamato left_right che contiene tweet pubblicati automaticamente durante la campagna elettorale statunitense del 2016.
Invece di preparare i dati per altre tecniche di analisi del testo, prepara questo insieme di dati per l'uso con la libreria h2o.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Istruzioni dell'esercizio
- Importa la libreria e inizializza una sessione
h2o. - Crea un oggetto
h2o. - Tokenizza i tweet che si trovano nella colonna
content. - Trasforma le parole in minuscolo e rimuovi tutte le stop word.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Initialize an h2o session
library(___)
___.init()
# Create an h2o object for left_right
h2o_object = as.___(left_right)
# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")
# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words