oefenen met h2o
Er zijn meerdere Machine Learning-bibliotheken beschikbaar in R. De h2o-bibliotheek is echter makkelijk te gebruiken en biedt een word2vec-implementatie. h2o kan ook worden ingezet voor allerlei andere Machine Learning-taken. Om de h2o-bibliotheek te gebruiken, moet je wel extra pre-processingstappen op je data uitvoeren. Je hebt een gegevensset left_right met tweets die automatisch zijn gepost tijdens de Amerikaanse verkiezingscampagne van 2016.
In plaats van je data voor te bereiden voor andere tekstanalysetechnieken, bereid je deze gegevensset voor op gebruik met de h2o-bibliotheek.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Importeer de bibliotheek en initialiseer een
h2o-sessie. - Maak een
h2o-object. - Tokenize de tweets die zijn opgeslagen in de kolom
content. - Zet de woorden om naar kleine letters en verwijder alle stopwoorden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize an h2o session
library(___)
___.init()
# Create an h2o object for left_right
h2o_object = as.___(left_right)
# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")
# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words