h2o-Übung
Es gibt mehrere Machine-Learning-Bibliotheken in R. Die Bibliothek h2o ist jedoch leicht zu verwenden und bietet eine Word2Vec-Implementierung. h2o kann außerdem für mehrere andere Machine-Learning-Aufgaben genutzt werden. Um die Bibliothek h2o zu verwenden, musst du jedoch zusätzliche Vorverarbeitungsschritte für deine Daten durchführen. Du hast einen Datensatz namens left_right, der Tweets enthält, die während des US-Wahlkampfs 2016 automatisch getweetet wurden.
Bereite diesen Datensatz nicht für andere Textanalysetechniken vor, sondern für die Verwendung mit der Bibliothek h2o.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Natural Language Processing mit R</Kurs>Übungsanweisungen
- Importiere die Bibliothek und initialisiere eine
h2o-Session. - Erstelle ein
h2o-Objekt. - Tokenisiere die Tweets, die in der Spalte
contentgespeichert sind. - Wandle die Wörter in Kleinbuchstaben um und entferne alle Stoppwörter.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Initialize an h2o session
library(___)
___.init()
# Create an h2o object for left_right
h2o_object = as.___(left_right)
# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")
# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words