LoslegenKostenlos starten

h2o-Übung

Es gibt mehrere Machine-Learning-Bibliotheken in R. Die Bibliothek h2o ist jedoch leicht zu verwenden und bietet eine Word2Vec-Implementierung. h2o kann außerdem für mehrere andere Machine-Learning-Aufgaben genutzt werden. Um die Bibliothek h2o zu verwenden, musst du jedoch zusätzliche Vorverarbeitungsschritte für deine Daten durchführen. Du hast einen Datensatz namens left_right, der Tweets enthält, die während des US-Wahlkampfs 2016 automatisch getweetet wurden.

Bereite diesen Datensatz nicht für andere Textanalysetechniken vor, sondern für die Verwendung mit der Bibliothek h2o.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Natural Language Processing mit R</Kurs>
Kurs ansehen

Übungsanweisungen

  • Importiere die Bibliothek und initialisiere eine h2o-Session.
  • Erstelle ein h2o-Objekt.
  • Tokenisiere die Tweets, die in der Spalte content gespeichert sind.
  • Wandle die Wörter in Kleinbuchstaben um und entferne alle Stoppwörter.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Initialize an h2o session
library(___)
___.init()

# Create an h2o object for left_right
h2o_object = as.___(left_right)

# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")

# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words
Code bearbeiten und ausführen