LoslegenKostenlos loslegen

h2o-Übung

Es gibt mehrere Machine-Learning-Bibliotheken in R. Die Bibliothek h2o ist jedoch leicht zu verwenden und bietet eine Word2Vec-Implementierung. h2o kann außerdem für mehrere andere Machine-Learning-Aufgaben genutzt werden. Um die Bibliothek h2o zu verwenden, musst du jedoch zusätzliche Vorverarbeitungsschritte für deine Daten durchführen. Du hast einen Datensatz namens left_right, der Tweets enthält, die während des US-Wahlkampfs 2016 automatisch getweetet wurden.

Bereite diesen Datensatz nicht für andere Textanalysetechniken vor, sondern für die Verwendung mit der Bibliothek h2o.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Bibliothek und initialisiere eine h2o-Session.
  • Erstelle ein h2o-Objekt.
  • Tokenisiere die Tweets, die in der Spalte content gespeichert sind.
  • Wandle die Wörter in Kleinbuchstaben um und entferne alle Stoppwörter.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Initialize an h2o session
library(___)
___.init()

# Create an h2o object for left_right
h2o_object = as.___(left_right)

# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")

# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words
Code bearbeiten und ausführen