Aan de slagGa gratis aan de slag

oefenen met h2o

Er zijn meerdere Machine Learning-bibliotheken beschikbaar in R. De h2o-bibliotheek is echter makkelijk te gebruiken en biedt een word2vec-implementatie. h2o kan ook worden ingezet voor allerlei andere Machine Learning-taken. Om de h2o-bibliotheek te gebruiken, moet je wel extra pre-processingstappen op je data uitvoeren. Je hebt een gegevensset left_right met tweets die automatisch zijn gepost tijdens de Amerikaanse verkiezingscampagne van 2016.

In plaats van je data voor te bereiden voor andere tekstanalysetechnieken, bereid je deze gegevensset voor op gebruik met de h2o-bibliotheek.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Oefeninstructies

  • Importeer de bibliotheek en initialiseer een h2o-sessie.
  • Maak een h2o-object.
  • Tokenize de tweets die zijn opgeslagen in de kolom content.
  • Zet de woorden om naar kleine letters en verwijder alle stopwoorden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Initialize an h2o session
library(___)
___.init()

# Create an h2o object for left_right
h2o_object = as.___(left_right)

# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")

# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words
Code bewerken en uitvoeren