oefenen met h2o

Er zijn meerdere Machine Learning-bibliotheken beschikbaar in R. De h2o-bibliotheek is echter makkelijk te gebruiken en biedt een word2vec-implementatie. h2o kan ook worden ingezet voor allerlei andere Machine Learning-taken. Om de h2o-bibliotheek te gebruiken, moet je wel extra pre-processingstappen op je data uitvoeren. Je hebt een gegevensset left_right met tweets die automatisch zijn gepost tijdens de Amerikaanse verkiezingscampagne van 2016.

In plaats van je data voor te bereiden voor andere tekstanalysetechnieken, bereid je deze gegevensset voor op gebruik met de h2o-bibliotheek.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Bekijk cursus

Oefeninstructies

Importeer de bibliotheek en initialiseer een h2o-sessie.
Maak een h2o-object.
Tokenize de tweets die zijn opgeslagen in de kolom content.
Zet de woorden om naar kleine letters en verwijder alle stopwoorden.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Initialize an h2o session
library(___)
___.init()

# Create an h2o object for left_right
h2o_object = as.___(left_right)

# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")

# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words

Code bewerken en uitvoeren

Introductie tot Natural Language Processing in R

SkillTag.level.intermediateSkillTag.label

4.8+

40 reviews

In hoofdstuk 4 behandelen we twee klassiekers binnen natural language processing: sentimentanalyse en word embeddings. Dit zijn twee analysetechnieken die onmisbaar zijn voor iedereen die de basis van tekstanalyse wil beheersen. Daarnaast maak je kort kennis met BERT, part-of-speech tagging en named entity recognition. In deze cursus kwamen bijna 15 verschillende analysetechnieken voorbij, dus hoofdstuk 4 sluit af met een overzicht van alle mooie technieken die je in deze cursus leert.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-lexicons Exercise 3: Sentimentscores Exercise 4: Sentiment en emotie Exercise 5: Woordembeddings Exercise 6: oefenen met h2o

Huidige oefening

Exercise 7: word2vec Exercise 8: Aanvullende NLP-analyses Exercise 9: Methoden herzien #1 Exercise 10: Methoden herhalen #2 Exercise 11: Conclusie