word2vec
Du hast viele Berufsbezeichnungen aus dem Internet per Web-Scraping gesammelt und bist unsicher, ob du für deine Analyse noch weitere Titel scrapen musst. Bisher hast du über 13.000 Berufsbezeichnungen in einem Datensatz namens job_titles zusammengetragen. Du hast gelesen, dass word2vec in der Regel am besten funktioniert, wenn das Modell genug Daten hat, um richtig zu trainieren. Wenn bestimmte Wörter in deinen Daten zu selten vorkommen, könnte das Modell wenig nützen.
In dieser Übung testest du, wie hilfreich zusätzliche Daten sind, indem du dein Modell 3-mal ausführst; bei jedem Durchlauf kommen weitere Daten hinzu.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
library(h2o)
h2o.init()
set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)
h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]
word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)