word2vec
Je hebt veel functietitels van het internet gescrapet en je twijfelt of je extra titels moet toevoegen voor je analyse. Tot nu toe heb je meer dan 13.000 functietitels verzameld in een gegevensset genaamd job_titles. Je hebt gelezen dat word2vec over het algemeen het beste presteert als het model genoeg data heeft om goed te trainen, en als woorden niet vaak genoeg voorkomen in je data, kan het model weinig opleveren.
In deze oefening test je hoe nuttig extra data is door je model 3 keer te draaien; bij elke run gebruik je meer data.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
library(h2o)
h2o.init()
set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)
h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]
word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)