word2vec
Hai effettuato molto web scraping di titoli di lavoro su internet e non sei sicuro se serva raccoglierne altri per la tua analisi. Finora hai raccolto oltre 13.000 titoli di lavoro in un insieme di dati chiamato job_titles. Hai letto che word2vec in genere dà il meglio quando il modello ha abbastanza dati per addestrarsi correttamente e, se alcune parole non compaiono abbastanza spesso nei tuoi dati, il modello potrebbe non essere utile.
In questo esercizio verificherai quanto siano utili dati aggiuntivi eseguendo il tuo modello 3 volte; a ogni esecuzione userai più dati.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
library(h2o)
h2o.init()
set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)
h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]
word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)