IniziaInizia gratis

word2vec

Hai effettuato molto web scraping di titoli di lavoro su internet e non sei sicuro se serva raccoglierne altri per la tua analisi. Finora hai raccolto oltre 13.000 titoli di lavoro in un insieme di dati chiamato job_titles. Hai letto che word2vec in genere dà il meglio quando il modello ha abbastanza dati per addestrarsi correttamente e, se alcune parole non compaiono abbastanza spesso nei tuoi dati, il modello potrebbe non essere utile.

In questo esercizio verificherai quanto siano utili dati aggiuntivi eseguendo il tuo modello 3 volte; a ogni esecuzione userai più dati.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

library(h2o)
h2o.init()

set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)

h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]

word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)
Modifica ed esegui il codice