word2vec
Anda telah melakukan web-scraping banyak jabatan pekerjaan dari internet dan belum yakin apakah Anda perlu mengambil jabatan pekerjaan tambahan untuk analisis Anda. Sejauh ini, Anda telah mengumpulkan lebih dari 13.000 jabatan pekerjaan dalam himpunan data bernama job_titles. Anda membaca bahwa word2vec umumnya bekerja paling baik jika model memiliki cukup data untuk dilatih dengan baik, dan jika suatu kata tidak cukup sering disebutkan dalam data Anda, model tersebut mungkin kurang bermanfaat.
Pada latihan ini, Anda akan menguji seberapa membantu data tambahan dengan menjalankan model Anda 3 kali; setiap menjalankan akan menggunakan data tambahan.
Latihan ini merupakan bagian dari kursus
Pengantar Natural Language Processing di R
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
library(h2o)
h2o.init()
set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)
h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]
word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)