word2vec
Anda telah melakukan web-scraping banyak jabatan pekerjaan dari internet dan belum yakin apakah Anda perlu mengambil jabatan pekerjaan tambahan untuk analisis Anda. Sejauh ini, Anda telah mengumpulkan lebih dari 13.000 jabatan pekerjaan dalam himpunan data bernama job_titles. Anda membaca bahwa word2vec umumnya bekerja paling baik jika model memiliki cukup data untuk dilatih dengan baik, dan jika suatu kata tidak cukup sering disebutkan dalam data Anda, model tersebut mungkin kurang bermanfaat.
Pada latihan ini, Anda akan menguji seberapa membantu data tambahan dengan menjalankan model Anda 3 kali; setiap menjalankan akan menggunakan data tambahan.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
library(h2o)
h2o.init()
set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)
h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]
word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)