MulaiMulai sekarang secara gratis

word2vec

Anda telah melakukan web-scraping banyak jabatan pekerjaan dari internet dan belum yakin apakah Anda perlu mengambil jabatan pekerjaan tambahan untuk analisis Anda. Sejauh ini, Anda telah mengumpulkan lebih dari 13.000 jabatan pekerjaan dalam himpunan data bernama job_titles. Anda membaca bahwa word2vec umumnya bekerja paling baik jika model memiliki cukup data untuk dilatih dengan baik, dan jika suatu kata tidak cukup sering disebutkan dalam data Anda, model tersebut mungkin kurang bermanfaat.

Pada latihan ini, Anda akan menguji seberapa membantu data tambahan dengan menjalankan model Anda 3 kali; setiap menjalankan akan menggunakan data tambahan.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

library(h2o)
h2o.init()

set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)

h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]

word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)
Edit dan Jalankan Kode