BaşlayınÜcretsiz başlayın

word2vec

İnternetten çok sayıda iş unvanı web kazıma yöntemiyle topladın ve analiz için ek iş unvanları toplamana gerek olup olmadığından emin değilsin. Şu ana kadar job_titles adlı bir veri kümesinde 13.000'in üzerinde iş unvanı biriktirdin. word2vec’in, modelin düzgün eğitilmesi için yeterli veri olduğunda genellikle en iyi performansı verdiğini ve verilerinde kelimeler yeterince geçmiyorsa modelin pek kullanışlı olmayabileceğini okudun.

Bu egzersizde, modelini 3 kez çalıştırarak ek verinin ne kadar yardımcı olduğunu test edeceksin; her çalıştırmada daha fazla veri kullanacaksın.

Bu egzersiz, kursun bir parçasıdır

R ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

library(h2o)
h2o.init()

set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)

h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]

word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)
Kodu Düzenle ve Çalıştır