BaşlayınÜcretsiz Başlayın

word2vec

İnternetten çok sayıda iş unvanı web kazıma yöntemiyle topladın ve analiz için ek iş unvanları toplamana gerek olup olmadığından emin değilsin. Şu ana kadar job_titles adlı bir veri kümesinde 13.000'in üzerinde iş unvanı biriktirdin. word2vec’in, modelin düzgün eğitilmesi için yeterli veri olduğunda genellikle en iyi performansı verdiğini ve verilerinde kelimeler yeterince geçmiyorsa modelin pek kullanışlı olmayabileceğini okudun.

Bu egzersizde, modelini 3 kez çalıştırarak ek verinin ne kadar yardımcı olduğunu test edeceksin; her çalıştırmada daha fazla veri kullanacaksın.

Bu egzersiz

R ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

library(h2o)
h2o.init()

set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)

h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]

word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)
Kodu Düzenle ve Çalıştır