ComeçarComece de graça

word2vec

Você vem fazendo web scraping de muitos cargos na internet e não tem certeza se precisa coletar mais cargos para a sua análise. Até agora, você reuniu mais de 13.000 cargos em um conjunto de dados chamado job_titles. Você leu que o word2vec geralmente tem melhor desempenho quando o modelo tem dados suficientes para treinar adequadamente e, se as palavras não forem mencionadas com frequência nos seus dados, o modelo pode não ser útil.

Neste exercício, você vai testar o quanto dados adicionais ajudam executando seu modelo 3 vezes; a cada execução, será usado mais dado.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

library(h2o)
h2o.init()

set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)

h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]

word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)
Editar e executar o código