word2vec

Você vem fazendo web scraping de muitos cargos na internet e não tem certeza se precisa coletar mais cargos para a sua análise. Até agora, você reuniu mais de 13.000 cargos em um conjunto de dados chamado job_titles. Você leu que o word2vec geralmente tem melhor desempenho quando o modelo tem dados suficientes para treinar adequadamente e, se as palavras não forem mencionadas com frequência nos seus dados, o modelo pode não ser útil.

Neste exercício, você vai testar o quanto dados adicionais ajudam executando seu modelo 3 vezes; a cada execução, será usado mais dado.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

library(h2o)
h2o.init()

set.seed(1111)
# Use 33% of the available data
sample_size <- floor(___ * nrow(job_titles))
sample_data <- sample(nrow(job_titles), size = sample_size)

h2o_object = as.h2o(job_titles[sample_data, ])
words <- h2o.tokenize(h2o_object$jobtitle, "\\\\W+")
words <- h2o.tolower(words)
words = words[is.na(words) || (!words %in% stop_words$word),]

word2vec_model <- h2o.word2vec(words, min_word_freq=5, epochs = 10)
# Find synonyms for the word "teacher"
___.___(word2vec_model, "teacher", count=10)

Editar e executar o código

Introdução ao Processamento de Linguagem Natural em R

IntermediárioNível de habilidade

4.8+

33 reviews

No Capítulo 4, cobrimos dois pilares do processamento de linguagem natural: análise de sentimentos e word embeddings. Essas são duas técnicas essenciais para quem está aprendendo os fundamentos de análise de texto. Além disso, você vai aprender brevemente sobre BERT, marcação de classe gramatical (part-of-speech tagging) e reconhecimento de entidades nomeadas. Quase 15 técnicas de análise diferentes foram abordadas neste curso, então o Capítulo 4 termina recapitulando todas as ótimas técnicas que você conhecerá aqui.

Exercise 1: Análise de sentimento Exercise 2: lexicons do tidytext Exercise 3: Scores de sentimento Exercise 4: Sentimento e emoção Exercise 5: Word embeddings Exercise 6: Prática com h2o Exercise 7: word2vec

Exercício atual

Exercise 8: Análises adicionais de NLP Exercise 9: Revisando métodos #1 Exercise 10: Revisão de métodos #2 Exercise 11: Conclusão