Prática com h2o
Existem várias bibliotecas de Machine Learning disponíveis em R. No entanto, a biblioteca h2o é fácil de usar e oferece uma implementação de word2vec. O h2o também pode ser usado para várias outras tarefas de Machine Learning. Para usar a biblioteca h2o, porém, você precisa realizar etapas adicionais de pré-processamento nos seus dados. Você tem um conjunto de dados chamado left_right, que contém tweets publicados automaticamente durante a campanha eleitoral dos EUA em 2016.
Em vez de preparar seus dados para outras técnicas de análise de texto, prepare este conjunto de dados para uso com a biblioteca h2o.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em R
Instruções do exercício
- Importe a biblioteca e inicialize uma sessão do
h2o. - Crie um objeto
h2o. - Tokenize os tweets que estão armazenados na coluna
content. - Converta as palavras para minúsculas e remova todas as stop words.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Initialize an h2o session
library(___)
___.init()
# Create an h2o object for left_right
h2o_object = as.___(left_right)
# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")
# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words