ComeçarComece de graça

Prática com h2o

Existem várias bibliotecas de Machine Learning disponíveis em R. No entanto, a biblioteca h2o é fácil de usar e oferece uma implementação de word2vec. O h2o também pode ser usado para várias outras tarefas de Machine Learning. Para usar a biblioteca h2o, porém, você precisa realizar etapas adicionais de pré-processamento nos seus dados. Você tem um conjunto de dados chamado left_right, que contém tweets publicados automaticamente durante a campanha eleitoral dos EUA em 2016.

Em vez de preparar seus dados para outras técnicas de análise de texto, prepare este conjunto de dados para uso com a biblioteca h2o.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em R

Ver curso

Instruções do exercício

  • Importe a biblioteca e inicialize uma sessão do h2o.
  • Crie um objeto h2o.
  • Tokenize os tweets que estão armazenados na coluna content.
  • Converta as palavras para minúsculas e remova todas as stop words.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Initialize an h2o session
library(___)
___.init()

# Create an h2o object for left_right
h2o_object = as.___(left_right)

# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")

# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words
Editar e executar o código