ComenzarEmpieza gratis

Práctica con h2o

En R hay varias librerías de Machine Learning. Sin embargo, la librería h2o es fácil de usar y ofrece una implementación de word2vec. h2o también puede utilizarse para varias otras tareas de Machine Learning. Para poder usar la librería h2o, eso sí, necesitas dar pasos adicionales de preprocesamiento con tus datos. Tienes un conjunto de datos llamado left_right que contiene tuits publicados automáticamente durante la campaña de las elecciones de EE. UU. de 2016.

En lugar de preparar tus datos para otras técnicas de análisis de texto, prepara este conjunto de datos para usarlo con la librería h2o.

Este ejercicio forma parte del curso

Introducción al procesamiento del lenguaje natural en R

Ver curso

Instrucciones del ejercicio

  • Importa la librería e inicializa una sesión de h2o.
  • Crea un objeto h2o.
  • Tokeniza los tuits que están en la columna content.
  • Convierte las palabras a minúsculas y elimina todas las stop words.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Initialize an h2o session
library(___)
___.init()

# Create an h2o object for left_right
h2o_object = as.___(left_right)

# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")

# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words
Editar y ejecutar código