Múltiples columnas de texto

En este ejercicio, seguirás trabajando con los datos de Twitter de aerolíneas. Ya tienes importado un conjunto de datos llamado tweets.

En algunas situaciones, puedes tener más de una columna de texto en un conjunto de datos y quizá quieras crear una representación numérica para cada una de ellas. Aquí, además de la columna text, que contiene el cuerpo del tuit, hay una segunda columna de texto llamada negativereason. Contiene el motivo por el que la persona dejó una reseña negativa.

Tu tarea es construir representaciones BOW para ambas columnas y especificar las stop words necesarias.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

Importa el paquete de vectorizadores y la lista predeterminada de stop words en inglés.
Actualiza la lista predeterminada de stop words en inglés y crea el conjunto my_stop_words.
Especifica el argumento de stop words en el primer vectorizador con el conjunto actualizado y, en el segundo vectorizador, con el conjunto predeterminado de stop words en inglés.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import the vectorizer and default English stop words list
____

# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
 
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____) 
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)

# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())

Editar y ejecutar código