Múltiples columnas de texto
En este ejercicio, seguirás trabajando con los datos de Twitter de aerolíneas. Ya tienes importado un conjunto de datos llamado tweets.
En algunas situaciones, puedes tener más de una columna de texto en un conjunto de datos y quizá quieras crear una representación numérica para cada una de ellas. Aquí, además de la columna text, que contiene el cuerpo del tuit, hay una segunda columna de texto llamada negativereason. Contiene el motivo por el que la persona dejó una reseña negativa.
Tu tarea es construir representaciones BOW para ambas columnas y especificar las stop words necesarias.
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Instrucciones del ejercicio
- Importa el paquete de vectorizadores y la lista predeterminada de stop words en inglés.
- Actualiza la lista predeterminada de stop words en inglés y crea el conjunto
my_stop_words. - Especifica el argumento de stop words en el primer vectorizador con el conjunto actualizado y, en el segundo vectorizador, con el conjunto predeterminado de stop words en inglés.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the vectorizer and default English stop words list
____
# Define the stop words
my_stop_words = ____._____(['airline', 'airlines', '@', 'am', 'pm'])
# Build and fit the vectorizers
vect1 = CountVectorizer(____=my_stop_words)
vect2 = CountVectorizer(____=____)
vect1.fit(tweets.text)
vect2.fit(tweets.negative_reason)
# Print the last 15 features from the first, and all from second vectorizer
print(vect1.get_feature_names()[-15:])
print(vect2.get_feature_names())