Sentimiento sobre aerolíneas con stop words
Tienes un conjunto de datos llamado tweets que contiene reseñas y sentimientos de clientes sobre aerolíneas. Consta de dos columnas: airline_sentiment y text, donde el sentimiento puede ser positivo, negativo o neutral, y text es el texto del tuit.
En este ejercicio, crearás una representación BOW, pero teniendo en cuenta las stop words. Recuerda que las stop words no son informativas y quizá quieras eliminarlas. Eso dará como resultado un vocabulario más pequeño y, en consecuencia, menos características. Ten en cuenta que podemos ampliar una lista predeterminada de stop words con otras específicas de nuestro contexto.
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Instrucciones del ejercicio
- Importa la lista predeterminada de stop words en inglés.
- Actualiza la lista predeterminada de stop words con la lista proporcionada
['airline', 'airlines', '@']para crearmy_stop_words. - Especifica el argumento de stop words en el vectorizador.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____
# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])
# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)
# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())