Sentimiento sobre aerolíneas con stop words

Tienes un conjunto de datos llamado tweets que contiene reseñas y sentimientos de clientes sobre aerolíneas. Consta de dos columnas: airline_sentiment y text, donde el sentimiento puede ser positivo, negativo o neutral, y text es el texto del tuit.

En este ejercicio, crearás una representación BOW, pero teniendo en cuenta las stop words. Recuerda que las stop words no son informativas y quizá quieras eliminarlas. Eso dará como resultado un vocabulario más pequeño y, en consecuencia, menos características. Ten en cuenta que podemos ampliar una lista predeterminada de stop words con otras específicas de nuestro contexto.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

Importa la lista predeterminada de stop words en inglés.
Actualiza la lista predeterminada de stop words con la lista proporcionada ['airline', 'airlines', '@'] para crear my_stop_words.
Especifica el argumento de stop words en el vectorizador.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import the stop words
from sklearn.feature_extraction.text import CountVectorizer, ____

# Define the stop words
my_stop_words = ____.____(['airline', 'airlines', '@'])

# Build and fit the vectorizer
vect = CountVectorizer(____=my_stop_words)
vect.fit(tweets.text)

# Create the bow representation
X_review = vect.transform(tweets.text)
# Create the data frame
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())

Editar y ejecutar código