TfIdf con datos de sentimiento de aerolíneas en Twitter

Ahora vas a crear características usando el método TfIdf. Seguirás trabajando con el conjunto de datos tweets.

En este ejercicio, pondrás en práctica lo aprendido en lecciones anteriores: eliminar stop words, usar un patrón de tokens y especificar los n-grams.

El resultado final será un DataFrame cuyas columnas se crean con TfidfVectorizer(). Este DataFrame se puede pasar directamente a un modelo de aprendizaje supervisado, que es lo que abordaremos en el siguiente capítulo.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

Importa el paquete necesario para construir un TfidfVectorizer y ENGLISH_STOP_WORDS.
Construye un vectorizador TfIdf a partir de la columna text del conjunto de datos tweets, especificando uni- y bi-gramas como opción de n-grams, tokens que incluyan solo caracteres alfanuméricos usando el patrón de tokens dado, y las stop words correspondientes a ENGLISH_STOP_WORDS.
Aplica la transformación del vectorizador, especificando la misma columna con la que ajustaste.
Especifica los nombres de las columnas en la función DataFrame().

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())

Editar y ejecutar código