TfIdf con datos de sentimiento de aerolíneas en Twitter
Ahora vas a crear características usando el método TfIdf. Seguirás trabajando con el conjunto de datos tweets.
En este ejercicio, pondrás en práctica lo aprendido en lecciones anteriores: eliminar stop words, usar un patrón de tokens y especificar los n-grams.
El resultado final será un DataFrame cuyas columnas se crean con TfidfVectorizer(). Este DataFrame se puede pasar directamente a un modelo de aprendizaje supervisado, que es lo que abordaremos en el siguiente capítulo.
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Instrucciones del ejercicio
- Importa el paquete necesario para construir un TfidfVectorizer y
ENGLISH_STOP_WORDS. - Construye un vectorizador TfIdf a partir de la columna
textdel conjunto de datostweets, especificando uni- y bi-gramas como opción de n-grams, tokens que incluyan solo caracteres alfanuméricos usando el patrón de tokens dado, y las stop words correspondientes aENGLISH_STOP_WORDS. - Aplica la transformación del vectorizador, especificando la misma columna con la que ajustaste.
- Especifica los nombres de las columnas en la función
DataFrame().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the required vectorizer package and stop words list
____
# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)
# Transform the vectorizer
X_txt = vect.____(____.____)
# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())