ComenzarEmpieza gratis

TfIdf con datos de sentimiento de aerolíneas en Twitter

Ahora vas a crear características usando el método TfIdf. Seguirás trabajando con el conjunto de datos tweets.

En este ejercicio, pondrás en práctica lo aprendido en lecciones anteriores: eliminar stop words, usar un patrón de tokens y especificar los n-grams.

El resultado final será un DataFrame cuyas columnas se crean con TfidfVectorizer(). Este DataFrame se puede pasar directamente a un modelo de aprendizaje supervisado, que es lo que abordaremos en el siguiente capítulo.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

  • Importa el paquete necesario para construir un TfidfVectorizer y ENGLISH_STOP_WORDS.
  • Construye un vectorizador TfIdf a partir de la columna text del conjunto de datos tweets, especificando uni- y bi-gramas como opción de n-grams, tokens que incluyan solo caracteres alfanuméricos usando el patrón de tokens dado, y las stop words correspondientes a ENGLISH_STOP_WORDS.
  • Aplica la transformación del vectorizador, especificando la misma columna con la que ajustaste.
  • Especifica los nombres de las columnas en la función DataFrame().

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())
Editar y ejecutar código