ComenzarEmpieza gratis

Tfidf y BOW sobre los mismos datos

En este ejercicio, transformarás la columna review del conjunto de datos de productos de Amazon reviews usando tanto un bag-of-words como una transformación tfidf.

Crea ambos vectorizadores, especificando únicamente que el número máximo de características sea igual a 100. Crea DataFrames después de la transformación e imprime las 5 primeras filas de cada uno.

Ten cuidado al especificar el número máximo de características del vocabulario. Un vocabulario muy grande puede provocar que tu sesión se desconecte.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

  • Importa los vectorizadores BOW y Tfidf.
  • Construye y ajusta un vectorizador BOW y otro Tfidf a partir de la columna review y limita el número de características creadas a 100.
  • Crea DataFrames a partir de las representaciones vectoriales transformadas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the required packages
____

# Build a BOW and tfidf vectorizers from the review column and with max of 100 features
vect1 = ____(____=100).____(____.____)
vect2 = ____(____=100).____(____.____) 

# Transform the vectorizers
X1 = vect1.transform(reviews.review)
X2 = vect2.transform(reviews.review)
# Create DataFrames from the vectorizers 
X_df1 = pd.DataFrame(X1.____, columns=____.____)
X_df2 = pd.DataFrame(X2.____, columns=____.____)
print('Top 5 rows using BOW: \n', X_df1.head())
print('Top 5 rows using tfidf: \n', X_df2.head())
Editar y ejecutar código