ComenzarEmpieza gratis

Paso 2: crear un vectorizador

En este ejercicio, vas a construir una transformación TfIDf de la columna review del conjunto de datos reviews. Debes especificar los n-grams, las stop words, el patrón de tokens y el tamaño del vocabulario como argumentos.

Este es el último paso antes de entrenar un clasificador para predecir el sentimiento de una reseña.

Asegúrate de indicar correctamente el número máximo de características, ya que un vocabulario demasiado grande podría desconectar tu sesión.

Este ejercicio forma parte del curso

Sentiment Analysis in Python

Ver curso

Instrucciones del ejercicio

  • Importa el vectorizador Tfidf y la lista predeterminada de stop words en inglés.
  • Crea el vectorizador Tfidf especificando, en este orden, los siguientes argumentos: usa como stop words la lista predeterminada de stop words en inglés; como n-grams usa uni- y bi-gramas; el número máximo de características debe ser 200; captura solo palabras usando el patrón indicado.
  • Crea un DataFrame usando el vectorizador Tfidf.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____

# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)

# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())
Editar y ejecutar código