Paso 2: crear un vectorizador
En este ejercicio, vas a construir una transformación TfIDf de la columna review del conjunto de datos reviews. Debes especificar los n-grams, las stop words, el patrón de tokens y el tamaño del vocabulario como argumentos.
Este es el último paso antes de entrenar un clasificador para predecir el sentimiento de una reseña.
Asegúrate de indicar correctamente el número máximo de características, ya que un vocabulario demasiado grande podría desconectar tu sesión.
Este ejercicio forma parte del curso
Sentiment Analysis in Python
Instrucciones del ejercicio
- Importa el vectorizador Tfidf y la lista predeterminada de stop words en inglés.
- Crea el vectorizador Tfidf especificando, en este orden, los siguientes argumentos: usa como stop words la lista predeterminada de stop words en inglés; como n-grams usa uni- y bi-gramas; el número máximo de características debe ser 200; captura solo palabras usando el patrón indicado.
- Crea un DataFrame usando el vectorizador Tfidf.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____
# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)
# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())