TfidfVectorizer para clasificación de texto
Al igual que con el CountVectorizer disperso que creaste en el ejercicio anterior, ahora vas a crear vectores tf-idf para tus documentos. Configurarás un TfidfVectorizer y explorarás algunas de sus opciones.
En este ejercicio, usarás pandas y sklearn junto con los mismos DataFrames y Series X_train, y_train y X_test, y_test que creaste en el ejercicio anterior.
Este ejercicio forma parte del curso
Introducción al Natural Language Processing en Python
Instrucciones del ejercicio
- Importa
TfidfVectorizerdesklearn.feature_extraction.text. - Crea un objeto
TfidfVectorizerllamadotfidf_vectorizer. Al hacerlo, especifica los argumentos con nombrestop_words="english"ymax_df=0.7. - Ajusta y transforma los datos de entrenamiento.
- Transforma los datos de prueba.
- Imprime las 10 primeras características de
tfidf_vectorizer. - Imprime los 5 primeros vectores de los datos de entrenamiento tfidf usando un corte sobre el atributo
.A(o array) detfidf_train.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])