TfidfVectorizador para la clasificación de textos
De forma similar al CountVectorizer
disperso creado en el ejercicio anterior, trabajarás en la creación de vectores tf-idf para tus documentos. Configurarás un TfidfVectorizer
e investigarás algunas de sus funciones.
En este ejercicio, utilizarás pandas
y sklearn
junto con los mismos X_train
, y_train
y X_test
, y_test
DataFrames y Series que creaste en el ejercicio anterior.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Instrucciones de ejercicio
- Importa
TfidfVectorizer
desdesklearn.feature_extraction.text
. - Crea un objeto
TfidfVectorizer
llamadotfidf_vectorizer
. Al hacerlo, especifica los argumentos de palabra clavestop_words="english"
ymax_df=0.7
. - Ajustar y transformar los datos de entrenamiento.
- Transforma los datos de la prueba.
- Imprime las 10 primeras características de
tfidf_vectorizer
. - Imprime los 5 primeros vectores de los datos de entrenamiento tfidf utilizando el corte en
.A
(o matriz) atributo detfidf_train
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])