TfidfVectorizer para clasificación de texto

Al igual que con el CountVectorizer disperso que creaste en el ejercicio anterior, ahora vas a crear vectores tf-idf para tus documentos. Configurarás un TfidfVectorizer y explorarás algunas de sus opciones.

En este ejercicio, usarás pandas y sklearn junto con los mismos DataFrames y Series X_train, y_train y X_test, y_test que creaste en el ejercicio anterior.

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

Instrucciones del ejercicio

Importa TfidfVectorizer de sklearn.feature_extraction.text.
Crea un objeto TfidfVectorizer llamado tfidf_vectorizer. Al hacerlo, especifica los argumentos con nombre stop_words="english" y max_df=0.7.
Ajusta y transforma los datos de entrenamiento.
Transforma los datos de prueba.
Imprime las 10 primeras características de tfidf_vectorizer.
Imprime los 5 primeros vectores de los datos de entrenamiento tfidf usando un corte sobre el atributo .A (o array) de tfidf_train.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])

Editar y ejecutar código