TfidfVectorizador para la clasificación de textos

De forma similar al CountVectorizer disperso creado en el ejercicio anterior, trabajarás en la creación de vectores tf-idf para tus documentos. Configurarás un TfidfVectorizer e investigarás algunas de sus funciones.

En este ejercicio, utilizarás pandas y sklearn junto con los mismos X_train, y_train y X_test, y_test DataFrames y Series que creaste en el ejercicio anterior.

Este ejercicio forma parte del curso

Introducción al procesamiento de lenguaje natural en Python

Ver curso

Instrucciones de ejercicio

  • Importa TfidfVectorizer desde sklearn.feature_extraction.text.
  • Crea un objeto TfidfVectorizer llamado tfidf_vectorizer. Al hacerlo, especifica los argumentos de palabra clave stop_words="english" y max_df=0.7.
  • Ajustar y transformar los datos de entrenamiento.
  • Transforma los datos de la prueba.
  • Imprime las 10 primeras características de tfidf_vectorizer.
  • Imprime los 5 primeros vectores de los datos de entrenamiento tfidf utilizando el corte en .A (o matriz) atributo de tfidf_train.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])