Inspección de los vectores

Para hacerte una mejor idea de cómo funcionan los vectores, los investigarás convirtiéndolos en pandas DataFrames.

Aquí utilizarás las mismas estructuras de datos que creaste en los dos ejercicios anteriores (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), así como pandas, que se importa como pd.

Este ejercicio forma parte del curso

Introducción al procesamiento de lenguaje natural en Python

Ver curso

Instrucciones de ejercicio

  • Crea los DataFrames count_df y tfidf_df utilizando pd.DataFrame() y especificando los valores como primer argumento y las columnas (o características) como segundo argumento.

    • Se puede acceder a los valores utilizando el atributo .A de, respectivamente, count_train y tfidf_train.

    • Se puede acceder a las columnas mediante los métodos .get_feature_names() de count_vectorizer y tfidf_vectorizer.

  • Imprime la cabeza de cada DataFrame para investigar su estructura. Esto se ha hecho por ti.

  • Comprueba si los nombres de las columnas son los mismos para cada DataFrame creando un nuevo objeto llamado difference para ver la diferencia entre las columnas que tiene count_df respecto a tfidf_df. Se puede acceder a las columnas mediante el atributo .columns de un Marco de datos. Resta el conjunto de tfidf_df.columns del conjunto de count_df.columns.

  • Comprueba si los dos DataFrames son equivalentes utilizando el método .equals() en count_df con tfidf_df como argumento.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)