ComenzarEmpieza gratis

Inspeccionando los vectores

Para entender mejor cómo funcionan los vectores, los vas a investigar convirtiéndolos en DataFrames de pandas.

Aquí usarás las mismas estructuras de datos que creaste en los dos ejercicios anteriores (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), así como pandas, que está importado como pd.

Este ejercicio forma parte del curso

Introducción al Natural Language Processing en Python

Ver curso

Instrucciones del ejercicio

  • Crea los DataFrames count_df y tfidf_df usando pd.DataFrame() y especificando los valores como primer argumento y las columnas (o características) como segundo argumento.
    • Puedes acceder a los valores usando el atributo .A de, respectivamente, count_train y tfidf_train.
    • Puedes acceder a las columnas usando los métodos .get_feature_names() de count_vectorizer y tfidf_vectorizer.
  • Imprime el head de cada DataFrame para investigar su estructura. Esto ya está hecho por ti.
  • Comprueba si los nombres de las columnas son los mismos en cada DataFrame creando un nuevo objeto llamado difference para ver la diferencia entre las columnas que tiene count_df respecto a tfidf_df. Puedes acceder a las columnas con el atributo .columns de un DataFrame. Resta el conjunto de tfidf_df.columns del conjunto de count_df.columns.
  • Comprueba si los dos DataFrames son equivalentes usando el método .equals() en count_df con tfidf_df como argumento.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)
Editar y ejecutar código