Inspección de los vectores
Para hacerte una mejor idea de cómo funcionan los vectores, los investigarás convirtiéndolos en pandas
DataFrames.
Aquí utilizarás las mismas estructuras de datos que creaste en los dos ejercicios anteriores (count_train
, count_vectorizer
, tfidf_train
, tfidf_vectorizer
), así como pandas
, que se importa como pd
.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Instrucciones de ejercicio
Crea los DataFrames
count_df
ytfidf_df
utilizandopd.DataFrame()
y especificando los valores como primer argumento y las columnas (o características) como segundo argumento.Se puede acceder a los valores utilizando el atributo
.A
de, respectivamente,count_train
ytfidf_train
.Se puede acceder a las columnas mediante los métodos
.get_feature_names()
decount_vectorizer
ytfidf_vectorizer
.
Imprime la cabeza de cada DataFrame para investigar su estructura. Esto se ha hecho por ti.
Comprueba si los nombres de las columnas son los mismos para cada DataFrame creando un nuevo objeto llamado
difference
para ver la diferencia entre las columnas que tienecount_df
respecto atfidf_df
. Se puede acceder a las columnas mediante el atributo.columns
de un Marco de datos. Resta el conjunto detfidf_df.columns
del conjunto decount_df.columns
.Comprueba si los dos DataFrames son equivalentes utilizando el método
.equals()
encount_df
contfidf_df
como argumento.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)