Inspeccionando los vectores
Para entender mejor cómo funcionan los vectores, los vas a investigar convirtiéndolos en DataFrames de pandas.
Aquí usarás las mismas estructuras de datos que creaste en los dos ejercicios anteriores (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), así como pandas, que está importado como pd.
Este ejercicio forma parte del curso
Introducción al Natural Language Processing en Python
Instrucciones del ejercicio
- Crea los DataFrames
count_dfytfidf_dfusandopd.DataFrame()y especificando los valores como primer argumento y las columnas (o características) como segundo argumento.- Puedes acceder a los valores usando el atributo
.Ade, respectivamente,count_trainytfidf_train. - Puedes acceder a las columnas usando los métodos
.get_feature_names()decount_vectorizerytfidf_vectorizer.
- Puedes acceder a los valores usando el atributo
- Imprime el head de cada DataFrame para investigar su estructura. Esto ya está hecho por ti.
- Comprueba si los nombres de las columnas son los mismos en cada DataFrame creando un nuevo objeto llamado
differencepara ver la diferencia entre las columnas que tienecount_dfrespecto atfidf_df. Puedes acceder a las columnas con el atributo.columnsde un DataFrame. Resta el conjunto detfidf_df.columnsdel conjunto decount_df.columns. - Comprueba si los dos DataFrames son equivalentes usando el método
.equals()encount_dfcontfidf_dfcomo argumento.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)