Inspección de los vectores
Para hacerte una mejor idea de cómo funcionan los vectores, los investigarás convirtiéndolos en pandas DataFrames.
Aquí utilizarás las mismas estructuras de datos que creaste en los dos ejercicios anteriores (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), así como pandas, que se importa como pd.
Este ejercicio forma parte del curso
Introducción al procesamiento de lenguaje natural en Python
Instrucciones del ejercicio
Crea los DataFrames
count_dfytfidf_dfutilizandopd.DataFrame()y especificando los valores como primer argumento y las columnas (o características) como segundo argumento.Se puede acceder a los valores utilizando el atributo
.Ade, respectivamente,count_trainytfidf_train.Se puede acceder a las columnas mediante los métodos
.get_feature_names()decount_vectorizerytfidf_vectorizer.
Imprime la cabeza de cada DataFrame para investigar su estructura. Esto se ha hecho por ti.
Comprueba si los nombres de las columnas son los mismos para cada DataFrame creando un nuevo objeto llamado
differencepara ver la diferencia entre las columnas que tienecount_dfrespecto atfidf_df. Se puede acceder a las columnas mediante el atributo.columnsde un Marco de datos. Resta el conjunto detfidf_df.columnsdel conjunto decount_df.columns.Comprueba si los dos DataFrames son equivalentes utilizando el método
.equals()encount_dfcontfidf_dfcomo argumento.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)