Ispezionare i vettori
Per capire meglio come funzionano i vettori, li esaminerai convertendoli in DataFrame pandas.
Qui userai le stesse strutture dati create nei due esercizi precedenti (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) e pandas, importato come pd.
Questo esercizio fa parte del corso
Introduzione al Natural Language Processing in Python
Istruzioni dell'esercizio
- Crea i DataFrame
count_dfetfidf_dfusandopd.DataFrame(), specificando i valori come primo argomento e le colonne (o feature) come secondo argomento.- Puoi accedere ai valori usando l'attributo
.Adicount_trainetfidf_train, rispettivamente. - Puoi accedere alle colonne usando i metodi
.get_feature_names()dicount_vectorizeretfidf_vectorizer.
- Puoi accedere ai valori usando l'attributo
- Stampa la testa di ciascun DataFrame per esaminarne la struttura. È già stato fatto per te.
- Verifica se i nomi delle colonne sono gli stessi per ciascun DataFrame creando un nuovo oggetto chiamato
differenceper vedere la differenza tra le colonne checount_dfha rispetto atfidf_df. Puoi accedere alle colonne tramite l'attributo.columnsdi un DataFrame. Sottrai l'insieme ditfidf_df.columnsdall'insieme dicount_df.columns. - Verifica se i due DataFrame sono equivalenti usando il metodo
.equals()sucount_dfcontfidf_dfcome argomento.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)
# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____
# Print the head of count_df
print(count_df.head())
# Print the head of tfidf_df
print(tfidf_df.head())
# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)
# Check whether the DataFrames are equal
print(____)