IniziaInizia gratis

Ispezionare i vettori

Per capire meglio come funzionano i vettori, li esaminerai convertendoli in DataFrame pandas.

Qui userai le stesse strutture dati create nei due esercizi precedenti (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer) e pandas, importato come pd.

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea i DataFrame count_df e tfidf_df usando pd.DataFrame(), specificando i valori come primo argomento e le colonne (o feature) come secondo argomento.
    • Puoi accedere ai valori usando l'attributo .A di count_train e tfidf_train, rispettivamente.
    • Puoi accedere alle colonne usando i metodi .get_feature_names() di count_vectorizer e tfidf_vectorizer.
  • Stampa la testa di ciascun DataFrame per esaminarne la struttura. È già stato fatto per te.
  • Verifica se i nomi delle colonne sono gli stessi per ciascun DataFrame creando un nuovo oggetto chiamato difference per vedere la differenza tra le colonne che count_df ha rispetto a tfidf_df. Puoi accedere alle colonne tramite l'attributo .columns di un DataFrame. Sottrai l'insieme di tfidf_df.columns dall'insieme di count_df.columns.
  • Verifica se i due DataFrame sono equivalenti usando il metodo .equals() su count_df con tfidf_df come argomento.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create the CountVectorizer DataFrame: count_df
count_df = ____(____, columns=____)

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = ____

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(____) - set(____)
print(difference)

# Check whether the DataFrames are equal
print(____)
Modifica ed esegui il codice