IniziaInizia gratis

Trasformare dati mai visti

Quando crei vettori a partire dal testo, qualsiasi trasformazione esegui prima di addestrare un modello di Machine Learning va applicata anche ai nuovi dati non visti (test). Per farlo, segui lo stesso approccio del capitolo precedente: esegui il fit del vettorizzatore solo sui dati di training e applicalo ai dati di test.

Per questo esercizio il DataFrame speech_df è stato diviso in due:

  • train_speech_df: il set di training con i primi 45 discorsi.
  • test_speech_df: il set di test con i discorsi rimanenti.

Questo esercizio fa parte del corso

Feature Engineering per il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Istanzia TfidfVectorizer.
  • Fai il fit del vettorizzatore e applicalo alla colonna text_clean.
  • Applica lo stesso vettorizzatore alla colonna text_clean dei dati di test.
  • Crea un DataFrame con queste nuove feature dal set di test.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')

# Fit the vectroizer and transform the data
tv_transformed = ____

# Transform test data
test_tv_transformed = ____

# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____, 
                          columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())
Modifica ed esegui il codice