Trasformare dati mai visti
Quando crei vettori a partire dal testo, qualsiasi trasformazione esegui prima di addestrare un modello di Machine Learning va applicata anche ai nuovi dati non visti (test). Per farlo, segui lo stesso approccio del capitolo precedente: esegui il fit del vettorizzatore solo sui dati di training e applicalo ai dati di test.
Per questo esercizio il DataFrame speech_df è stato diviso in due:
train_speech_df: il set di training con i primi 45 discorsi.test_speech_df: il set di test con i discorsi rimanenti.
Questo esercizio fa parte del corso
Feature Engineering per il Machine Learning in Python
Istruzioni dell'esercizio
- Istanzia
TfidfVectorizer. - Fai il fit del vettorizzatore e applicalo alla colonna
text_clean. - Applica lo stesso vettorizzatore alla colonna
text_cleandei dati di test. - Crea un DataFrame con queste nuove feature dal set di test.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')
# Fit the vectroizer and transform the data
tv_transformed = ____
# Transform test data
test_tv_transformed = ____
# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())