Ongeziene data transformeren
Als je vectoren maakt van tekst, moet je alle transformaties die je vóór het trainen van een Machine Learning-model uitvoert, ook toepassen op de nieuwe, ongeziene (test)data. Volg hiervoor dezelfde aanpak als in het vorige hoofdstuk: fit de vectorizer alleen op de trainingsdata en pas hem toe op de testdata.
Voor deze oefening is de DataFrame speech_df in tweeën gesplitst:
train_speech_df: de trainingsset met de eerste 45 toespraken.test_speech_df: de testset met de resterende toespraken.
Deze oefening maakt deel uit van de cursus
Feature engineering voor Machine Learning in Python
Oefeninstructies
- Instantieer
TfidfVectorizer. - Fit de vectorizer en pas hem toe op de kolom
text_clean. - Pas dezelfde vectorizer toe op de kolom
text_cleanvan de testdata. - Maak een DataFrame van deze nieuwe features uit de testset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')
# Fit the vectroizer and transform the data
tv_transformed = ____
# Transform test data
test_tv_transformed = ____
# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())