Aan de slagGa gratis aan de slag

Ongeziene data transformeren

Als je vectoren maakt van tekst, moet je alle transformaties die je vóór het trainen van een Machine Learning-model uitvoert, ook toepassen op de nieuwe, ongeziene (test)data. Volg hiervoor dezelfde aanpak als in het vorige hoofdstuk: fit de vectorizer alleen op de trainingsdata en pas hem toe op de testdata.

Voor deze oefening is de DataFrame speech_df in tweeën gesplitst:

  • train_speech_df: de trainingsset met de eerste 45 toespraken.
  • test_speech_df: de testset met de resterende toespraken.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Instantieer TfidfVectorizer.
  • Fit de vectorizer en pas hem toe op de kolom text_clean.
  • Pas dezelfde vectorizer toe op de kolom text_clean van de testdata.
  • Maak een DataFrame van deze nieuwe features uit de testset.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')

# Fit the vectroizer and transform the data
tv_transformed = ____

# Transform test data
test_tv_transformed = ____

# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____, 
                          columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())
Code bewerken en uitvoeren