Aan de slagGa gratis aan de slag

Woorden tellen (I)

Zodra je de informatie op hoofdlijnen hebt vastgelegd, kun je beginnen met het maken van features op basis van de daadwerkelijke inhoud van elke tekst. Een manier om dit te doen, lijkt op hoe je eerder met categorische variabelen hebt gewerkt.

  • Voor elk uniek woord in de gegevensset wordt een kolom aangemaakt.
  • Voor elke rij tel je hoe vaak dit woord voorkomt en vul je die telling in de bijbehorende kolom in.

Deze "count"-kolommen kun je vervolgens gebruiken om Machine Learning-modellen te trainen.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Importeer CountVectorizer uit sklearn.feature_extraction.text.
  • Instantieer CountVectorizer en wijs deze toe aan cv.
  • Fit de vectorizer op de kolom text_clean.
  • Print de featurenamen die door de vectorizer zijn gegenereerd.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import CountVectorizer
____

# Instantiate CountVectorizer
cv = ____

# Fit the vectorizer
cv.____(speech_df['text_clean'])

# Print feature names
print(cv.____)
Code bewerken en uitvoeren