Aan de slagGa gratis aan de slag

De meest voorkomende woorden vinden

Het is altijd aan te raden om, zodra je je features hebt gemaakt, ze te inspecteren om te controleren of ze zijn zoals je verwacht. Zo kun je fouten vroegtijdig opsporen en bepalen welke verdere feature engineering je eventueel nog moet doen.

De vectorizer (cv) die je in de vorige oefening hebt gefit en de sparse array met woordtellingen (cv_trigram) zijn beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Maak een DataFrame met de features (woordtellingen).
  • Tel het aantal woordvoorkomens op en print de top 5 meest voorkomende woorden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a DataFrame of the features
cv_tri_df = ____(____, 
                 columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')

# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())
Code bewerken en uitvoeren