Die häufigsten Wörter finden
Es ist immer ratsam, die erstellten Features zu überprüfen, um sicherzustellen, dass sie so aussehen, wie du es erwartest. So kannst du Fehler frühzeitig erkennen und gegebenenfalls beeinflussen, welche weiteren Schritte beim Feature Engineering nötig sind.
Der Vektorisierer (cv), den du in der letzten Übung fit gemacht hast, sowie das Sparse-Array mit den Worthäufigkeiten (cv_trigram) stehen dir in deinem Workspace zur Verfügung.
Diese Übung ist Teil des Kurses
Feature Engineering für Machine Learning in Python
Anleitung zur Übung
- Erstelle einen DataFrame der Features (Worthäufigkeiten).
- Addiere die Anzahl der Wortvorkommen und gib die 5 am häufigsten vorkommenden Wörter aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a DataFrame of the features
cv_tri_df = ____(____,
columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')
# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())