Trovare le parole più comuni
È sempre consigliabile, una volta creato le tue feature, ispezionarle per assicurarti che siano come ti aspetti. Questo ti permetterà di individuare subito eventuali errori e, magari, orientare il successivo feature engineering da fare.
Il vettorizzatore (cv) che hai addestrato nell’esercizio precedente e l’array sparso con i conteggi delle parole (cv_trigram) sono disponibili nel tuo workspace.
Questo esercizio fa parte del corso
Feature Engineering per il Machine Learning in Python
Istruzioni dell'esercizio
- Crea un DataFrame con le feature (conteggi delle parole).
- Somma le occorrenze delle parole e stampa le 5 parole più frequenti.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a DataFrame of the features
cv_tri_df = ____(____,
columns=cv_trigram_vec.get_feature_names()).add_prefix('Counts_')
# Print the top 5 words in the sorted output
print(cv_tri_df.sum().____(ascending=____).head())