Mappare gli indici delle feature con i nomi delle feature
Nel video della lezione abbiamo visto che CountVectorizer non indicizza necessariamente il vocabolario in ordine alfabetico. In questo esercizio imparerai a mappare ogni indice di feature con il corrispondente nome della feature nel vocabolario.
Useremo le stesse tre frasi sui leoni viste nel video. Le frasi sono disponibili in una lista chiamata corpus ed è già stata stampata in console.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Istanzia un oggetto
CountVectorizer. Chiamalovectorizer. - Usando
fit_transform(), generabow_matrixpercorpus. - Usando il metodo
get_feature_names(), mappa i nomi delle colonne alla corrispondente parola nel vocabolario.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create CountVectorizer object
vectorizer = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Convert bow_matrix into a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray())
# Map the column names to vocabulary
bow_df.columns = vectorizer.____
# Print bow_df
print(bow_df)