Feature-indexen koppelen aan featurenamen
In de lesvideo zagen we dat CountVectorizer de woordenschat niet per se in alfabetische volgorde indexeert. In deze oefening leer je elke feature-index te koppelen aan de bijbehorende featurenaam uit de woordenschat.
We gebruiken dezelfde drie zinnen over leeuwen uit de video. De zinnen staan in een lijst met de naam corpus en zijn al naar de console geprint.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Oefeninstructies
- Maak een
CountVectorizer-object. Noem hetvectorizer. - Genereer met
fit_transform()debow_matrixvoorcorpus. - Gebruik de methode
get_feature_names()om de kolomnamen te koppelen aan het overeenkomstige woord in de woordenschat.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create CountVectorizer object
vectorizer = ____
# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)
# Convert bow_matrix into a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray())
# Map the column names to vocabulary
bow_df.columns = vectorizer.____
# Print bow_df
print(bow_df)