Feature-indexen koppelen aan featurenamen

In de lesvideo zagen we dat CountVectorizer de woordenschat niet per se in alfabetische volgorde indexeert. In deze oefening leer je elke feature-index te koppelen aan de bijbehorende featurenaam uit de woordenschat.

We gebruiken dezelfde drie zinnen over leeuwen uit de video. De zinnen staan in een lijst met de naam corpus en zijn al naar de console geprint.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Oefeninstructies

Maak een CountVectorizer-object. Noem het vectorizer.
Genereer met fit_transform() de bow_matrix voor corpus.
Gebruik de methode get_feature_names() om de kolomnamen te koppelen aan het overeenkomstige woord in de woordenschat.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create CountVectorizer object
vectorizer = ____

# Generate matrix of word vectors
bow_matrix = vectorizer.____(____)

# Convert bow_matrix into a DataFrame
bow_df = pd.DataFrame(bow_matrix.toarray())

# Map the column names to vocabulary 
bow_df.columns = vectorizer.____

# Print bow_df
print(bow_df)

Code bewerken en uitvoeren