De meest positieve en negatieve woorden identificeren

In deze oefening proberen we de coëfficiënten te interpreteren van een logistic regression die is getraind op de sentimentgegevens van filmrecensies. Het modelobject is al voor je aangemaakt en getraind in de variabele lr.

Daarnaast zijn de woorden die bij de verschillende features horen geladen in de variabele vocab. Bijvoorbeeld: omdat vocab[100] "think" is, betekent dat dat feature 100 overeenkomt met het aantal keer dat het woord "think" in die filmrecensie voorkwam.

Deze oefening maakt deel uit van de cursus

Lineaire classificatoren in Python

Bekijk cursus

Oefeninstructies

Zoek de woorden die horen bij de 5 grootste coëfficiënten.
Zoek de woorden die horen bij de 5 kleinste coëfficiënten.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Get the indices of the sorted cofficients
inds_ascending = np.argsort(lr.coef_.flatten()) 
inds_descending = inds_ascending[::-1]

# Print the most positive words
print("Most positive words: ", end="")
for i in range(5):
    print(____, end=", ")
print("\n")

# Print most negative words
print("Most negative words: ", end="")
for i in range(5):
    print(____, end=", ")
print("\n")

Code bewerken en uitvoeren