Identifier les mots les plus positifs et les plus négatifs
Dans cet exercice, nous allons essayer d’interpréter les coefficients d’une régression logistique entraînée sur le jeu de données d’opinions de critiques de films. L’objet du modèle est déjà instancié et ajusté pour vous dans la variable lr.
De plus, les mots correspondant aux différentes caractéristiques sont chargés dans la variable vocab. Par exemple, puisque vocab[100] vaut "think", cela signifie que la caractéristique 100 correspond au nombre de fois où le mot "think" apparaît dans cette critique de film.
Cet exercice fait partie du cours
Classifieurs linéaires en Python
Instructions
- Trouvez les mots correspondant aux 5 plus grands coefficients.
- Trouvez les mots correspondant aux 5 plus petits coefficients.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Get the indices of the sorted cofficients
inds_ascending = np.argsort(lr.coef_.flatten())
inds_descending = inds_ascending[::-1]
# Print the most positive words
print("Most positive words: ", end="")
for i in range(5):
print(____, end=", ")
print("\n")
# Print most negative words
print("Most negative words: ", end="")
for i in range(5):
print(____, end=", ")
print("\n")