Raciner des avis en espagnol
Vous vous souvenez peut‑être que, dans un chapitre précédent, nous avons utilisé un paquet de détection de langue pour déterminer la langue de différents avis produits Amazon. Dans cet exercice, vous allez d’abord détecter les langues dans non_english_reviews. Les avis sont rédigés dans plusieurs langues, mais vous ne sélectionnerez QUE ceux en espagnol. N’hésitez pas à revoir la vidéo sur la détection de langues étrangères si vous avez oublié certains concepts.
Dans un second temps, vous allez créer des jetons de mots à partir des avis en espagnol, puis les raciner (stemming) en utilisant un stemmer SnowBall pour la langue espagnole. Le paquet de détection de langue n’est malheureusement pas parfait. Il est donc possible que la langue détectée soit parfois incorrecte.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the language detection package
import ____
# Loop over the rows of the dataset and append
languages = []
for i in ____(____(non_english_reviews)):
languages.append(____.____(non_english_reviews.iloc[i, 1]))
# Clean the list by splitting
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = languages
# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']