CommencerCommencer gratuitement

Raciner des avis en espagnol

Vous vous souvenez peut‑être que, dans un chapitre précédent, nous avons utilisé un paquet de détection de langue pour déterminer la langue de différents avis produits Amazon. Dans cet exercice, vous allez d’abord détecter les langues dans non_english_reviews. Les avis sont rédigés dans plusieurs langues, mais vous ne sélectionnerez QUE ceux en espagnol. N’hésitez pas à revoir la vidéo sur la détection de langues étrangères si vous avez oublié certains concepts.

Dans un second temps, vous allez créer des jetons de mots à partir des avis en espagnol, puis les raciner (stemming) en utilisant un stemmer SnowBall pour la langue espagnole. Le paquet de détection de langue n’est malheureusement pas parfait. Il est donc possible que la langue détectée soit parfois incorrecte.

Cet exercice fait partie du cours

Analyse de sentiments en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the language detection package
import ____

# Loop over the rows of the dataset and append  
languages = [] 
for i in ____(____(non_english_reviews)):
    languages.append(____.____(non_english_reviews.iloc[i, 1]))

# Clean the list by splitting     
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature 
non_english_reviews['language'] = languages

# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']
Modifier et exécuter le code