Spanische Rezensionen stämmen

Du erinnerst dich vielleicht: In einem früheren Kapitel haben wir ein Paket zur Spracherkennung verwendet, um die Sprache verschiedener Amazon-Produktrezensionen zu bestimmen. In dieser Übung erkennst du zunächst die Sprachen in den non_english_reviews. Die Rezensionen liegen in mehreren Sprachen vor, aber du wählst NUR diejenigen auf Spanisch aus. Sieh dir gern das Video zur Erkennung von Fremdsprachen noch einmal an, falls du einige Konzepte aufgefrischt brauchst.

Im zweiten Schritt erstellst du Wort-Tokens aus den spanischen Rezensionen und stemmst sie mit einem Snowball-Stemmer für die spanische Sprache. Das Spracherkennungspaket ist leider nicht perfekt. Es kann daher vorkommen, dass die erkannte Sprache gelegentlich nicht korrekt ist.

Diese Übung ist Teil des Kurses

<Kurs>Stimmungsanalyse in Python</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the language detection package
import ____

# Loop over the rows of the dataset and append  
languages = [] 
for i in ____(____(non_english_reviews)):
    languages.append(____.____(non_english_reviews.iloc[i, 1]))

# Clean the list by splitting     
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature 
non_english_reviews['language'] = languages

# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']

Code bearbeiten und ausführen