Spanische Rezensionen stämmen
Du erinnerst dich vielleicht: In einem früheren Kapitel haben wir ein Paket zur Spracherkennung verwendet, um die Sprache verschiedener Amazon-Produktrezensionen zu bestimmen. In dieser Übung erkennst du zunächst die Sprachen in den non_english_reviews. Die Rezensionen liegen in mehreren Sprachen vor, aber du wählst NUR diejenigen auf Spanisch aus. Sieh dir gern das Video zur Erkennung von Fremdsprachen noch einmal an, falls du einige Konzepte aufgefrischt brauchst.
Im zweiten Schritt erstellst du Wort-Tokens aus den spanischen Rezensionen und stemmst sie mit einem Snowball-Stemmer für die spanische Sprache. Das Spracherkennungspaket ist leider nicht perfekt. Es kann daher vorkommen, dass die erkannte Sprache gelegentlich nicht korrekt ist.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the language detection package
import ____
# Loop over the rows of the dataset and append
languages = []
for i in ____(____(non_english_reviews)):
languages.append(____.____(non_english_reviews.iloc[i, 1]))
# Clean the list by splitting
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = languages
# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']