LoslegenKostenlos loslegen

Spracherkennung bei Produktrezensionen

Du übst die Spracherkennung an einem kleinen Datensatz namens non_english_reviews. Er enthält eine Stichprobe nicht‑englischer Rezensionen aus den Amazon-Produktrezensionen.

Du iterierst über die Zeilen des Datensatzes, erkennst die Sprache jeder Zeile und hängst sie an eine leere Liste an. Diese Liste muss bereinigt werden, sodass sie nur die Sprache der Rezension enthält, zum Beispiel 'en' für Englisch statt der üblichen Ausgabe en:0.9987654. Denk daran, dass die Spracherkennungsfunktion mehr als eine Sprache erkennen kann und das erste Element der zurückgegebenen Liste der wahrscheinlichste Kandidat ist. Abschließend weist du die Liste einer neuen Spalte zu.

Die Logik ist dieselbe wie in den Folien und in der vorherigen Übung, aber anstatt die Funktion auf eine Liste anzuwenden, arbeitest du hier mit einem Datensatz.

Diese Übung ist Teil des Kurses

Stimmungsanalyse in Python

Kurs anzeigen

Anleitung zur Übung

  • Iteriere über die Zeilen des Datensatzes non_english_reviews.
  • Erkenne innerhalb der Schleife die Sprache der zweiten Spalte des Datensatzes.
  • Bereinige den String, indem du in der List-Comprehension am : trennst.
  • Weise schließlich die bereinigte Liste einer neuen Spalte zu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from langdetect import detect_langs
languages = [] 

# Loop over the rows of the dataset and append  
for row in ____(____(non_english_reviews)):
    languages.append(____(non_english_reviews.iloc[row, 1]))

# Clean the list by splitting     
languages = [str(lang).____(':')[0][1:] for lang in languages]

# Assign the list to a new feature 
non_english_reviews['language'] = ____

print(non_english_reviews.head())
Code bearbeiten und ausführen