Taalherkenning van productreviews

Je gaat taalherkenning oefenen op een kleine gegevensset genaamd non_english_reviews. Dit is een steekproef van niet-Engelse reviews uit de Amazon productreviews.

Je itereert over de rijen van de gegevensset, detecteert de taal van elke rij en voegt die toe aan een lege lijst. De lijst moet opgeschoond worden zodat die alleen de taal van de review bevat, zoals 'en' voor Engels in plaats van de normale output en:0.9987654. Onthoud dat de taalherkenningsfunctie meer dan één taal kan detecteren en dat het eerste item in de geretourneerde lijst de meest waarschijnlijke kandidaat is. Tot slot ken je de lijst toe aan een nieuwe kolom.

De logica is hetzelfde als in de dia's en de vorige oefening, maar in plaats van de functie op een lijst toe te passen, werk je nu met een gegevensset.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Oefeninstructies

Iteer over de rijen van de gegevensset non_english_reviews.
Detecteer binnen de loop de taal van de tweede kolom van de gegevensset.
Maak de string schoon door te splitsen op een : binnen de list-comprehension-uitdrukking.
Ken tenslotte de opgeschoonde lijst toe aan een nieuwe kolom.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

from langdetect import detect_langs
languages = [] 

# Loop over the rows of the dataset and append  
for row in ____(____(non_english_reviews)):
    languages.append(____(non_english_reviews.iloc[row, 1]))

# Clean the list by splitting     
languages = [str(lang).____(':')[0][1:] for lang in languages]

# Assign the list to a new feature 
non_english_reviews['language'] = ____

print(non_english_reviews.head())

Code bewerken en uitvoeren