Taalherkenning van productreviews
Je gaat taalherkenning oefenen op een kleine gegevensset genaamd non_english_reviews. Dit is een steekproef van niet-Engelse reviews uit de Amazon productreviews.
Je itereert over de rijen van de gegevensset, detecteert de taal van elke rij en voegt die toe aan een lege lijst. De lijst moet opgeschoond worden zodat die alleen de taal van de review bevat, zoals 'en' voor Engels in plaats van de normale output en:0.9987654. Onthoud dat de taalherkenningsfunctie meer dan één taal kan detecteren en dat het eerste item in de geretourneerde lijst de meest waarschijnlijke kandidaat is. Tot slot ken je de lijst toe aan een nieuwe kolom.
De logica is hetzelfde als in de dia's en de vorige oefening, maar in plaats van de functie op een lijst toe te passen, werk je nu met een gegevensset.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Iteer over de rijen van de gegevensset
non_english_reviews. - Detecteer binnen de loop de taal van de tweede kolom van de gegevensset.
- Maak de string schoon door te splitsen op een
:binnen de list-comprehension-uitdrukking. - Ken tenslotte de opgeschoonde lijst toe aan een nieuwe kolom.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from langdetect import detect_langs
languages = []
# Loop over the rows of the dataset and append
for row in ____(____(non_english_reviews)):
languages.append(____(non_english_reviews.iloc[row, 1]))
# Clean the list by splitting
languages = [str(lang).____(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = ____
print(non_english_reviews.head())