Rilevamento della lingua nelle recensioni di prodotto
Metterai in pratica il rilevamento della lingua su un piccolo insieme di dati chiamato non_english_reviews. È un campione di recensioni non in inglese tratte dalle recensioni di prodotti Amazon.
Itererai sulle righe del dataset, rileverai la lingua di ciascuna riga e la aggiungerai a una lista vuota. La lista va ripulita in modo che contenga solo la lingua della recensione, ad esempio 'en' per l'inglese invece del normale output en:0.9987654. Ricorda che la funzione di rilevamento della lingua può individuare più di una lingua e il primo elemento della lista restituita è il candidato più probabile. Infine, assegnerai la lista a una nuova colonna.
La logica è la stessa usata nelle diapositive e nell'esercizio precedente, ma invece di applicare la funzione a una lista, lavori con un dataset.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Istruzioni dell'esercizio
- Itera sulle righe del dataset
non_english_reviews. - All'interno del loop, rileva la lingua della seconda colonna del dataset.
- Pulisci la stringa facendo lo split su
:all'interno dell'espressione di list comprehension. - Infine, assegna la lista pulita a una nuova colonna.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from langdetect import detect_langs
languages = []
# Loop over the rows of the dataset and append
for row in ____(____(non_english_reviews)):
languages.append(____(non_english_reviews.iloc[row, 1]))
# Clean the list by splitting
languages = [str(lang).____(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = ____
print(non_english_reviews.head())