Rilevamento della lingua nelle recensioni di prodotto

Metterai in pratica il rilevamento della lingua su un piccolo insieme di dati chiamato non_english_reviews. È un campione di recensioni non in inglese tratte dalle recensioni di prodotti Amazon.

Itererai sulle righe del dataset, rileverai la lingua di ciascuna riga e la aggiungerai a una lista vuota. La lista va ripulita in modo che contenga solo la lingua della recensione, ad esempio 'en' per l'inglese invece del normale output en:0.9987654. Ricorda che la funzione di rilevamento della lingua può individuare più di una lingua e il primo elemento della lista restituita è il candidato più probabile. Infine, assegnerai la lista a una nuova colonna.

La logica è la stessa usata nelle diapositive e nell'esercizio precedente, ma invece di applicare la funzione a una lista, lavori con un dataset.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

Istruzioni dell'esercizio

Itera sulle righe del dataset non_english_reviews.
All'interno del loop, rileva la lingua della seconda colonna del dataset.
Pulisci la stringa facendo lo split su : all'interno dell'espressione di list comprehension.
Infine, assegna la lista pulita a una nuova colonna.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

from langdetect import detect_langs
languages = [] 

# Loop over the rows of the dataset and append  
for row in ____(____(non_english_reviews)):
    languages.append(____(non_english_reviews.iloc[row, 1]))

# Clean the list by splitting     
languages = [str(lang).____(':')[0][1:] for lang in languages]

# Assign the list to a new feature 
non_english_reviews['language'] = ____

print(non_english_reviews.head())

Modifica ed esegui il codice