Deteksi bahasa ulasan produk
Anda akan berlatih deteksi bahasa pada himpunan data kecil bernama non_english_reviews. Ini adalah sampel ulasan non-Inggris dari ulasan produk Amazon.
Anda akan mengiterasi baris-baris himpunan data, mendeteksi bahasa setiap baris, dan menambahkannya ke sebuah daftar kosong. Daftar tersebut perlu dibersihkan agar hanya memuat kode bahasa ulasan, seperti 'en' untuk bahasa Inggris, alih-alih keluaran reguler en:0.9987654. Ingat bahwa fungsi deteksi bahasa mungkin mendeteksi lebih dari satu bahasa dan item pertama dalam daftar keluaran adalah kandidat yang paling mungkin. Terakhir, Anda akan menetapkan daftar tersebut ke sebuah kolom baru.
Logikanya sama seperti yang digunakan pada slide dan latihan sebelumnya, tetapi alih-alih menerapkan fungsi pada sebuah daftar, Anda bekerja dengan himpunan data.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Iterasikan baris-baris himpunan data
non_english_reviews. - Di dalam loop, deteksi bahasa pada kolom kedua himpunan data.
- Bersihkan string dengan memisahkan berdasarkan
:di dalam ekspresi list comprehension. - Terakhir, tetapkan daftar yang telah dibersihkan ke sebuah kolom baru.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from langdetect import detect_langs
languages = []
# Loop over the rows of the dataset and append
for row in ____(____(non_english_reviews)):
languages.append(____(non_english_reviews.iloc[row, 1]))
# Clean the list by splitting
languages = [str(lang).____(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = ____
print(non_english_reviews.head())