MulaiMulai sekarang secara gratis

Deteksi bahasa ulasan produk

Anda akan berlatih deteksi bahasa pada himpunan data kecil bernama non_english_reviews. Ini adalah sampel ulasan non-Inggris dari ulasan produk Amazon.

Anda akan mengiterasi baris-baris himpunan data, mendeteksi bahasa setiap baris, dan menambahkannya ke sebuah daftar kosong. Daftar tersebut perlu dibersihkan agar hanya memuat kode bahasa ulasan, seperti 'en' untuk bahasa Inggris, alih-alih keluaran reguler en:0.9987654. Ingat bahwa fungsi deteksi bahasa mungkin mendeteksi lebih dari satu bahasa dan item pertama dalam daftar keluaran adalah kandidat yang paling mungkin. Terakhir, Anda akan menetapkan daftar tersebut ke sebuah kolom baru.

Logikanya sama seperti yang digunakan pada slide dan latihan sebelumnya, tetapi alih-alih menerapkan fungsi pada sebuah daftar, Anda bekerja dengan himpunan data.

Latihan ini adalah bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Petunjuk latihan

  • Iterasikan baris-baris himpunan data non_english_reviews.
  • Di dalam loop, deteksi bahasa pada kolom kedua himpunan data.
  • Bersihkan string dengan memisahkan berdasarkan : di dalam ekspresi list comprehension.
  • Terakhir, tetapkan daftar yang telah dibersihkan ke sebuah kolom baru.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from langdetect import detect_langs
languages = [] 

# Loop over the rows of the dataset and append  
for row in ____(____(non_english_reviews)):
    languages.append(____(non_english_reviews.iloc[row, 1]))

# Clean the list by splitting     
languages = [str(lang).____(':')[0][1:] for lang in languages]

# Assign the list to a new feature 
non_english_reviews['language'] = ____

print(non_english_reviews.head())
Edit dan Jalankan Kode