MulaiMulai sekarang secara gratis

Stemming ulasan berbahasa Spanyol

Anda mungkin ingat bahwa pada bab sebelumnya kita menggunakan paket deteksi bahasa untuk menentukan bahasa dari berbagai ulasan produk Amazon. Pada latihan ini, pertama-tama Anda akan mendeteksi bahasa pada non_english_reviews. Ulasannya berada dalam beberapa bahasa, tetapi Anda hanya akan memilih yang berbahasa Spanyol. Silakan kembali ke video tentang deteksi bahasa asing jika Anda lupa beberapa konsepnya.

Pada langkah kedua, Anda akan membuat token kata dari ulasan berbahasa Spanyol dan melakukan stemming menggunakan SnowBall stemmer untuk bahasa Spanyol. Sayangnya, paket deteksi bahasa tidak sempurna. Karena itu, ada kemungkinan bahasa yang terdeteksi kadang tidak tepat.

Latihan ini adalah bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the language detection package
import ____

# Loop over the rows of the dataset and append  
languages = [] 
for i in ____(____(non_english_reviews)):
    languages.append(____.____(non_english_reviews.iloc[i, 1]))

# Clean the list by splitting     
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature 
non_english_reviews['language'] = languages

# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']
Edit dan Jalankan Kode