Stemming ulasan berbahasa Spanyol
Anda mungkin ingat bahwa pada bab sebelumnya kita menggunakan paket deteksi bahasa untuk menentukan bahasa dari berbagai ulasan produk Amazon. Pada latihan ini, pertama-tama Anda akan mendeteksi bahasa pada non_english_reviews. Ulasannya berada dalam beberapa bahasa, tetapi Anda hanya akan memilih yang berbahasa Spanyol. Silakan kembali ke video tentang deteksi bahasa asing jika Anda lupa beberapa konsepnya.
Pada langkah kedua, Anda akan membuat token kata dari ulasan berbahasa Spanyol dan melakukan stemming menggunakan SnowBall stemmer untuk bahasa Spanyol. Sayangnya, paket deteksi bahasa tidak sempurna. Karena itu, ada kemungkinan bahasa yang terdeteksi kadang tidak tepat.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the language detection package
import ____
# Loop over the rows of the dataset and append
languages = []
for i in ____(____(non_english_reviews)):
languages.append(____.____(non_english_reviews.iloc[i, 1]))
# Clean the list by splitting
languages = [str(lang).split(':')[0][1:] for lang in languages]
# Assign the list to a new feature
non_english_reviews['language'] = languages
# Select the Spanish ones
filtered_reviews = non_english_reviews[non_english_reviews.language == 'es']