MulaiMulai sekarang secara gratis

Latihan prapemrosesan teks

Sekarang giliran Anda menerapkan teknik yang telah dipelajari untuk membersihkan teks agar hasil NLP lebih baik. Anda perlu menghapus stop words dan karakter non-alfabet, melakukan lemmatisasi, dan membuat bag-of-words baru pada teks yang sudah dibersihkan.

Anda mulai dengan token yang sama seperti pada latihan sebelumnya: lower_tokens. Kelas Counter juga sudah diimpor.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Petunjuk latihan

  • Impor kelas WordNetLemmatizer dari nltk.stem.
  • Buat list alpha_only yang berisi hanya karakter alfabet. Anda dapat menggunakan metode .isalpha() untuk memeriksanya.
  • Buat list lain bernama no_stops yang terdiri atas kata-kata dari alpha_only yang tidak terdapat dalam english_stops.
  • Inisialisasi objek WordNetLemmatizer bernama wordnet_lemmatizer dan gunakan metode .lemmatize() pada token dalam no_stops untuk membuat list baru bernama lemmatized.
  • Buat Counter baru bernama bow dengan kata-kata hasil lemmatisasi.
  • Terakhir, cetak 10 token yang paling umum.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import WordNetLemmatizer
____

# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]

# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]

# Create the bag-of-words: bow
bow = ____(____)

# Print the 10 most common tokens
print(____.____(__))
Edit dan Jalankan Kode