Mulai sekarangMulai gratis

Latihan prapemrosesan teks

Sekarang giliran Anda menerapkan teknik yang telah dipelajari untuk membersihkan teks agar hasil NLP lebih baik. Anda perlu menghapus stop words dan karakter non-alfabet, melakukan lemmatisasi, dan membuat bag-of-words baru pada teks yang sudah dibersihkan.

Anda mulai dengan token yang sama seperti pada latihan sebelumnya: lower_tokens. Kelas Counter juga sudah diimpor.

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Instruksi latihan

  • Impor kelas WordNetLemmatizer dari nltk.stem.
  • Buat list alpha_only yang berisi hanya karakter alfabet. Anda dapat menggunakan metode .isalpha() untuk memeriksanya.
  • Buat list lain bernama no_stops yang terdiri atas kata-kata dari alpha_only yang tidak terdapat dalam english_stops.
  • Inisialisasi objek WordNetLemmatizer bernama wordnet_lemmatizer dan gunakan metode .lemmatize() pada token dalam no_stops untuk membuat list baru bernama lemmatized.
  • Buat Counter baru bernama bow dengan kata-kata hasil lemmatisasi.
  • Terakhir, cetak 10 token yang paling umum.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import WordNetLemmatizer
____

# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]

# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]

# Create the bag-of-words: bow
bow = ____(____)

# Print the 10 most common tokens
print(____.____(__))
Edit dan Jalankan Kode