Latihan prapemrosesan teks

Sekarang giliran Anda menerapkan teknik yang telah dipelajari untuk membersihkan teks agar hasil NLP lebih baik. Anda perlu menghapus stop words dan karakter non-alfabet, melakukan lemmatisasi, dan membuat bag-of-words baru pada teks yang sudah dibersihkan.

Anda mulai dengan token yang sama seperti pada latihan sebelumnya: lower_tokens. Kelas Counter juga sudah diimpor.

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

Instruksi latihan

Impor kelas WordNetLemmatizer dari nltk.stem.
Buat list alpha_only yang berisi hanya karakter alfabet. Anda dapat menggunakan metode .isalpha() untuk memeriksanya.
Buat list lain bernama no_stops yang terdiri atas kata-kata dari alpha_only yang tidak terdapat dalam english_stops.
Inisialisasi objek WordNetLemmatizer bernama wordnet_lemmatizer dan gunakan metode .lemmatize() pada token dalam no_stops untuk membuat list baru bernama lemmatized.
Buat Counter baru bernama bow dengan kata-kata hasil lemmatisasi.
Terakhir, cetak 10 token yang paling umum.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import WordNetLemmatizer
____

# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]

# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]

# Create the bag-of-words: bow
bow = ____(____)

# Print the 10 most common tokens
print(____.____(__))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di Python

SkillTag.level.intermediateSkillTag.label

4.7+

Mulai Kursus Gratis

Bab ini akan memperkenalkan beberapa konsep dasar NLP, seperti tokenisasi kata dan ekspresi reguler untuk membantu mengurai teks. Anda juga akan mempelajari cara menangani teks non-Inggris dan tokenisasi yang lebih menantang yang mungkin Anda temui.

Exercise 1: Pengantar regular expression Exercise 2: Pola yang mana?Exercise 3: Berlatih regular expression: re.split() dan re.findall()Exercise 4: Pengenalan tokenisasi Exercise 5: Tokenisasi kata dengan NLTK Exercise 6: Lebih banyak regex dengan re.search()Exercise 7: Tokenisasi lanjutan dengan NLTK dan regex Exercise 8: Memilih sebuah tokenizer Exercise 9: Regex dengan tokenisasi NLTK Exercise 10: Tokenisasi non-ascii Exercise 11: Membuat grafik panjang kata dengan NLTK Exercise 12: Latihan membuat bagan

Bab ini akan memperkenalkan Anda pada identifikasi topik, yang dapat diterapkan pada teks apa pun di dunia nyata. Menggunakan model NLP dasar, Anda akan mengidentifikasi topik dari teks berdasarkan frekuensi istilah. Anda akan bereksperimen dan membandingkan dua metode sederhana: bag-of-words dan Tf-idf menggunakan NLTK, serta pustaka baru, Gensim.

Exercise 1: Menghitung kata dengan bag-of-words Exercise 2: Pemilih bag-of-words Exercise 3: Membangun Counter dengan bag-of-words Exercise 4: Prapemrosesan teks sederhana Exercise 5: Langkah praproses teks Exercise 6: Latihan prapemrosesan teks

Latihan Saat Ini

Exercise 7: Pengenalan gensim Exercise 8: Apa itu vektor kata?Exercise 9: Membuat dan melakukan kueri korpus dengan gensim Exercise 10: Bag-of-words dengan Gensim Exercise 11: Tf-idf dengan gensim Exercise 12: Apa itu tf-idf?Exercise 13: Tf-idf dengan Wikipedia

Bab ini akan memperkenalkan topik yang sedikit lebih lanjut: pengenalan entitas bernama. Anda akan belajar mengidentifikasi siapa, apa, dan di mana dari teks Anda menggunakan model pralatih pada teks bahasa Inggris dan non-Inggris. Anda juga akan mempelajari cara menggunakan beberapa pustaka baru, polyglot dan spaCy, untuk menambah peranti NLP Anda.

Exercise 1: Pengenalan Entitas Bernama Exercise 2: NER dengan NLTK Exercise 3: Latihan membuat grafik Exercise 4: Pustaka Stanford dengan NLTK Exercise 5: Pengenalan SpaCy Exercise 6: Membandingkan NER NLTK dengan spaCy Exercise 7: Kategori NER spaCy Exercise 8: NER Multibahasa dengan polyglot Exercise 9: NER bahasa Prancis dengan polyglot I Exercise 10: NER bahasa Prancis dengan polyglot II Exercise 11: NER bahasa Spanyol dengan polyglot

Anda akan menerapkan dasar-dasar yang telah dipelajari bersama Machine Learning terawasi untuk membangun detektor "berita palsu". Anda akan mulai dengan mempelajari dasar-dasar Machine Learning terawasi, lalu melangkah maju dengan memilih beberapa fitur penting dan menguji ide untuk mengidentifikasi serta mengklasifikasikan artikel berita palsu.

Exercise 1: Mengklasifikasikan berita palsu menggunakan supervised learning dengan NLP Exercise 2: Fitur mana yang mungkin?Exercise 3: Pelatihan dan pengujian Exercise 4: Membangun vektor hitung kata dengan scikit-learn Exercise 5: CountVectorizer untuk klasifikasi teks Exercise 6: TfidfVectorizer untuk klasifikasi teks Exercise 7: Memeriksa vektor Exercise 8: Melatih dan menguji model klasifikasi dengan scikit-learn Exercise 9: Model klasifikasi teks Exercise 10: Melatih dan menguji model "fake news" dengan CountVectorizer Exercise 11: Melatih dan menguji model "fake news" dengan TfidfVectorizer Exercise 12: NLP sederhana, masalah kompleks Exercise 13: Meningkatkan model Exercise 14: Meningkatkan model Anda Exercise 15: Memeriksa model Anda