Menambahkan pipe di spaCy
Anda sering menggunakan model spaCy yang sudah ada untuk berbagai tugas NLP. Namun, dalam beberapa kasus, komponen pipeline siap pakai seperti segmentasi kalimat dapat membutuhkan waktu lama untuk menghasilkan hasil yang diharapkan. Pada latihan ini, Anda akan berlatih menambahkan komponen pipeline ke model spaCy (pipeline pemrosesan teks).
Anda akan menggunakan lima ulasan pertama dari himpunan data Amazon Fine Food Reviews untuk latihan ini. Anda dapat mengakses ulasan tersebut melalui string texts.
Paket spaCy sudah diimpor dan siap digunakan.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Muat model
spaCybahasa Inggris kosong dan tambahkan komponensentencizerke model tersebut. - Buat kontainer
Docuntuktexts, buat daftar untuk menyimpansentencesdari dokumen yang diberikan, lalu cetak jumlah kalimatnya. - Cetak daftar token pada kalimat kedua dari daftar
sentences.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")
# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")
# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])