MulaiMulai sekarang secara gratis

Menambahkan pipe di spaCy

Anda sering menggunakan model spaCy yang sudah ada untuk berbagai tugas NLP. Namun, dalam beberapa kasus, komponen pipeline siap pakai seperti segmentasi kalimat dapat membutuhkan waktu lama untuk menghasilkan hasil yang diharapkan. Pada latihan ini, Anda akan berlatih menambahkan komponen pipeline ke model spaCy (pipeline pemrosesan teks).

Anda akan menggunakan lima ulasan pertama dari himpunan data Amazon Fine Food Reviews untuk latihan ini. Anda dapat mengakses ulasan tersebut melalui string texts.

Paket spaCy sudah diimpor dan siap digunakan.

Latihan ini adalah bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Lihat Kursus

Petunjuk latihan

  • Muat model spaCy bahasa Inggris kosong dan tambahkan komponen sentencizer ke model tersebut.
  • Buat kontainer Doc untuk texts, buat daftar untuk menyimpan sentences dari dokumen yang diberikan, lalu cetak jumlah kalimatnya.
  • Cetak daftar token pada kalimat kedua dari daftar sentences.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")

# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")

# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])
Edit dan Jalankan Kode