Menjalankan pipeline spaCy
Anda sudah pernah menjalankan pipeline NLP spaCy pada satu potong teks dan mengekstrak token dari suatu daftar kontainer Doc. Pada latihan ini, Anda akan berlatih langkah awal menjalankan pipeline spaCy pada texts, yaitu sebuah daftar string teks.
Anda akan menggunakan model en_core_web_sm untuk tujuan ini. Paket spaCy sudah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Muat model
en_core_web_smsebagainlp. - Jalankan model
nlp()pada setiap item ditexts, lalu tambahkan setiap kontainerDocyang sesuai ke dalam daftardocuments. - Cetak teks token untuk setiap kontainer
Docdalam daftardocuments.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load en_core_web_sm model as nlp
nlp = spacy.____(____)
# Run an nlp model on each item of texts and append the Doc container to documents
documents = []
for text in ____:
documents.append(____)
# Print the token texts for each Doc container
for doc in documents:
print([____ for ____ in ____])