Segmentasi kalimat dengan spaCy
Pada latihan ini, Anda akan berlatih melakukan segmentasi kalimat. Dalam NLP, memecah dokumen menjadi kalimat-kalimatnya adalah operasi dasar yang berguna. Ini merupakan salah satu langkah awal dalam banyak tugas NLP yang lebih kompleks, seperti mendeteksi named entity. Selain itu, mengetahui jumlah kalimat dapat memberikan gambaran tentang banyaknya informasi yang disajikan oleh teks.
Anda dapat mengakses sepuluh ulasan makanan dalam daftar bernama texts.
Model en_core_web_sm telah dimuat untuk Anda sebagai nlp dan .
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Jalankan model
spaCypada setiap item dalam daftartextsuntuk menyusundocuments, yaitu daftar semua kontainerDoc. - Ekstrak kalimat dari setiap kontainer
docdengan melakukan iterasi melalui daftardocumentsdan tambahkan ke daftar bernamasentences. - Hitung jumlah kalimat dalam setiap kontainer
docmenggunakan daftarsentences.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]
# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
sentences.append([s for s in ____.____])
# Find number of sentences per each doc container
print([len(____) for s in sentences])