MulaiMulai sekarang secara gratis

Segmentasi kalimat dengan spaCy

Pada latihan ini, Anda akan berlatih melakukan segmentasi kalimat. Dalam NLP, memecah dokumen menjadi kalimat-kalimatnya adalah operasi dasar yang berguna. Ini merupakan salah satu langkah awal dalam banyak tugas NLP yang lebih kompleks, seperti mendeteksi named entity. Selain itu, mengetahui jumlah kalimat dapat memberikan gambaran tentang banyaknya informasi yang disajikan oleh teks.

Anda dapat mengakses sepuluh ulasan makanan dalam daftar bernama texts.

Model en_core_web_sm telah dimuat untuk Anda sebagai nlp dan .

Latihan ini adalah bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Lihat Kursus

Petunjuk latihan

  • Jalankan model spaCy pada setiap item dalam daftar texts untuk menyusun documents, yaitu daftar semua kontainer Doc.
  • Ekstrak kalimat dari setiap kontainer doc dengan melakukan iterasi melalui daftar documents dan tambahkan ke daftar bernama sentences.
  • Hitung jumlah kalimat dalam setiap kontainer doc menggunakan daftar sentences.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]

# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
  sentences.append([s for s in ____.____])
  
# Find number of sentences per each doc container
print([len(____) for s in sentences])
Edit dan Jalankan Kode