Pemrosesan teks dengan spaCy
Setiap aplikasi NLP terdiri atas beberapa langkah pemrosesan teks. Anda telah mempelajari beberapa langkah ini, termasuk tokenization, lemmatization, segmentasi kalimat, dan named entity recognition.
Dalam latihan ini, Anda akan melanjutkan praktik langkah-langkah pemrosesan teks di spaCy, seperti memecah teks menjadi kalimat dan mengekstraksi named entities. Anda akan menggunakan lima ulasan pertama dari himpunan data Amazon Fine Food Reviews untuk latihan ini. Anda dapat mengakses ulasan-ulasan ini melalui objek texts.
Model en_core_web_sm telah dimuat dan dapat Anda akses menggunakan nlp. Daftar kontainer Doc untuk setiap item di texts juga telah dimuat dan dapat diakses melalui documents.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a list to store sentences of each Doc container in documents
sentences = [[____ for sent in doc.____] for doc in documents]
# Print number of sentences in each Doc container in documents
num_sentences = [len(____) for s in sentences]
print("Number of sentences in documents:\n", ____)