Tokenisasi Pidato Gettysburg
Dalam latihan ini, Anda akan melakukan tokenisasi pada salah satu pidato paling terkenal sepanjang masa: Pidato Gettysburg yang disampaikan oleh Presiden Amerika Serikat Abraham Lincoln selama Perang Saudara Amerika.
Seluruh pidato tersedia sebagai string bernama gettysburg.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Petunjuk latihan
- Muat model
en_core_web_smmenggunakanspacy.load(). - Buat objek Doc
docuntuk stringgettysburg. - Dengan list comprehension, lakukan iterasi atas
docuntuk menghasilkan teks-teks token.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
import spacy
# Load the en_core_web_sm model
nlp = ____.____(____)
# Create a Doc object
doc = ____(____)
# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)