Tokenisasi Pidato Gettysburg
Dalam latihan ini, Anda akan melakukan tokenisasi pada salah satu pidato paling terkenal sepanjang masa: Pidato Gettysburg yang disampaikan oleh Presiden Amerika Serikat Abraham Lincoln selama Perang Saudara Amerika.
Seluruh pidato tersedia sebagai string bernama gettysburg.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Instruksi latihan
- Muat model
en_core_web_smmenggunakanspacy.load(). - Buat objek Doc
docuntuk stringgettysburg. - Dengan list comprehension, lakukan iterasi atas
docuntuk menghasilkan teks-teks token.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
import spacy
# Load the en_core_web_sm model
nlp = ____.____(____)
# Create a Doc object
doc = ____(____)
# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)