MulaiMulai sekarang secara gratis

Tokenisasi Pidato Gettysburg

Dalam latihan ini, Anda akan melakukan tokenisasi pada salah satu pidato paling terkenal sepanjang masa: Pidato Gettysburg yang disampaikan oleh Presiden Amerika Serikat Abraham Lincoln selama Perang Saudara Amerika.

Seluruh pidato tersedia sebagai string bernama gettysburg.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Petunjuk latihan

  • Muat model en_core_web_sm menggunakan spacy.load().
  • Buat objek Doc doc untuk string gettysburg.
  • Dengan list comprehension, lakukan iterasi atas doc untuk menghasilkan teks-teks token.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

import spacy

# Load the en_core_web_sm model
nlp = ____.____(____)

# Create a Doc object
doc = ____(____)

# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)
Edit dan Jalankan Kode