Mulai sekarangMulai gratis

Tokenisasi Pidato Gettysburg

Dalam latihan ini, Anda akan melakukan tokenisasi pada salah satu pidato paling terkenal sepanjang masa: Pidato Gettysburg yang disampaikan oleh Presiden Amerika Serikat Abraham Lincoln selama Perang Saudara Amerika.

Seluruh pidato tersedia sebagai string bernama gettysburg.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Instruksi latihan

  • Muat model en_core_web_sm menggunakan spacy.load().
  • Buat objek Doc doc untuk string gettysburg.
  • Dengan list comprehension, lakukan iterasi atas doc untuk menghasilkan teks-teks token.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

import spacy

# Load the en_core_web_sm model
nlp = ____.____(____)

# Create a Doc object
doc = ____(____)

# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)
Edit dan Jalankan Kode