MulaiMulai sekarang secara gratis

Tokenisasi dengan spaCy

Pada latihan ini, Anda akan berlatih melakukan tokenisasi teks. Anda akan menggunakan ulasan pertama dari himpunan data Amazon Fine Food Reviews untuk latihan ini. Anda dapat mengakses ulasan tersebut menggunakan objek text yang sudah disediakan.

Model en_core_web_sm sudah dimuat untuk Anda. Anda dapat mengaksesnya dengan memanggil nlp(). Anda dapat menggunakan list comprehension untuk menyusun daftar keluaran.

Latihan ini adalah bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Lihat Kursus

Petunjuk latihan

  • Simpan kontainer Doc untuk ulasan yang sudah dimuat ke dalam objek document.
  • Simpan dan tinjau teks semua token dari document ke dalam variabel first_text_tokens.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a Doc container of the given text
document = ____(____)
    
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")
Edit dan Jalankan Kode