Mulai sekarangMulai gratis

Tokenisasi dengan spaCy

Pada latihan ini, Anda akan berlatih melakukan tokenisasi teks. Anda akan menggunakan ulasan pertama dari himpunan data Amazon Fine Food Reviews untuk latihan ini. Anda dapat mengakses ulasan tersebut menggunakan objek text yang sudah disediakan.

Model en_core_web_sm sudah dimuat untuk Anda. Anda dapat mengaksesnya dengan memanggil nlp(). Anda dapat menggunakan list comprehension untuk menyusun daftar keluaran.

Latihan ini merupakan bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Lihat Kursus

Instruksi latihan

  • Simpan kontainer Doc untuk ulasan yang sudah dimuat ke dalam objek document.
  • Simpan dan tinjau teks semua token dari document ke dalam variabel first_text_tokens.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a Doc container of the given text
document = ____(____)
    
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")
Edit dan Jalankan Kode