Tokenisasi dengan spaCy
Pada latihan ini, Anda akan berlatih melakukan tokenisasi teks. Anda akan menggunakan ulasan pertama dari himpunan data Amazon Fine Food Reviews untuk latihan ini. Anda dapat mengakses ulasan tersebut menggunakan objek text yang sudah disediakan.
Model en_core_web_sm sudah dimuat untuk Anda. Anda dapat mengaksesnya dengan memanggil nlp(). Anda dapat menggunakan list comprehension untuk menyusun daftar keluaran.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Simpan kontainer Doc untuk ulasan yang sudah dimuat ke dalam objek
document. - Simpan dan tinjau teks semua token dari
documentke dalam variabelfirst_text_tokens.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a Doc container of the given text
document = ____(____)
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")