Tokenisasi non-ascii
Dalam latihan ini, Anda akan berlatih tokenisasi lanjutan dengan melakukan tokenisasi pada teks berbasis non-ascii. Anda akan menggunakan bahasa Jerman dengan emoji!
Di sini, Anda memiliki akses ke string bernama german_text, yang telah dicetak untuk Anda di Shell. Perhatikan emoji dan karakter Jerman di dalamnya!
Modul berikut telah diimpor sebelumnya dari nltk.tokenize: regexp_tokenize dan word_tokenize.
Rentang unicode untuk emoji adalah:
('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), dan ('\u2600'-\u26FF-\u2700-\u27BF').
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Petunjuk latihan
- Tokenisasikan semua kata dalam
german_textmenggunakanword_tokenize(), lalu cetak hasilnya. - Tokenisasikan hanya kata yang berawalan huruf kapital dalam
german_text.- Pertama, tulislah sebuah pola bernama
capital_wordsuntuk mencocokkan hanya kata berawalan huruf kapital. Pastikan untuk memeriksa huruf JermanÜ! Untuk menggunakan karakter ini dalam latihan, salin dan tempel dari instruksi ini. - Kemudian, lakukan tokenisasi menggunakan
regexp_tokenize().
- Pertama, tulislah sebuah pola bernama
- Tokenisasikan hanya emoji dalam
german_text. Pola yang menggunakan rentang unicode untuk emoji yang diberikan pada teks tugas telah dituliskan untuk Anda. Tugas Anda adalah menggunakanregexp_tokenize()untuk melakukan tokenisasi emoji tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))