MulaiMulai sekarang secara gratis

Tokenisasi non-ascii

Dalam latihan ini, Anda akan berlatih tokenisasi lanjutan dengan melakukan tokenisasi pada teks berbasis non-ascii. Anda akan menggunakan bahasa Jerman dengan emoji!

Di sini, Anda memiliki akses ke string bernama german_text, yang telah dicetak untuk Anda di Shell. Perhatikan emoji dan karakter Jerman di dalamnya!

Modul berikut telah diimpor sebelumnya dari nltk.tokenize: regexp_tokenize dan word_tokenize.

Rentang unicode untuk emoji adalah:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), dan ('\u2600'-\u26FF-\u2700-\u27BF').

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Petunjuk latihan

  • Tokenisasikan semua kata dalam german_text menggunakan word_tokenize(), lalu cetak hasilnya.
  • Tokenisasikan hanya kata yang berawalan huruf kapital dalam german_text.
    • Pertama, tulislah sebuah pola bernama capital_words untuk mencocokkan hanya kata berawalan huruf kapital. Pastikan untuk memeriksa huruf Jerman Ü! Untuk menggunakan karakter ini dalam latihan, salin dan tempel dari instruksi ini.
    • Kemudian, lakukan tokenisasi menggunakan regexp_tokenize().
  • Tokenisasikan hanya emoji dalam german_text. Pola yang menggunakan rentang unicode untuk emoji yang diberikan pada teks tugas telah dituliskan untuk Anda. Tugas Anda adalah menggunakan regexp_tokenize() untuk melakukan tokenisasi emoji tersebut.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)

# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))

# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))
Edit dan Jalankan Kode