Ascii olmayan metinlerde tokenizasyon
Bu egzersizde, ascii olmayan metinleri tokenize ederek gelişmiş tokenizasyon pratiği yapacaksın. Almanca ve emoji kullanacağız!
Burada, Shell'de senin için yazdırılmış german_text adlı bir string'e erişimin var. Emojilere ve Almanca karakterlere dikkat et!
nltk.tokenize modülünden şu fonksiyonlar önceden içe aktarılmıştır: regexp_tokenize ve word_tokenize.
Emoji için unicode aralıkları şunlardır:
('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), ve ('\u2600'-\u26FF-\u2700-\u27BF').
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
german_textiçindeki tüm kelimeleriword_tokenize()kullanarak tokenize et ve sonucu yazdır.german_textiçinde yalnızca büyük harfle başlayan kelimeleri tokenize et.- Önce, yalnızca büyük harfli kelimeleri eşleştiren
capital_wordsadlı bir desen yaz. AlmancaÜharfini de kontrol ettiğinden emin ol! Bu karakteri egzersizde kullanmak için, bu talimatlardan kopyalayıp yapıştırabilirsin. - Sonra,
regexp_tokenize()kullanarak tokenize et.
- Önce, yalnızca büyük harfli kelimeleri eşleştiren
german_textiçindeki yalnızca emojileri tokenize et. Atama metninde verilen emoji unicode aralıklarını kullanan desen senin için yazıldı. Senin görevin emojileri tokenize etmek içinregexp_tokenize()kullanmak.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)
# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))
# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))