BaşlayınÜcretsiz Başlayın

Ascii olmayan metinlerde tokenizasyon

Bu egzersizde, ascii olmayan metinleri tokenize ederek gelişmiş tokenizasyon pratiği yapacaksın. Almanca ve emoji kullanacağız!

Burada, Shell'de senin için yazdırılmış german_text adlı bir string'e erişimin var. Emojilere ve Almanca karakterlere dikkat et!

nltk.tokenize modülünden şu fonksiyonlar önceden içe aktarılmıştır: regexp_tokenize ve word_tokenize.

Emoji için unicode aralıkları şunlardır:

('\U0001F300'-'\U0001F5FF'), ('\U0001F600-\U0001F64F'), ('\U0001F680-\U0001F6FF'), ve ('\u2600'-\u26FF-\u2700-\u27BF').

Bu egzersiz

Python ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • german_text içindeki tüm kelimeleri word_tokenize() kullanarak tokenize et ve sonucu yazdır.
  • german_text içinde yalnızca büyük harfle başlayan kelimeleri tokenize et.
    • Önce, yalnızca büyük harfli kelimeleri eşleştiren capital_words adlı bir desen yaz. Almanca Ü harfini de kontrol ettiğinden emin ol! Bu karakteri egzersizde kullanmak için, bu talimatlardan kopyalayıp yapıştırabilirsin.
    • Sonra, regexp_tokenize() kullanarak tokenize et.
  • german_text içindeki yalnızca emojileri tokenize et. Atama metninde verilen emoji unicode aralıklarını kullanan desen senin için yazıldı. Senin görevin emojileri tokenize etmek için regexp_tokenize() kullanmak.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Tokenize and print all words in german_text
all_words = ____(____)
print(all_words)

# Tokenize and print only capital words
capital_words = r"[____]\w+"
print(____(____, ____))

# Tokenize and print only emoji
emoji = "['\U0001F300-\U0001F5FF'|'\U0001F600-\U0001F64F'|'\U0001F680-\U0001F6FF'|'\u2600-\u26FF\u2700-\u27BF']"
print(____(____, ____))
Kodu Düzenle ve Çalıştır