Bir belirteçleyici (tokenizer) seçme
Aşağıdaki dizge verildiğine göre, aşağıdaki kalıplardan hangisi en iyi belirteçleyici? Mümkünse, cümle noktalamasını ayrı belirteçler olarak korumak istiyorsun, ancak '#1' tek bir belirteç olarak kalsın.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
Dizge çalışma alanında my_string adıyla mevcut ve kalıplar sırasıyla pattern1, pattern2, pattern3 ve pattern4 olarak önceden yüklendi.
Ayrıca, regexp_tokenize nltk.tokenize içinden içe aktarıldı. Kendi başına denemek ve hangisinin en iyi belirteçleyici olduğunu görmek için regexp_tokenize(string, pattern) fonksiyonunu my_string ve kalıplardan biriyle argüman olarak kullanabilirsin.
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırUygulamalı interaktif egzersiz
İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün
Egzersizi başlat