NLTK ile regex kullanarak tokenleştirme
Twitter, NLP metinleri ve görevleri için sıkça kullanılan bir kaynaktır. Bu egzersizde, nltk ve regex kullanarak hashtag ve mention içeren tweet'ler için daha karmaşık bir tokenleştirici oluşturacaksın. nltk.tokenize.TweetTokenizer sınıfı, tweet'leri ayrıştırman için fazladan bazı yöntemler ve öznitelikler sunar.
Burada, hem TweetTokenizer hem de nltk.tokenize modülünden regexp_tokenize kullanarak ayrıştırman için bazı örnek tweet'ler veriliyor. Bu örnek tweet'ler tweets değişkenine önceden yüklenmiştir. IPython Shell'de rahatça keşfedebilirsin!
regex kütüphanesinin sözdiziminden farklı olarak, nltk_tokenize() ile deseni ikinci argüman olarak verirsin.
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the necessary modules
____
____