BaşlayınÜcretsiz başlayın

NLTK ile regex kullanarak tokenleştirme

Twitter, NLP metinleri ve görevleri için sıkça kullanılan bir kaynaktır. Bu egzersizde, nltk ve regex kullanarak hashtag ve mention içeren tweet'ler için daha karmaşık bir tokenleştirici oluşturacaksın. nltk.tokenize.TweetTokenizer sınıfı, tweet'leri ayrıştırman için fazladan bazı yöntemler ve öznitelikler sunar.

Burada, hem TweetTokenizer hem de nltk.tokenize modülünden regexp_tokenize kullanarak ayrıştırman için bazı örnek tweet'ler veriliyor. Bu örnek tweet'ler tweets değişkenine önceden yüklenmiştir. IPython Shell'de rahatça keşfedebilirsin!

regex kütüphanesinin sözdiziminden farklı olarak, nltk_tokenize() ile deseni ikinci argüman olarak verirsin.

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import the necessary modules
____
____
Kodu Düzenle ve Çalıştır