BaşlayınÜcretsiz Başlayın

NLTK ile sözcük parçalama

Burada, Monty Python's Holy Grail'in ilk sahnesini scene_one olarak önceden yüklenmiş şekilde kullanacaksın. IPython Shell'de incelemekten çekinme!

Bu egzersizdeki görevin, Python dizgilerindeki hem sözcükleri hem de cümleleri parçalamak için nltk.tokenize içindeki word_tokenize ve sent_tokenize fonksiyonlarını kullanmak — bu durumda Monty Python's Holy Grail'in ilk sahnesi.

Bu egzersiz

Python ile Doğal Dil İşlemeye Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • nltk.tokenize modülünden sent_tokenize ve word_tokenize fonksiyonlarını içe aktar.
  • scene_one içindeki tüm cümleleri sent_tokenize() fonksiyonunu kullanarak parçala.
  • sentences dizisindeki dördüncü cümleyi, sentences[3] ile erişebilirsin, word_tokenize() fonksiyonunu kullanarak parçala.
  • Tüm sahnedeki benzersiz belirteçleri bulmak için scene_one üzerinde word_tokenize() kullan ve ardından set() kullanarak bir kümeye dönüştür.
  • Bulunan benzersiz belirteçleri yazdır. Bu senin için yapıldı, sonuçları görmek için 'Yanıtı Gönder'e bas!

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Kodu Düzenle ve Çalıştır