NLTK ile sözcük parçalama
Burada, Monty Python's Holy Grail'in ilk sahnesini scene_one olarak önceden yüklenmiş şekilde kullanacaksın. IPython Shell'de incelemekten çekinme!
Bu egzersizdeki görevin, Python dizgilerindeki hem sözcükleri hem de cümleleri parçalamak için nltk.tokenize içindeki word_tokenize ve sent_tokenize fonksiyonlarını kullanmak — bu durumda Monty Python's Holy Grail'in ilk sahnesi.
Bu egzersiz
Python ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
nltk.tokenizemodülündensent_tokenizeveword_tokenizefonksiyonlarını içe aktar.scene_oneiçindeki tüm cümlelerisent_tokenize()fonksiyonunu kullanarak parçala.sentencesdizisindeki dördüncü cümleyi,sentences[3]ile erişebilirsin,word_tokenize()fonksiyonunu kullanarak parçala.- Tüm sahnedeki benzersiz belirteçleri bulmak için
scene_oneüzerindeword_tokenize()kullan ve ardındanset()kullanarak bir kümeye dönüştür. - Bulunan benzersiz belirteçleri yazdır. Bu senin için yapıldı, sonuçları görmek için 'Yanıtı Gönder'e bas!
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)