Metin verisine alışma
Bu egzersizde, The Big Bang Theory dizisindeki Sheldon Cooper'ın alıntılarını analiz ederek metin verisiyle oynayacaksın. Bu sayede, gerçek dünyadaki metin verisiyle uğraşmanın nasıl bir şey olduğuna dair içgörüler elde etmek için cümleleri analiz etme fırsatı bulacaksın.
Kelimeleri indekslere ve indeksleri kelimelere eşleyen sözlükler oluşturmak için sözlük anlamaları (dictionary comprehensions) kullanacaksın. Örneğin bir pandas.DataFrame yerine sözlük kullanılmasının nedeni, daha sezgisel olmaları ve gereksiz ekstra karmaşıklık katmamalarıdır.
Veriler sheldon_quotes içinde mevcut ve ilk iki cümle senin için zaten yazdırıldı.
Bu egzersiz
Keras ile Dil Modellemesi için Yinelenen Sinir Ağları (RNN)
kursunun bir parçasıdırEgzersiz talimatları
- Cümleleri
joinile tek bir değişkende birleştir ve tüm kelimeleri çıkarıp bu listeyiall_wordsiçine kaydet. - Kelime listesindeki yinelenenleri
list(set())uygulayarak kaldır ve sonucuunique_wordsiçinde sakla. - Sözlük anlamaları kullanarak anahtarları indeks, değerleri kelime olacak şekilde bir sözlük oluştur.
- Sözlük anlamaları kullanarak anahtarları kelime, değerleri indeks olacak şekilde bir sözlük oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Transform the list of sentences into a list of words
all_words = ' '.____(sheldon_quotes).split(' ')
# Get number of unique words
unique_words = list(set(all_words))
# Dictionary of indexes as keys and words as values
index_to_word = {____ for i, wd in enumerate(sorted(unique_words))}
print(index_to_word)
# Dictionary of words as keys and indexes as values
word_to_index = {wd:i for ____ in enumerate(sorted(unique_words))}
print(word_to_index)