TED konuşmalarının kelime sayımı
ted, 500 TED konuşmasının dökümlerini içeren bir dataframe'dir. Görevin, her konuşma için yaklaşık kelime sayısını içeren yeni bir özellik word_count hesaplamak. Buna bağlı olarak, konuşmaların ortalama kelime sayısını da hesaplaman gerekiyor. Dökümler ted içinde transcript özelliği olarak mevcut.
Bu görevi tamamlamak için, argüman olarak bir string alan ve bu string'deki kelime sayısını döndüren bir count_words fonksiyonu tanımlaman gerekiyor. Ardından bu fonksiyonu ted'in transcript özelliğine uygulayarak yeni word_count özelliğini oluşturmalı ve bunun ortalamasını hesaplamalısın.
Bu egzersiz, kursun bir parçasıdır
Python ile NLP için Özellik Mühendisliği
Egzersiz talimatları
string'isplit()metodunu kullanarak bir kelime listesine ayır.len()kullanarakwordsiçindeki elemanların sayısını döndür.- Fonksiyonunu
ted'intranscriptsütununa uygulayarak yeniword_countözelliğini oluştur. - Konuşmaların ortalama kelime sayısını
mean()kullanarak hesapla.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Function that returns number of words in a string
def count_words(string):
# Split the string into words
words = ____.____
# Return the number of words
return ____(____)
# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)
# Print the average word count of the talks
print(ted[____].____)