TED konuşmalarının kelime sayımı
ted, 500 TED konuşmasının dökümlerini içeren bir dataframe'dir. Görevin, her konuşma için yaklaşık kelime sayısını içeren yeni bir özellik word_count hesaplamak. Buna bağlı olarak, konuşmaların ortalama kelime sayısını da hesaplaman gerekiyor. Dökümler ted içinde transcript özelliği olarak mevcut.
Bu görevi tamamlamak için, argüman olarak bir string alan ve bu string'deki kelime sayısını döndüren bir count_words fonksiyonu tanımlaman gerekiyor. Ardından bu fonksiyonu ted'in transcript özelliğine uygulayarak yeni word_count özelliğini oluşturmalı ve bunun ortalamasını hesaplamalısın.
Bu egzersiz
Python ile NLP için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
string'isplit()metodunu kullanarak bir kelime listesine ayır.len()kullanarakwordsiçindeki elemanların sayısını döndür.- Fonksiyonunu
ted'intranscriptsütununa uygulayarak yeniword_countözelliğini oluştur. - Konuşmaların ortalama kelime sayısını
mean()kullanarak hesapla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Function that returns number of words in a string
def count_words(string):
# Split the string into words
words = ____.____
# Return the number of words
return ____(____)
# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)
# Print the average word count of the talks
print(ted[____].____)