Jumlah kata pada TED talk
ted adalah sebuah dataframe yang berisi transkrip dari 500 TED talk. Tugas Anda adalah menghitung fitur baru word_count yang memuat perkiraan jumlah kata untuk setiap talk. Selanjutnya, Anda juga perlu menghitung rata-rata jumlah kata dari seluruh talk. Transkrip tersedia sebagai fitur transcript di ted.
Untuk menyelesaikan tugas ini, Anda perlu mendefinisikan fungsi count_words yang menerima sebuah string sebagai argumen dan mengembalikan jumlah kata dalam string tersebut. Lalu, terapkan fungsi ini pada fitur transcript dari ted untuk membuat fitur baru word_count dan hitung nilai rataratanya.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Petunjuk latihan
- Pecah
stringmenjadi daftar kata menggunakan metodesplit(). - Kembalikan jumlah elemen dalam
wordsmenggunakanlen(). - Terapkan fungsi Anda ke kolom
transcriptpadateduntuk membuat fitur baruword_count. - Hitung rata-rata jumlah kata dari talk menggunakan
mean().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Function that returns number of words in a string
def count_words(string):
# Split the string into words
words = ____.____
# Return the number of words
return ____(____)
# Create a new feature word_count
ted['word_count'] = ted[____].apply(____)
# Print the average word count of the talks
print(ted[____].____)