Yüksek düzey metin özellikleri
Metin temizlenip standartlaştırıldıktan sonra veriden özellikler oluşturmaya başlayabilirsin. Serbest biçimli bir metin hakkında hesaplayabileceğin en temel bilgiler, uzunluğu ve sözcük sayısı gibi boyutuna dair olanlardır. Bu egzersizde (ve bu bölümün geri kalanında), önceki egzersizde oluşturduğun temiz/dönüştürülmüş metin sütununa (text_clean) odaklanacaksın.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
- Her konuşmanın karakter uzunluğunu
char_countsütununda kaydet. - Her konuşmanın sözcük sayısını
word_countsütununda kaydet. - Her konuşmanın ortalama sözcük uzunluğunu
avg_word_lengthsütununda kaydet.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____
# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____
# Find the average length of word
speech_df['avg_word_length'] = ____ / ____
# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])