BaşlayınÜcretsiz Başlayın

Yüksek düzey metin özellikleri

Metin temizlenip standartlaştırıldıktan sonra veriden özellikler oluşturmaya başlayabilirsin. Serbest biçimli bir metin hakkında hesaplayabileceğin en temel bilgiler, uzunluğu ve sözcük sayısı gibi boyutuna dair olanlardır. Bu egzersizde (ve bu bölümün geri kalanında), önceki egzersizde oluşturduğun temiz/dönüştürülmüş metin sütununa (text_clean) odaklanacaksın.

Bu egzersiz

Python ile Machine Learning için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Her konuşmanın karakter uzunluğunu char_count sütununda kaydet.
  • Her konuşmanın sözcük sayısını word_count sütununda kaydet.
  • Her konuşmanın ortalama sözcük uzunluğunu avg_word_length sütununda kaydet.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____

# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____

# Find the average length of word
speech_df['avg_word_length'] = ____ / ____

# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])
Kodu Düzenle ve Çalıştır