BaşlayınÜcretsiz başlayın

Yüksek düzey metin özellikleri

Metin temizlenip standartlaştırıldıktan sonra veriden özellikler oluşturmaya başlayabilirsin. Serbest biçimli bir metin hakkında hesaplayabileceğin en temel bilgiler, uzunluğu ve sözcük sayısı gibi boyutuna dair olanlardır. Bu egzersizde (ve bu bölümün geri kalanında), önceki egzersizde oluşturduğun temiz/dönüştürülmüş metin sütununa (text_clean) odaklanacaksın.

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

  • Her konuşmanın karakter uzunluğunu char_count sütununda kaydet.
  • Her konuşmanın sözcük sayısını word_count sütununda kaydet.
  • Her konuşmanın ortalama sözcük uzunluğunu avg_word_length sütununda kaydet.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____

# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____

# Find the average length of word
speech_df['avg_word_length'] = ____ / ____

# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])
Kodu Düzenle ve Çalıştır