MulaiMulai sekarang secara gratis

Fitur teks tingkat tinggi

Setelah teks dibersihkan dan dinormalisasi, Anda dapat mulai membuat fitur dari data tersebut. Informasi paling mendasar yang dapat dihitung dari teks bebas adalah ukurannya, seperti panjang dan jumlah katanya. Pada latihan ini (dan sepanjang bab ini), Anda akan berfokus pada kolom teks yang telah dibersihkan/ditransformasikan (text_clean) yang Anda buat pada latihan sebelumnya.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk Machine Learning di Python

Lihat Kursus

Petunjuk latihan

  • Catat panjang karakter dari setiap pidato pada kolom char_count.
  • Catat jumlah kata dari setiap pidato pada kolom word_count.
  • Catat rata-rata panjang kata dari setiap pidato pada kolom avg_word_length.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Find the length of each text
speech_df['char_cnt'] = speech_df['text_clean'].____

# Count the number of words in each text
speech_df['word_cnt'] = speech_df['text_clean'].____

# Find the average length of word
speech_df['avg_word_length'] = ____ / ____

# Print the first 5 rows of these columns
print(speech_df[['text_clean', 'char_cnt', 'word_cnt', 'avg_word_length']])
Edit dan Jalankan Kode