Membersihkan teks Anda
Data teks tak terstruktur tidak dapat langsung digunakan dalam sebagian besar analisis. Diperlukan beberapa langkah untuk mengubah string bebas yang panjang menjadi sekumpulan kolom numerik dalam format yang tepat agar dapat digunakan oleh model machine learning. Langkah pertama dalam proses ini adalah menstandarkan data dan menghilangkan karakter apa pun yang dapat menimbulkan masalah di tahap selanjutnya dalam alur analitik Anda.
Dalam bab ini Anda akan bekerja dengan himpunan data baru yang berisi pidato pelantikan presiden Amerika Serikat yang dimuat sebagai speech_df, dengan pidato disimpan dalam kolom text.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk Machine Learning di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Print the first 5 rows of the text column
print(____)