MulaiMulai sekarang secara gratis

Membersihkan teks Anda

Data teks tak terstruktur tidak dapat langsung digunakan dalam sebagian besar analisis. Diperlukan beberapa langkah untuk mengubah string bebas yang panjang menjadi sekumpulan kolom numerik dalam format yang tepat agar dapat digunakan oleh model machine learning. Langkah pertama dalam proses ini adalah menstandarkan data dan menghilangkan karakter apa pun yang dapat menimbulkan masalah di tahap selanjutnya dalam alur analitik Anda.

Dalam bab ini Anda akan bekerja dengan himpunan data baru yang berisi pidato pelantikan presiden Amerika Serikat yang dimuat sebagai speech_df, dengan pidato disimpan dalam kolom text.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk Machine Learning di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Print the first 5 rows of the text column
print(____)
Edit dan Jalankan Kode