Metnini temizleme
Yapılandırılmamış metin verileri çoğu analizde doğrudan kullanılamaz. Serbest biçimli uzun bir metinden, bir Machine Learning modelinin alabileceği doğru biçimde sayısal sütunlar kümesine geçmek için birden fazla adım gerekir. Bu sürecin ilk adımı, veriyi standartlaştırmak ve analiz hattında ileride sorun çıkarabilecek karakterleri temizlemektir.
Bu bölümde, Amerika Birleşik Devletleri başkanlarının göreve başlama konuşmalarını içeren ve speech_df olarak yüklenen yeni bir veri kümesiyle çalışacaksın; konuşmalar text sütununda saklanıyor.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Print the first 5 rows of the text column
print(____)