Metnini temizleme
Yapılandırılmamış metin verileri çoğu analizde doğrudan kullanılamaz. Serbest biçimli uzun bir metinden, bir Machine Learning modelinin alabileceği doğru biçimde sayısal sütunlar kümesine geçmek için birden fazla adım gerekir. Bu sürecin ilk adımı, veriyi standartlaştırmak ve analiz hattında ileride sorun çıkarabilecek karakterleri temizlemektir.
Bu bölümde, Amerika Birleşik Devletleri başkanlarının göreve başlama konuşmalarını içeren ve speech_df olarak yüklenen yeni bir veri kümesiyle çalışacaksın; konuşmalar text sütununda saklanıyor.
Bu egzersiz, kursun bir parçasıdır
Python ile Machine Learning için Özellik Mühendisliği
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Print the first 5 rows of the text column
print(____)