or
Bu egzersiz, kursun bir parçasıdır
Bu bölümde, özellik mühendisliğinin ne olduğunu ve bunu gerçek dünya verilerine nasıl uygulamaya başlayacağını keşfedeceksin. Bir anket yanıt veri kümesini yükleyip inceleyecek ve görselleştireceksin; bunu yaparken altta yatan veri tiplerini ve bunların özelliklerini nasıl tasarlaman gerektiğini neden etkilediğini öğreneceksin. pandas paketini kullanarak hem kategorik hem de sürekli sütunlardan yeni özellikler oluşturacaksın.
Bu bölüm, dağınık ve eksik verilerin gerçekliğiyle seni tanıştırıyor. Verinde eksik değerlerin nerede olduğunu bulmayı ve onlarla nasıl başa çıkacağına dair birden çok yaklaşımı keşfetmeyi öğreneceksin. Ayrıca veri küpendeki istenmeyen karakterlerle başa çıkmak için dize (string) işleme tekniklerini kullanacaksın.
Bu bölümde, verinin altta yatan dağılımını ve bunun Machine Learning sürecini etkileyip etkilemeyeceğini analiz etmeye odaklanacaksın. Çarpık dağılımlarla ve aykırı değerlerin analizini olumsuz etkileyebileceği durumlarla nasıl başa çıkacağını öğreneceksin.
Son olarak, bu bölümde yapılandırılmamış metin verileriyle çalışacak ve bir metin derlemesinden sütun türünde özellikler üretmenin yollarını anlayacaksın. Farklı yaklaşımların metinden ne kadar bağlam çıkarıldığını nasıl etkileyebileceğini ve çok fazla özellik oluşturmadan bağlam ihtiyacını nasıl dengeleyeceğini karşılaştıracaksın.
Geçerli egzersiz