Log dönüşümü
Önceki egzersizlerde veriyi doğrusal olarak ölçekledin; bu, verinin şeklini etkilemez. Verin normal dağılıyorsa (ya da normale çok yakınsa) bu harika çalışır; birçok Machine Learning modeli de bunu varsayar. Bazen normal dağılıma yakın verilerle çalışırsın; örneğin bir popülasyonun boyu veya kilosu gibi. Öte yandan, gerçek dünyadaki birçok değişken bu deseni izlemez; örneğin ücretler veya bir popülasyonun yaşı. Bu egzersizde, so_numeric_df DataFrame'indeki ConvertedSalary sütununa log dönüşümü uygulayacaksın; çünkü verinin büyük bir kısmı düşük değerlere yakınlaşırken, çok yüksek değerler de içeriyor. Bu tür dağılımların sağ kuyruğu uzundur denir.
Bu egzersiz
Python ile Machine Learning için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
sklearn'ünpreprocessingmodülündenPowerTransformer'ı içe aktar.PowerTransformer()'ıpow_transolarak başlat.PowerTransformer'ıso_numeric_df'inConvertedSalarysütununda eğit.- Az önce eğittiğin ölçekleyiciyle aynı sütunu dönüştür.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import PowerTransformer
from sklearn.preprocessing import ____
# Instantiate PowerTransformer
pow_trans = ____
# Train the transform on the data
____
# Apply the power transform to the data
so_numeric_df['ConvertedSalary_LG'] = ____(so_numeric_df[['ConvertedSalary']])
# Plot the data before and after the transformation
so_numeric_df[['ConvertedSalary', 'ConvertedSalary_LG']].hist()
plt.show()