BaşlayınÜcretsiz Başlayın

Log dönüşümü

Önceki egzersizlerde veriyi doğrusal olarak ölçekledin; bu, verinin şeklini etkilemez. Verin normal dağılıyorsa (ya da normale çok yakınsa) bu harika çalışır; birçok Machine Learning modeli de bunu varsayar. Bazen normal dağılıma yakın verilerle çalışırsın; örneğin bir popülasyonun boyu veya kilosu gibi. Öte yandan, gerçek dünyadaki birçok değişken bu deseni izlemez; örneğin ücretler veya bir popülasyonun yaşı. Bu egzersizde, so_numeric_df DataFrame'indeki ConvertedSalary sütununa log dönüşümü uygulayacaksın; çünkü verinin büyük bir kısmı düşük değerlere yakınlaşırken, çok yüksek değerler de içeriyor. Bu tür dağılımların sağ kuyruğu uzundur denir.

Bu egzersiz

Python ile Machine Learning için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • sklearn'ün preprocessing modülünden PowerTransformer'ı içe aktar.
  • PowerTransformer()pow_trans olarak başlat.
  • PowerTransformerso_numeric_df'in ConvertedSalary sütununda eğit.
  • Az önce eğittiğin ölçekleyiciyle aynı sütunu dönüştür.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import PowerTransformer
from sklearn.preprocessing import ____

# Instantiate PowerTransformer
pow_trans = ____

# Train the transform on the data
____

# Apply the power transform to the data
so_numeric_df['ConvertedSalary_LG'] = ____(so_numeric_df[['ConvertedSalary']])

# Plot the data before and after the transformation
so_numeric_df[['ConvertedSalary', 'ConvertedSalary_LG']].hist()
plt.show()
Kodu Düzenle ve Çalıştır