Sahte değişken tuzağı

Sahte değişken tuzağı, farklı sahte (dummy) değişkenlerin aynı bilgiyi taşıdığı duruma denir. Bu örnekte, diyelim ki bir çalışan muhasebe departmanında (yani accounting sütunundaki değer 1). O zaman, kesin olarak başka hiçbir departmanda olmadığını biliyorsun (diğer tüm değerler 0). Dolayısıyla, diğer tüm departmanlara bakarak da çalışanın hangi departmanda olduğunu anlayabilirsin.

Bu yüzden, \(n\) adet sahte değişken oluşturulduğunda (senin durumunda 10), bunların yalnızca \(n\) - 1 tanesi (senin durumunda 9) yeterlidir ve \(n\)'inci sütundaki bilgi zaten diğerlerine dahildir.

Bu nedenle, eski department sütunundan kurtulacak, sahte değişken tuzağından kaçınmak için departman sahte değişkenlerinden birini düşürecek ve ardından iki DataFrame'i birleştireceksin.

Bu egzersiz, kursun bir parçasıdır

İK Analitiği: Python ile Çalışan Terkini (Churn) Tahmin Etme

Kursa Göz Atın

Egzersiz talimatları

"dummy trap"ten kaçınmak için accounting sütununu .drop() ile kaldır.
Artık ihtiyacın olmadığı için eski department sütununu .drop() ile kaldır.
Yeni departments DataFrame'ini employee veri kümesine ekle (bu senin için yapıldı).

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)

# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)

# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)

Kodu Düzenle ve Çalıştır