Sahte değişken tuzağı
Sahte değişken tuzağı, farklı sahte (dummy) değişkenlerin aynı bilgiyi taşıdığı duruma denir. Bu örnekte, diyelim ki bir çalışan muhasebe departmanında (yani accounting sütunundaki değer 1). O zaman, kesin olarak başka hiçbir departmanda olmadığını biliyorsun (diğer tüm değerler 0).
Dolayısıyla, diğer tüm departmanlara bakarak da çalışanın hangi departmanda olduğunu anlayabilirsin.
Bu yüzden, \(n\) adet sahte değişken oluşturulduğunda (senin durumunda 10), bunların yalnızca \(n\) - 1 tanesi (senin durumunda 9) yeterlidir ve \(n\)'inci sütundaki bilgi zaten diğerlerine dahildir.
Bu nedenle, eski department sütunundan kurtulacak, sahte değişken tuzağından kaçınmak için departman sahte değişkenlerinden birini düşürecek ve ardından iki DataFrame'i birleştireceksin.
Bu egzersiz
İK Analitiği: Python ile Çalışan Terkini (Churn) Tahmin Etme
kursunun bir parçasıdırEgzersiz talimatları
- "dummy trap"ten kaçınmak için
accountingsütununu.drop()ile kaldır. - Artık ihtiyacın olmadığı için eski
departmentsütununu.drop()ile kaldır. - Yeni
departmentsDataFrame'iniemployeeveri kümesine ekle (bu senin için yapıldı).
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)
# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)
# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)