Sahte değişken tuzağı
Sahte değişken tuzağı, farklı sahte (dummy) değişkenlerin aynı bilgiyi taşıdığı duruma denir. Bu örnekte, diyelim ki bir çalışan muhasebe departmanında (yani accounting sütunundaki değer 1). O zaman, kesin olarak başka hiçbir departmanda olmadığını biliyorsun (diğer tüm değerler 0).
Dolayısıyla, diğer tüm departmanlara bakarak da çalışanın hangi departmanda olduğunu anlayabilirsin.
Bu yüzden, \(n\) adet sahte değişken oluşturulduğunda (senin durumunda 10), bunların yalnızca \(n\) - 1 tanesi (senin durumunda 9) yeterlidir ve \(n\)'inci sütundaki bilgi zaten diğerlerine dahildir.
Bu nedenle, eski department sütunundan kurtulacak, sahte değişken tuzağından kaçınmak için departman sahte değişkenlerinden birini düşürecek ve ardından iki DataFrame'i birleştireceksin.
Bu egzersiz, kursun bir parçasıdır
İK Analitiği: Python ile Çalışan Terkini (Churn) Tahmin Etme
Egzersiz talimatları
- "dummy trap"ten kaçınmak için
accountingsütununu.drop()ile kaldır. - Artık ihtiyacın olmadığı için eski
departmentsütununu.drop()ile kaldır. - Yeni
departmentsDataFrame'iniemployeeveri kümesine ekle (bu senin için yapıldı).
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Drop the "accounting" column to avoid "dummy trap"
departments = departments.____("____", axis=1)
# Drop the old column "department" as you don't need it anymore
data = data.____("____", axis=1)
# Join the new DataFrame "departments" to your employee dataset: done
data = data.join(departments)