1. Nauka
  2. /
  3. Kursy
  4. /
  5. Pośrednia analityka predykcyjna w Pythonie

Connected

ćwiczenie

Obsługa wartości odstających za pomocą winsoryzacji

Dana jest tabela basetable z dwiema zmiennymi: "sum\_donations" i "donor\_id". Zmienna "sum_donations" może zawierać wartości odstające, gdy darczyńcy wpłacili wyjątkowo wysokie kwoty. Chcesz ją winsoryzować tak, aby 5% najwyższych wartości zostało zastąpionych wartością 95. percentyla.

Instrukcje

100 XP
  • Wyświetl minimalną wartość sum_donations i sprawdź, czy wynosi co najmniej 0. Następnie wyświetl maksymalną wartość sum_donations.
  • Podaj odpowiedni dolny limit percentyla. Ponieważ wszystkie wartości większe od 0 są realistyczne i często występują, nie ma potrzeby zastępowania wartości poniżej dolnego limitu.
  • Utwórz nową zmienną „sum_donations_winsorized" jako winsoryzowaną wersję zmiennej „sum_donations".
  • Wyświetl maksymalną wartość sum_donations_winsorized.