1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Intermediate Predictive Analytics in Python

Connected

cvičení

Odstraňování duplicitních záznamů

Představ si, že chceš sestavit prediktivní model pro výběr dárců, kteří s největší pravděpodobností zareagují na dopis. Populace základní tabulky by měla obsahovat dárce, u nichž je k dispozici adresa a jejichž nastavení soukromí odesílání dopisu umožňuje. Všichni potenciální dárci jsou uvedeni v dataframu donors se třemi sloupci: donor_id, příznak address s hodnotou 1, pokud je adresa k dispozici, a 0 v opačném případě, a příznak letter_allowed s hodnotou 1, pokud je možné dárci dopis odeslat, a 0 v opačném případě. V tomto cvičení sestavíš množinu dárců, kteří by měli být zahrnuti do populace.

Pokyny

100 XP
  • Vytvoř dataframe donors_population obsahující pouze záznamy, u nichž je k dispozici adresa a odesílání dopisu je povoleno.
  • Vytvoř seznam s id dárců z dataframu donors_population.
  • Sestav výslednou populaci a zjisti počet dárců v ní.