1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v Pythonu

Connected

Cvičení

Propojení dat!

V poslední lekci jsi zvládl/a největší část práce na propojení restaurants a restaurants_new. Vygeneroval/a jsi různé páry potenciálně shodných řádků, hledal/a jsi přesné shody ve sloupcích cuisine_type a city a porovnával/a jsi podobné řetězce ve sloupci rest_name. DataFrame s výsledným skóre jsi uložil/a do potential_matches.

Teď je konečně čas oba DataFramy propojit. Nejprve z potential_matches extrahuješ všechny indexy řádků restaurants_new, které odpovídají ve výše zmíněných sloupcích. Pak restaurants_new zreduješ na tyto indexy a nakonec připojíš neduplicitní záznamy k restaurants. Všechny DataFramy jsou dostupné v prostředí spolu s pandas importovaným jako pd.

Pokyny

100 XP
  • Z potential_matches vyber záznamy, kde je součet řádku větší nebo roven 3 – použij metodu .sum().
  • Z matches extrahuj druhý sloupcový index, který představuje indexy řádků shodných záznamů z restaurants_new – použij metodu .get_level_values().
  • Z restaurants_new vyber řádky, které nejsou v matching_indices.
  • Spoj restaurants a non_dup pomocí pd.concat().