1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Łączymy wszystko w całość!

W ostatniej lekcji wykonałeś większość pracy związanej z łączeniem zbiorów restaurants i restaurants_new. Wygenerowałeś różne pary potencjalnie pasujących wierszy, wyszukałeś dokładne dopasowania w kolumnach cuisine_type i city, a dla kolumny rest_name porównałeś podobieństwo ciągów tekstowych. Wyniki zostały zapisane w ramce danych potential_matches.

Nadszedł czas, żeby połączyć obie ramki danych. Zacznij od wyodrębnienia indeksów wierszy ze zbioru restaurants_new, które są zgodne z dopasowaniami w potential_matches. Następnie przefiltruj restaurants_new według tych indeksów i połącz zduplikowane wartości z ramką restaurants. Wszystkie ramki danych są dostępne w środowisku, a biblioteka pandas jest zaimportowana jako pd.

Instrukcje

100 XP
  • Wyfiltruj wiersze potential_matches, w których suma wartości w wierszu jest większa lub równa 3 – użyj metody .sum().
  • Wyodrębnij drugi indeks kolumny z matches, który reprezentuje indeksy pasujących wierszy z restaurants_new, korzystając z metody .get_level_values().
  • Przefiltruj restaurants_new tak, żeby zachować tylko wiersze, które nie znajdują się w matching_indices.
  • Połącz restaurants i non_dup za pomocą pd.concat().