Łączymy wszystko w całość!

W ostatniej lekcji wykonałeś większość pracy związanej z łączeniem zbiorów restaurants i restaurants_new. Wygenerowałeś różne pary potencjalnie pasujących wierszy, wyszukałeś dokładne dopasowania w kolumnach cuisine_type i city, a dla kolumny rest_name porównałeś podobieństwo ciągów tekstowych. Wyniki zostały zapisane w ramce danych potential_matches.

Nadszedł czas, żeby połączyć obie ramki danych. Zacznij od wyodrębnienia indeksów wierszy ze zbioru restaurants_new, które są zgodne z dopasowaniami w potential_matches. Następnie przefiltruj restaurants_new według tych indeksów i połącz zduplikowane wartości z ramką restaurants. Wszystkie ramki danych są dostępne w środowisku, a biblioteka pandas jest zaimportowana jako pd.

Wyfiltruj wiersze potential_matches, w których suma wartości w wierszu jest większa lub równa 3 – użyj metody .sum().
Wyodrębnij drugi indeks kolumny z matches, który reprezentuje indeksy pasujących wierszy z restaurants_new, korzystając z metody .get_level_values().
Przefiltruj restaurants_new tak, żeby zachować tylko wiersze, które nie znajdują się w matching_indices.
Połącz restaurants i non_dup za pomocą pd.concat().

ćwiczenie

Łączymy wszystko w całość!

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie