Hepsini bir araya bağlayalım!
Son derste, restaurants ile restaurants_new'ü bağlama çalışmanın büyük kısmını tamamladın. Potansiyel olarak eşleşen satır çiftlerini ürettin, cuisine_type ve city sütunlarında tam eşleşmeleri aradın, ancak rest_name sütununda benzer dizeleri karşılaştırdın. Puanları içeren DataFrame'i potential_matches içinde sakladın.
Şimdi nihayet iki DataFrame'i birbirine bağlama zamanı. Bunu, önce potential_matches içinden yukarıda bahsi geçen sütunlar boyunca eşleşen restaurants_new satır indekslerini çıkararak yapacaksın. Sonra restaurants_new'ü bu indekslerle alt kümeye ayıracak ve son olarak yinelenmeyen değerleri restaurants ile birleştireceksin. Tüm DataFrame'ler çalışma ortamında, ayrıca pandas pd kısaltmasıyla içe aktarılmış durumda.
Bu egzersiz
Python ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
- Satır toplamı 3'ün üzerinde veya 3'e eşit olan
potential_matchesörneklerini.sum()yöntemiyle ayır. matchesiçinden,restaurants_new'deki eşleşen kayıtların satır indekslerini temsil eden ikinci sütun indeksini.get_level_values()yöntemiyle çıkar.restaurants_newiçin,matching_indicesiçinde olmayan satırları alt kümeye ayır.restaurantsilenon_dup'u birleştir.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Isolate potential matches with row sum >=3
matches = ____[____.___(____) >= ____]
# Get values of second column index of matches
matching_indices = matches.____.____(____)
# Subset restaurants_new based on non-duplicate values
non_dup = ____[~restaurants_new.index.____(____)]
# Concatenate restaurants and non_dup
full_restaurants = pd.____([____, ____])
print(full_restaurants)