Hepsini bir araya bağlayalım!

Son derste, restaurants ile restaurants_new'ü bağlama çalışmanın büyük kısmını tamamladın. Potansiyel olarak eşleşen satır çiftlerini ürettin, cuisine_type ve city sütunlarında tam eşleşmeleri aradın, ancak rest_name sütununda benzer dizeleri karşılaştırdın. Puanları içeren DataFrame'i potential_matches içinde sakladın.

Şimdi nihayet iki DataFrame'i birbirine bağlama zamanı. Bunu, önce potential_matches içinden yukarıda bahsi geçen sütunlar boyunca eşleşen restaurants_new satır indekslerini çıkararak yapacaksın. Sonra restaurants_new'ü bu indekslerle alt kümeye ayıracak ve son olarak yinelenmeyen değerleri restaurants ile birleştireceksin. Tüm DataFrame'ler çalışma ortamında, ayrıca pandas pd kısaltmasıyla içe aktarılmış durumda.

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

Satır toplamı 3'ün üzerinde veya 3'e eşit olan potential_matches örneklerini .sum() yöntemiyle ayır.
matches içinden, restaurants_new'deki eşleşen kayıtların satır indekslerini temsil eden ikinci sütun indeksini .get_level_values() yöntemiyle çıkar.
restaurants_new için, matching_indices içinde olmayan satırları alt kümeye ayır.
restaurants ile non_dup'u birleştir.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Isolate potential matches with row sum >=3
matches = ____[____.___(____) >= ____]

# Get values of second column index of matches
matching_indices = matches.____.____(____)

# Subset restaurants_new based on non-duplicate values
non_dup = ____[~restaurants_new.index.____(____)]

# Concatenate restaurants and non_dup
full_restaurants = pd.____([____, ____])
print(full_restaurants)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Temizleme

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde, en yaygın kirli veri sorunlarını nasıl aşacağını öğreneceksin. Veri tiplerini dönüştürecek, geleceğe ait veri noktalarını elemek için aralık kısıtları uygulayacak ve çift sayımı önlemek için yinelenen veri noktalarını kaldıracaksın.

Exercise 1: Veri türü kısıtları Exercise 2: Yaygın veri türleri Exercise 3: Sayısal veri mi yoksa ... ?Exercise 4: String toplamak ve sayıları birleştirmek Exercise 5: Veri aralığı kısıtları Exercise 6: Lastik boyutu kısıtları Exercise 7: Geleceğe dönüş Exercise 8: Benzersizlik kısıtları Exercise 9: Alt kümen ne kadar büyük?Exercise 10: Yinelenenleri bulma Exercise 11: Yinelenenleri temizleme

Yapısal olmadıkları için kategorik ve metin veriler, bir veri kümesinin en dağınık kısımları olabilir. Bu bölümde, kategori etiketlerindeki boşluk ve büyük/küçük harf tutarsızlıklarını düzeltecek, birden çok kategoriyi tek bir kategoride birleştirecek ve tutarlılık için dizgileri yeniden biçimlendireceksin.

Exercise 1: Üyelik kısıtları Exercise 2: Sadece üyeler Exercise 3: Tutarlılık bulma Exercise 4: Kategorik değişkenler Exercise 5: Hata kategorileri Exercise 6: Tutarsız kategoriler Exercise 7: Kategorileri yeniden eşleme Exercise 8: Metin verisini temizleme Exercise 9: Ünvanları kaldırma ve adları alma Exercise 10: Açıklayıcı kalalım

Bu bölümde, ağırlıkların pound yerine kilogram cinsinden yazıldığından emin olmak gibi daha ileri düzey veri temizleme problemlerine dalacaksın. Ayrıca, değerlerin doğru şekilde toplanıp toplanmadığını doğrulamana ve eksik değerlerin analizlerini olumsuz etkilemesini önlemene yardımcı olacak çok değerli beceriler edineceksin.

Exercise 1: Tekdüzelik Exercise 2: Belirsiz tarihler Exercise 3: Para birimlerini tekdüze hale getirme Exercise 4: Tekdüzen tarihler Exercise 5: Alanlar arası doğrulama Exercise 6: Alanlar arası mı, değil mi?Exercise 7: Veri bütünlüğümüz nasıl?Exercise 8: Tamlık Exercise 9: Bu rastgele mi eksik?Exercise 10: Eksik yatırımcılar Exercise 11: Paranın izini sür

Kayıt eşleştirme, yazım hataları veya farklı yazımlar olduğunda birden fazla veri kümesini birleştirmek için kullanılan güçlü bir tekniktir. Bu bölümde, dizgiler arasındaki benzerliği hesaplayarak kayıtları nasıl eşleştireceğini öğreneceksin—ardından yeni becerilerini kullanarak iki restoran inceleme veri kümesini tek bir temiz ana veri kümesinde birleştireceksin.

Exercise 1: Dizgileri karşılaştırma Exercise 2: Asgari düzenleme mesafesi Exercise 3: Eşik değeri Exercise 4: Kategorileri yeniden eşleme II Exercise 5: Eşleşmeler oluşturma Exercise 6: Bağlamak mı, bağlamamak mı?Exercise 7: Restoran çiftleri Exercise 8: Benzer restoranlar Exercise 9: DataFrame'leri ilişkilendirme Exercise 10: Doğru indeksi almak Exercise 11: Hepsini bir araya bağlayalım!

Geçerli egzersiz

Exercise 12: Tebrikler!