Yinelenenleri temizleme

Son egzersizde, ride_sharing içine gelen yeni güncellemenin bir hata içerdiğini ve ride_id sütununun bazı değerleri için hem tam hem de eksik yinelenen satırlar ürettiğini, ayrıca zaman zaman user_birth_year ve duration sütunlarında uyumsuz değerler bulunduğunu doğrulamıştın.

Bu egzersizde, önce tam kopyaları kaldırarak, ardından eksik yinelenen satırları birleştirip her bir eksik yinelenen seti için duration değerinin ortalamasını ve user_birth_year değerinin minimumunu koruyarak bu yinelenen satırları temizleyeceksin.

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

ride_sharing içindeki tam kopyaları kaldır ve sonucu ride_dup değişkeninde sakla.
user_birth_year için min (en küçük) ve duration için mean (ortalama) toplulaştırmalarını tutan statistics sözlüğünü oluştur.
ride_id'e göre gruplayıp statistics içindeki toplulaştırmaları uygulayarak eksik yinelenenleri kaldır.
Yinelenenleri yeniden bul ve yinelenmelerin giderildiğini doğrulamak için assert ifadesini çalıştır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Drop complete duplicates from ride_sharing
ride_dup = ____.____()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': ____, 'duration': ____}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.____('____').____(____).reset_index()

# Find duplicated values again
duplicates = ride_unique.____(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Temizleme

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde, en yaygın kirli veri sorunlarını nasıl aşacağını öğreneceksin. Veri tiplerini dönüştürecek, geleceğe ait veri noktalarını elemek için aralık kısıtları uygulayacak ve çift sayımı önlemek için yinelenen veri noktalarını kaldıracaksın.

Exercise 1: Veri türü kısıtları Exercise 2: Yaygın veri türleri Exercise 3: Sayısal veri mi yoksa ... ?Exercise 4: String toplamak ve sayıları birleştirmek Exercise 5: Veri aralığı kısıtları Exercise 6: Lastik boyutu kısıtları Exercise 7: Geleceğe dönüş Exercise 8: Benzersizlik kısıtları Exercise 9: Alt kümen ne kadar büyük?Exercise 10: Yinelenenleri bulma Exercise 11: Yinelenenleri temizleme

Geçerli egzersiz

Yapısal olmadıkları için kategorik ve metin veriler, bir veri kümesinin en dağınık kısımları olabilir. Bu bölümde, kategori etiketlerindeki boşluk ve büyük/küçük harf tutarsızlıklarını düzeltecek, birden çok kategoriyi tek bir kategoride birleştirecek ve tutarlılık için dizgileri yeniden biçimlendireceksin.

Exercise 1: Üyelik kısıtları Exercise 2: Sadece üyeler Exercise 3: Tutarlılık bulma Exercise 4: Kategorik değişkenler Exercise 5: Hata kategorileri Exercise 6: Tutarsız kategoriler Exercise 7: Kategorileri yeniden eşleme Exercise 8: Metin verisini temizleme Exercise 9: Ünvanları kaldırma ve adları alma Exercise 10: Açıklayıcı kalalım

Bu bölümde, ağırlıkların pound yerine kilogram cinsinden yazıldığından emin olmak gibi daha ileri düzey veri temizleme problemlerine dalacaksın. Ayrıca, değerlerin doğru şekilde toplanıp toplanmadığını doğrulamana ve eksik değerlerin analizlerini olumsuz etkilemesini önlemene yardımcı olacak çok değerli beceriler edineceksin.

Exercise 1: Tekdüzelik Exercise 2: Belirsiz tarihler Exercise 3: Para birimlerini tekdüze hale getirme Exercise 4: Tekdüzen tarihler Exercise 5: Alanlar arası doğrulama Exercise 6: Alanlar arası mı, değil mi?Exercise 7: Veri bütünlüğümüz nasıl?Exercise 8: Tamlık Exercise 9: Bu rastgele mi eksik?Exercise 10: Eksik yatırımcılar Exercise 11: Paranın izini sür

Kayıt eşleştirme, yazım hataları veya farklı yazımlar olduğunda birden fazla veri kümesini birleştirmek için kullanılan güçlü bir tekniktir. Bu bölümde, dizgiler arasındaki benzerliği hesaplayarak kayıtları nasıl eşleştireceğini öğreneceksin—ardından yeni becerilerini kullanarak iki restoran inceleme veri kümesini tek bir temiz ana veri kümesinde birleştireceksin.

Exercise 1: Dizgileri karşılaştırma Exercise 2: Asgari düzenleme mesafesi Exercise 3: Eşik değeri Exercise 4: Kategorileri yeniden eşleme II Exercise 5: Eşleşmeler oluşturma Exercise 6: Bağlamak mı, bağlamamak mı?Exercise 7: Restoran çiftleri Exercise 8: Benzer restoranlar Exercise 9: DataFrame'leri ilişkilendirme Exercise 10: Doğru indeksi almak Exercise 11: Hepsini bir araya bağlayalım!Exercise 12: Tebrikler!