BaşlayınÜcretsiz Başlayın

Dizge kırpma

Önceki egzersizde, doğru veri tipini belirleyip user_birth_year sütununu doğru türe dönüştürdün ve bu sayede veri kümesi hakkında biraz daha içgörü sağlayan sayımları çıkarabildin.

Bir başka yaygın kirli veri sorunu, sayılarda yüzde işaretleri veya noktalar gibi fazladan karakterlerin bulunması ve bunların verinin character olarak okunmasına neden olmasıdır. Bu sayıları işleyebilmek için fazlalıkların kaldırılması ve sayıların character türünden numeric türe dönüştürülmesi gerekir. Bu egzersizde, duration sütununu character türünden numeric türe dönüştürmen gerekiyor; ancak bunu yapmadan önce her bir değerden "minutes" sözcüğünün kaldırılması gerekiyor.

dplyr, assertive ve stringr yüklendi ve bike_share_rides hazır.

Bu egzersiz

R ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • str_remove() kullanarak bike_share_rides veri çerçevesindeki duration sütunundan "minutes" ifadesini kaldır. Bunu duration_trimmed adlı yeni bir sütun olarak ekle.
  • duration_trimmed sütununu sayısal türe dönüştür ve bunu duration_mins adlı yeni bir sütun olarak ekle.
  • bike_share_rides verisine hızlıca göz at ve duration_mins sütununun numeric olduğunu doğrula.
  • duration_mins için ortalama değeri hesapla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

bike_share_rides <- bike_share_rides %>%
  # Remove 'minutes' from duration: duration_trimmed
  mutate(duration_trimmed = ___,
         # Convert duration_trimmed to numeric: duration_mins
         duration_mins = ___)

# Glimpse at bike_share_rides
___

# Assert duration_mins is numeric
___

# Calculate mean duration
___
Kodu Düzenle ve Çalıştır