Dizge kırpma
Önceki egzersizde, doğru veri tipini belirleyip user_birth_year sütununu doğru türe dönüştürdün ve bu sayede veri kümesi hakkında biraz daha içgörü sağlayan sayımları çıkarabildin.
Bir başka yaygın kirli veri sorunu, sayılarda yüzde işaretleri veya noktalar gibi fazladan karakterlerin bulunması ve bunların verinin character olarak okunmasına neden olmasıdır. Bu sayıları işleyebilmek için fazlalıkların kaldırılması ve sayıların character türünden numeric türe dönüştürülmesi gerekir. Bu egzersizde, duration sütununu character türünden numeric türe dönüştürmen gerekiyor; ancak bunu yapmadan önce her bir değerden "minutes" sözcüğünün kaldırılması gerekiyor.
dplyr, assertive ve stringr yüklendi ve bike_share_rides hazır.
Bu egzersiz
R ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
str_remove()kullanarakbike_share_ridesveri çerçevesindekidurationsütunundan"minutes"ifadesini kaldır. Bunuduration_trimmedadlı yeni bir sütun olarak ekle.duration_trimmedsütununu sayısal türe dönüştür ve bunuduration_minsadlı yeni bir sütun olarak ekle.bike_share_ridesverisine hızlıca göz at veduration_minssütunununnumericolduğunu doğrula.duration_minsiçin ortalama değeri hesapla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
bike_share_rides <- bike_share_rides %>%
# Remove 'minutes' from duration: duration_trimmed
mutate(duration_trimmed = ___,
# Convert duration_trimmed to numeric: duration_mins
duration_mins = ___)
# Glimpse at bike_share_rides
___
# Assert duration_mins is numeric
___
# Calculate mean duration
___