1. Learn
  2. /
  3. คอร์ส
  4. /
  5. Curățarea datelor în R

Connected

แบบฝึกหัด

Duplicate complete

Ai fost notificat că a fost efectuată o actualizare a conductei de date pentru bike sharing, cu scopul de a o eficientiza, însă aceasta poate genera mai ușor duplicate. Pentru a putea continua să folosești aceleași scripturi în analizele săptămânale despre statisticile curselor, trebuie să te asiguri că orice duplicate din setul de date sunt eliminate în prealabil.

Atunci când mai multe rânduri dintr-un data frame au aceleași valori pentru toate coloanele, acestea sunt duplicate complete ale aceluiași rând. Eliminarea acestor duplicate este importantă, deoarece repetarea aceleiași valori de mai multe ori poate distorsiona statisticile sumare, cum ar fi media și mediana. Fiecare cursă, inclusiv ride_id-ul său, trebuie să fie unică.

dplyr este încărcat și bike_share_rides este disponibil.

คำแนะนำ

100 XP
  • Obține numărul total de duplicate complete din bike_share_rides.
  • Elimină toate duplicatele complete din bike_share_rides și salvează noul data frame ca bike_share_rides_unique.
  • Obține numărul total de duplicate complete din noul data frame bike_share_rides_unique.