Correggere le incoerenze

Ora che hai identificato che dest_size ha incoerenze negli spazi e cleanliness ha incoerenze nelle maiuscole/minuscole, userai i nuovi strumenti a tua disposizione per correggere i valori incoerenti in sfo_survey invece di rimuovere del tutto i punti dati, cosa che potrebbe introdurre bias nel tuo insieme di dati se più del 5% dei punti deve essere eliminato.

dplyr e stringr sono già caricati e sfo_survey è disponibile.

Questo esercizio fa parte del corso

Pulizia dei dati in R

Visualizza corso

Istruzioni dell'esercizio

Aggiungi a sfo_survey una colonna chiamata dest_size_trimmed che contenga i valori della colonna dest_size con tutti gli spazi iniziali e finali rimossi.
Aggiungi un'altra colonna chiamata cleanliness_lower che contenga i valori della colonna cleanliness convertiti tutti in minuscolo.
Conta il numero di occorrenze di ciascuna categoria in dest_size_trimmed.
Conta il numero di occorrenze di ciascuna categoria in cleanliness_lower.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
  # dest_size_trimmed: dest_size without whitespace
  mutate(dest_size_trimmed = ___,
         # cleanliness_lower: cleanliness converted to lowercase
         cleanliness_lower = ___)

# Count values of dest_size_trimmed
sfo_survey %>%
  ___

# Count values of cleanliness_lower
sfo_survey %>%
  ___

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Pulizia dei dati in R

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a superare alcuni dei problemi più comuni nei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.

Exercise 1: Vincoli sui tipi di dati Exercise 2: Tipi di dati comuni Exercise 3: Conversione dei tipi di dato Exercise 4: Pulizia di stringhe Exercise 5: Vincoli di intervallo Exercise 6: Vincoli sulla durata delle corse Exercise 7: Ritorno al futuro Exercise 8: Vincoli di unicità Exercise 9: Duplicati completi Exercise 10: Rimozione dei duplicati parziali Exercise 11: Aggregare duplicati parziali

I dati categorici e testuali sono spesso le parti più disordinate di un insieme di dati per via della loro natura non strutturata. In questo capitolo imparerai a correggere spazi bianchi e incoerenze nelle maiuscole nelle etichette di categoria, ad accorpare più categorie in una sola e a riformattare le stringhe per garantire coerenza.

Exercise 1: Verificare l'appartenenza Exercise 2: Solo per membri Exercise 3: Non è un membro Exercise 4: Problemi con i dati categorici Exercise 5: Individuare le incoerenze Exercise 6: Correggere le incoerenze

Esercizio attuale

Exercise 7: Unire categorie Exercise 8: Pulire i dati testuali Exercise 9: Rilevare dati testuali incoerenti Exercise 10: Sostituire e rimuovere Exercise 11: Numeri di telefono non validi

In questo capitolo affronterai problemi di pulizia più avanzati, come garantire che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati inseriti correttamente e che i valori mancanti non compromettano le tue analisi.

Exercise 1: Uniformità Exercise 2: Uniformità delle date Exercise 3: Uniformità della valuta Exercise 4: Convalida tra campi Exercise 5: Convalidare i totali Exercise 6: Convalidare l’età Exercise 7: Completezza Exercise 8: Tipi di mancanza Exercise 9: Visualizzare i valori mancanti Exercise 10: Gestione dei dati mancanti

Il record linkage è una potente tecnica per unire più insiemi di dati, utile quando i valori presentano refusi o grafie differenti. In questo capitolo imparerai a collegare i record calcolando la similarità tra stringhe; poi userai le nuove competenze per unire due insiemi di dati di recensioni di ristoranti in un unico insieme di dati pulito e principale.

Exercise 1: Confrontare le stringhe Exercise 2: Calcolare la distanza Exercise 3: Piccola distanza, piccola differenza Exercise 4: Correggere i refusi con la distanza tra stringhe Exercise 5: Generare e confrontare coppie Exercise 6: Collegare o fare una join?Exercise 7: Pair blocking Exercise 8: Confrontare le coppie Exercise 9: Valutare e collegare Exercise 10: Prima valutare e poi selezionare, o prima selezionare e poi valutare?Exercise 11: Mettere tutto insieme Exercise 12: Congratulazioni!