or
Questo esercizio fa parte del corso
In questo capitolo imparerai a superare alcuni dei problemi più comuni dei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere i punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.
I dati categorici e testuali sono spesso tra le parti più disordinate di un insieme di dati a causa della loro natura non strutturata. In questo capitolo imparerai a correggere incongruenze di spazi bianchi e maiuscole/minuscole nelle etichette di categoria, a unire più categorie in una sola e a riformattare le stringhe per garantire coerenza.
In questo capitolo affronterai problemi di pulizia dei dati più avanzati, come assicurarti che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati sommati correttamente e che i valori mancanti non influenzino negativamente le tue analisi.
Esercizio attuale
Il record linkage è una tecnica potente usata per unire più insiemi di dati quando i valori presentano refusi o grafie diverse. In questo capitolo imparerai a collegare i record calcolando la somiglianza tra stringhe; poi userai le nuove competenze per unire due insiemi di recensioni di ristoranti in un unico insieme principale pulito.