or
Questo esercizio fa parte del corso
In questo capitolo imparerai a superare alcuni dei problemi più comuni nei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.
I dati categorici e testuali sono spesso le parti più disordinate di un insieme di dati per via della loro natura non strutturata. In questo capitolo imparerai a correggere spazi bianchi e incoerenze nelle maiuscole nelle etichette di categoria, ad accorpare più categorie in una sola e a riformattare le stringhe per garantire coerenza.
In questo capitolo affronterai problemi di pulizia più avanzati, come garantire che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati inseriti correttamente e che i valori mancanti non compromettano le tue analisi.
Esercizio attuale
Il record linkage è una potente tecnica per unire più insiemi di dati, utile quando i valori presentano refusi o grafie differenti. In questo capitolo imparerai a collegare i record calcolando la similarità tra stringhe; poi userai le nuove competenze per unire due insiemi di dati di recensioni di ristoranti in un unico insieme di dati pulito e principale.