Il punto di cutoff

In questo esercizio, e per tutto il capitolo, lavorerai con il DataFrame restaurants, che contiene dati su vari ristoranti. Il tuo obiettivo finale è creare un motore di raccomandazione per ristoranti, ma prima devi pulire i dati.

Questa versione di restaurants è stata raccolta da molte fonti: la colonna cuisine_type è piena di refusi e dovrebbe contenere solo i tipi di cucina italian, american e asian. Le categorie uniche sono così tante che rimapparle a mano non è sostenibile: è meglio usare la similarità tra stringhe.

Prima di farlo, vuoi stabilire il punto di cutoff per il punteggio di similarità usando la funzione process.extract() di thefuzz, trovando il punteggio di similarità del refuso più distante per ciascuna categoria.

Questo esercizio fa parte del corso

Pulizia dei dati in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import process from thefuzz
____

# Store the unique values of cuisine_type in unique_types
unique_types = ____

# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))

# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))

# Calculate similarity of 'italian' to all values of unique_types
print(____)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Pulizia dei dati in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a superare alcuni dei problemi più comuni dei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere i punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.

Exercise 1: Vincoli sui tipi di dati Exercise 2: Tipi di dato comuni Exercise 3: Dati numerici o ... ?Exercise 4: Somma di stringhe e concatenazione di numeri Exercise 5: Vincoli sugli intervalli di dati Exercise 6: Vincoli sulla misura degli pneumatici Exercise 7: Ritorno al futuro Exercise 8: Vincoli di unicità Exercise 9: Quanto è grande il tuo sottoinsieme?Exercise 10: Trovare i duplicati Exercise 11: Gestire i duplicati

I dati categorici e testuali sono spesso tra le parti più disordinate di un insieme di dati a causa della loro natura non strutturata. In questo capitolo imparerai a correggere incongruenze di spazi bianchi e maiuscole/minuscole nelle etichette di categoria, a unire più categorie in una sola e a riformattare le stringhe per garantire coerenza.

Exercise 1: Vincoli di appartenenza Exercise 2: Solo per membri Exercise 3: Trovare la coerenza Exercise 4: Variabili categoriche Exercise 5: Categorie di errori Exercise 6: Categorie incoerenti Exercise 7: Rimappare le categorie Exercise 8: Pulire i dati testuali Exercise 9: Rimuovere i titoli e prendere i nomi Exercise 10: Mantienilo descrittivo

In questo capitolo affronterai problemi di pulizia dei dati più avanzati, come assicurarti che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati sommati correttamente e che i valori mancanti non influenzino negativamente le tue analisi.

Exercise 1: Uniformità Exercise 2: Date ambigue Exercise 3: Valute uniformi Exercise 4: Date uniformi Exercise 5: Convalida tra campi Exercise 6: Validazione incrociata o no?Exercise 7: Com'è messa l'integrità dei nostri dati?Exercise 8: Completezza Exercise 9: Questi valori sono missing at random?Exercise 10: Investitori mancanti Exercise 11: Segui il denaro

Il record linkage è una tecnica potente usata per unire più insiemi di dati quando i valori presentano refusi o grafie diverse. In questo capitolo imparerai a collegare i record calcolando la somiglianza tra stringhe; poi userai le nuove competenze per unire due insiemi di recensioni di ristoranti in un unico insieme principale pulito.

Exercise 1: Confrontare le stringhe Exercise 2: Distanza di edit minima Exercise 3: Il punto di cutoff

Esercizio attuale

Exercise 4: Rimappare le categorie II Exercise 5: Generare coppie Exercise 6: Collegare o non collegare?Exercise 7: Coppie di ristoranti Exercise 8: Ristoranti simili Exercise 9: Collegare i DataFrame Exercise 10: Ottenere l'indice giusto Exercise 11: Collegali insieme!Exercise 12: Congratulazioni!