Rimappare le categorie II

Nell'ultimo esercizio, hai stabilito che la soglia di distanza per rimappare i refusi dei tipi di cucina 'american', 'asian' e 'italian' salvati nella colonna cuisine_type dovrebbe essere 80.

In questo esercizio, metterai tutto insieme trovando le corrispondenze con punteggi di similarità pari o superiori a 80 usando la funzione extract() di fuzywuzzy.process, per ciascun tipo di cucina corretto, e sostituendo queste corrispondenze con quello corretto. Ricorda: quando confronti una stringa con un array di stringhe usando process.extract(), l'output è una lista di tuple, ciascuna nel formato:

(corrispondenza più vicina, punteggio di similarità, indice della corrispondenza)

Il DataFrame restaurants è già nel tuo ambiente, e hai accesso a una lista categories contenente i tipi di cucina corretti ('italian', 'asian' e 'american').

Questo esercizio fa parte del corso

Pulizia dei dati in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Inspect the unique values of the cuisine_type column
print(____)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Pulizia dei dati in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a superare alcuni dei problemi più comuni dei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere i punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.

Exercise 1: Vincoli sui tipi di dati Exercise 2: Tipi di dato comuni Exercise 3: Dati numerici o ... ?Exercise 4: Somma di stringhe e concatenazione di numeri Exercise 5: Vincoli sugli intervalli di dati Exercise 6: Vincoli sulla misura degli pneumatici Exercise 7: Ritorno al futuro Exercise 8: Vincoli di unicità Exercise 9: Quanto è grande il tuo sottoinsieme?Exercise 10: Trovare i duplicati Exercise 11: Gestire i duplicati

I dati categorici e testuali sono spesso tra le parti più disordinate di un insieme di dati a causa della loro natura non strutturata. In questo capitolo imparerai a correggere incongruenze di spazi bianchi e maiuscole/minuscole nelle etichette di categoria, a unire più categorie in una sola e a riformattare le stringhe per garantire coerenza.

Exercise 1: Vincoli di appartenenza Exercise 2: Solo per membri Exercise 3: Trovare la coerenza Exercise 4: Variabili categoriche Exercise 5: Categorie di errori Exercise 6: Categorie incoerenti Exercise 7: Rimappare le categorie Exercise 8: Pulire i dati testuali Exercise 9: Rimuovere i titoli e prendere i nomi Exercise 10: Mantienilo descrittivo

In questo capitolo affronterai problemi di pulizia dei dati più avanzati, come assicurarti che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati sommati correttamente e che i valori mancanti non influenzino negativamente le tue analisi.

Exercise 1: Uniformità Exercise 2: Date ambigue Exercise 3: Valute uniformi Exercise 4: Date uniformi Exercise 5: Convalida tra campi Exercise 6: Validazione incrociata o no?Exercise 7: Com'è messa l'integrità dei nostri dati?Exercise 8: Completezza Exercise 9: Questi valori sono missing at random?Exercise 10: Investitori mancanti Exercise 11: Segui il denaro

Il record linkage è una tecnica potente usata per unire più insiemi di dati quando i valori presentano refusi o grafie diverse. In questo capitolo imparerai a collegare i record calcolando la somiglianza tra stringhe; poi userai le nuove competenze per unire due insiemi di recensioni di ristoranti in un unico insieme principale pulito.

Exercise 1: Confrontare le stringhe Exercise 2: Distanza di edit minima Exercise 3: Il punto di cutoff Exercise 4: Rimappare le categorie II

Esercizio attuale

Exercise 5: Generare coppie Exercise 6: Collegare o non collegare?Exercise 7: Coppie di ristoranti Exercise 8: Ristoranti simili Exercise 9: Collegare i DataFrame Exercise 10: Ottenere l'indice giusto Exercise 11: Collegali insieme!Exercise 12: Congratulazioni!