Collegali insieme!

Nell'ultima lezione hai completato la parte principale del lavoro per collegare restaurants e restaurants_new. Hai generato le diverse coppie di righe potenzialmente corrispondenti, cercato corrispondenze esatte tra le colonne cuisine_type e city, ma confrontato stringhe simili nella colonna rest_name. Hai memorizzato il DataFrame con i punteggi in potential_matches.

Ora è finalmente il momento di collegare entrambi i DataFrame. Lo farai estraendo prima tutti gli indici di riga di restaurants_new che corrispondono tra le colonne citate sopra da potential_matches. Poi sotto-selezionerai restaurants_new su questi indici e, infine, concatenerai i valori non duplicati con restaurants. Tutti i DataFrame sono nel tuo ambiente, insieme a pandas importato come pd.

Questo esercizio fa parte del corso

Pulizia dei dati in Python

Visualizza corso

Istruzioni dell'esercizio

Isola le istanze di potential_matches in cui la somma di riga è maggiore o uguale a 3 usando il metodo .sum().
Estrai il secondo indice di colonna da matches, che rappresenta gli indici di riga dei record corrispondenti da restaurants_new, usando il metodo .get_level_values().
Sotto-seleziona restaurants_new per le righe che non sono in matching_indices.
Concatena restaurants e non_dup.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Isolate potential matches with row sum >=3
matches = ____[____.___(____) >= ____]

# Get values of second column index of matches
matching_indices = matches.____.____(____)

# Subset restaurants_new based on non-duplicate values
non_dup = ____[~restaurants_new.index.____(____)]

# Concatenate restaurants and non_dup
full_restaurants = pd.____([____, ____])
print(full_restaurants)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Pulizia dei dati in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a superare alcuni dei problemi più comuni dei dati sporchi. Convertirai i tipi di dato, applicherai vincoli di intervallo per rimuovere i punti dati futuri e eliminerai i duplicati per evitare doppi conteggi.

Exercise 1: Vincoli sui tipi di dati Exercise 2: Tipi di dato comuni Exercise 3: Dati numerici o ... ?Exercise 4: Somma di stringhe e concatenazione di numeri Exercise 5: Vincoli sugli intervalli di dati Exercise 6: Vincoli sulla misura degli pneumatici Exercise 7: Ritorno al futuro Exercise 8: Vincoli di unicità Exercise 9: Quanto è grande il tuo sottoinsieme?Exercise 10: Trovare i duplicati Exercise 11: Gestire i duplicati

I dati categorici e testuali sono spesso tra le parti più disordinate di un insieme di dati a causa della loro natura non strutturata. In questo capitolo imparerai a correggere incongruenze di spazi bianchi e maiuscole/minuscole nelle etichette di categoria, a unire più categorie in una sola e a riformattare le stringhe per garantire coerenza.

Exercise 1: Vincoli di appartenenza Exercise 2: Solo per membri Exercise 3: Trovare la coerenza Exercise 4: Variabili categoriche Exercise 5: Categorie di errori Exercise 6: Categorie incoerenti Exercise 7: Rimappare le categorie Exercise 8: Pulire i dati testuali Exercise 9: Rimuovere i titoli e prendere i nomi Exercise 10: Mantienilo descrittivo

In questo capitolo affronterai problemi di pulizia dei dati più avanzati, come assicurarti che i pesi siano tutti espressi in chilogrammi invece che in libbre. Acquisirai anche competenze preziose per verificare che i valori siano stati sommati correttamente e che i valori mancanti non influenzino negativamente le tue analisi.

Exercise 1: Uniformità Exercise 2: Date ambigue Exercise 3: Valute uniformi Exercise 4: Date uniformi Exercise 5: Convalida tra campi Exercise 6: Validazione incrociata o no?Exercise 7: Com'è messa l'integrità dei nostri dati?Exercise 8: Completezza Exercise 9: Questi valori sono missing at random?Exercise 10: Investitori mancanti Exercise 11: Segui il denaro

Il record linkage è una tecnica potente usata per unire più insiemi di dati quando i valori presentano refusi o grafie diverse. In questo capitolo imparerai a collegare i record calcolando la somiglianza tra stringhe; poi userai le nuove competenze per unire due insiemi di recensioni di ristoranti in un unico insieme principale pulito.

Exercise 1: Confrontare le stringhe Exercise 2: Distanza di edit minima Exercise 3: Il punto di cutoff Exercise 4: Rimappare le categorie II Exercise 5: Generare coppie Exercise 6: Collegare o non collegare?Exercise 7: Coppie di ristoranti Exercise 8: Ristoranti simili Exercise 9: Collegare i DataFrame Exercise 10: Ottenere l'indice giusto Exercise 11: Collegali insieme!

Esercizio attuale

Exercise 12: Congratulazioni!