Qual è lo stato più favorevole ai mercati?

Esplorando i dati dei farmer's market, ti chiedi quali pattern possano emergere aggregando al livello degli stati. Alcuni stati sono più favorevoli ai mercati rispetto ad altri? Per indagarlo, raggruppi i dati per stato e calcoli il numero di mercati trasformato in log (log_markets) e le popolazioni degli stati (log_pop).

markets_and_pop = (markets
    .groupby('state', as_index = False)
    .agg({
       'name': lambda d: log(len(d)),
       'state_pop': lambda d: log(d.iloc[0]) })
    .rename(columns = {
        'name': 'log_markets', 
        'state_pop': 'log_pop' }))

Per visualizzare, decidi di usare un grafico di regressione per avere un'idea della relazione "normale" tra numero di mercati e popolazione, e un text-scatter per identificare rapidamente eventuali outlier interessanti.

Questo esercizio fa parte del corso

Migliorare le tue visualizzazioni dei dati in Python

Visualizza corso

Istruzioni dell'esercizio

Itera sulle righe del DataFrame markets_and_pop.
Posiziona le annotazioni accanto ai punti dello scatter plot.
Riduci la dimensione del testo delle annotazioni a 10 punti.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

g = sns.regplot(
    "log_markets", "log_pop", 
    ci = False,
    # Shrink scatter plot points
    scatter_kws = {'s':2},
    data = markets_and_pop)

# Iterate over the rows of the data
for _, row in markets_and_pop.____():
    state, _, _, log_markets, log_pop = row
    # Place annotation and reduce size for clarity
    g.annotate(state, (____,____), ____ = ____)

plt.show()

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Migliorare le tue visualizzazioni dei dati in Python

IntermediárioNível de habilidade

4.7+

Inizia il corso gratuitamente

Come puoi mostrare tutti i tuoi dati assicurandoti che chi guarda non si perda un punto (o più) importanti? Qui vediamo come guidare l’osservatore attraverso i dati con evidenziazioni basate sul colore e testo. Introduciamo anche un insieme di dati sui valori dei principali inquinanti negli Stati Uniti.

Exercise 1: Evidenziare i dati Exercise 2: Evidenziare con hardcoding Exercise 3: Creare un highlight in modo programmato Exercise 4: Confrontare i gruppi Exercise 5: Confronto con due KDE Exercise 6: Migliorare le tue KDE Exercise 7: Beeswarm Exercise 8: Annotazioni Exercise 9: Un'annotazione testuale di base Exercise 10: Annotazioni con frecce Exercise 11: Combinare annotazioni e colore

Il colore è uno strumento potente per codificare valori nelle visualizzazioni dei dati. Tuttavia, a questo potere si accompagna un rischio. In questo capitolo parliamo di come scegliere una palette di colori appropriata per la tua visualizzazione in base al tipo di dati mostrati.

Exercise 1: Il colore nelle visualizzazioni Exercise 2: Eliminare il colore superfluo Exercise 3: Correggere i grafici a barre di Seaborn Exercise 4: Palette di colori continue Exercise 5: Creare una palette continua personalizzata Exercise 6: Personalizzare una heat map con palette divergente Exercise 7: Adatta la tua palette al contesto Exercise 8: Palette categoriali Exercise 9: Usare una palette categoriale personalizzata Exercise 10: Gestire troppe categorie Exercise 11: Colorare categorie ordinali Exercise 12: Scegliere la variabile giusta da codificare con il colore

L’incertezza è ovunque nella data science, ma spesso viene esclusa dalle visualizzazioni, proprio dove invece andrebbe inclusa. Qui rivediamo cos’è un intervallo di confidenza e come visualizzarlo sia per stime puntuali sia per funzioni continue. Inoltre, discutiamo la tecnica del bootstrap (ricampionamento) per valutare l’incertezza e come rappresentarla correttamente.

Exercise 1: Intervalli di stima puntuale Exercise 2: Intervalli di confidenza di base Exercise 3: Annotare gli intervalli di confidenza Exercise 4: Bande di confidenza Exercise 5: Creare una banda di confidenza Exercise 6: Separare molte bande Exercise 7: Pulire le bande in caso di sovrapposizioni Exercise 8: Oltre il 95%Exercise 9: Intervalli al 90, 95 e 99%Exercise 10: Bande al 90 e 95%Exercise 11: Usare lo spessore delle bande invece del colore Exercise 12: Visualizzare il bootstrap Exercise 13: L'istogramma del bootstrap Exercise 14: Regressioni bootstrap Exercise 15: Tanti bootstrap con beeswarm

Spesso la visualizzazione viene insegnata in modo isolato, con le buone pratiche trattate solo in termini generali. In realtà, dovrai adattare le regole a scenari diversi. Dalle esplorazioni disordinate alle rifiniture delle dimensioni dei font del tuo prodotto finale: in questo capitolo vediamo come ottimizzare le visualizzazioni in ogni fase del flusso di lavoro di Data Science.

Exercise 1: Prime esplorazioni Exercise 2: Uno sguardo ai dati dei farmers market Exercise 3: Scatter matrix delle colonne numeriche Exercise 4: Approfondire con trasformazioni di base Exercise 5: Esplorare i pattern Exercise 6: La latitudine è legata ai mesi di apertura?Exercise 7: Qual è lo stato più favorevole ai mercati?

Esercizio attuale

Exercise 8: Popolarità dei prodotti venduti per stato Exercise 9: Rendere efficienti le tue visualizzazioni Exercise 10: Sovrapporre per trovare tendenze Exercise 11: Usare un grafico come legenda Exercise 12: Rifinire i tuoi grafici Exercise 13: Pulire lo sfondo Exercise 14: Rimixare un grafico Exercise 15: Migliorare la leggibilità Exercise 16: Complimenti!