Popolarità dei prodotti venduti per stato

Il dataset dei farmer's market contiene colonne corrispondenti a 28 diversi prodotti e indica se sono venduti o meno in quel mercato. Vuoi scoprire se ci sono storie interessanti su quanto sia probabile trovare un certo prodotto nei mercati di uno stato. Per rispondere a questa domanda, riduci i dati a tre colonne:

state - il nome dello stato
good - il prodotto di interesse
prop_selling - la proporzione di mercati in quello stato che vendono proprio quel prodotto

Per capire rapidamente se emergono pattern, scegli un sottoinsieme di prodotti che trovi interessanti e decidi di creare un semplice text-scatter: il prodotto sull'asse x e la proporzione dei mercati di uno stato che vendono quel prodotto sull'asse y.

Questo esercizio fa parte del corso

Migliorare le tue visualizzazioni dei dati in Python

Visualizza corso

Istruzioni dell'esercizio

Filtra goods_by_state sui prodotti desiderati elencati in to_plot.
Nascondi i punti dello scatter plot impostando la loro dimensione a nulla.
- Nota che in sns.scatterplot(), size viene usato per mappare i valori di una colonna a una scala di dimensioni, mentre s viene usato per impostare una dimensione costante per tutti i punti.
Rendi il testo centrato, così si posiziona direttamente sulla posizione del prodotto sull'asse x.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Subset goods to interesting ones
to_plot = ['Cheese','Maple','Fruits','Grains','Seafood','Plants','Vegetables']
goods_by_state_small = goods_by_state.____("good in "+str(to_plot))

g = sns.scatterplot('good','prop_selling', data = goods_by_state_small,
                    # Hide scatter points by shrinking to nothing
                    ____ = ____)

for _,row in goods_by_state_small.iterrows():
  g.annotate(row['state'], (row['good'], row['prop_selling']), 
             # Center annotation on axis
             ha = '____', 
             size = 10)

plt.show()

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Migliorare le tue visualizzazioni dei dati in Python

IntermediárioNível de habilidade

4.7+

Inizia il corso gratuitamente

Come puoi mostrare tutti i tuoi dati assicurandoti che chi guarda non si perda un punto (o più) importanti? Qui vediamo come guidare l’osservatore attraverso i dati con evidenziazioni basate sul colore e testo. Introduciamo anche un insieme di dati sui valori dei principali inquinanti negli Stati Uniti.

Exercise 1: Evidenziare i dati Exercise 2: Evidenziare con hardcoding Exercise 3: Creare un highlight in modo programmato Exercise 4: Confrontare i gruppi Exercise 5: Confronto con due KDE Exercise 6: Migliorare le tue KDE Exercise 7: Beeswarm Exercise 8: Annotazioni Exercise 9: Un'annotazione testuale di base Exercise 10: Annotazioni con frecce Exercise 11: Combinare annotazioni e colore

Il colore è uno strumento potente per codificare valori nelle visualizzazioni dei dati. Tuttavia, a questo potere si accompagna un rischio. In questo capitolo parliamo di come scegliere una palette di colori appropriata per la tua visualizzazione in base al tipo di dati mostrati.

Exercise 1: Il colore nelle visualizzazioni Exercise 2: Eliminare il colore superfluo Exercise 3: Correggere i grafici a barre di Seaborn Exercise 4: Palette di colori continue Exercise 5: Creare una palette continua personalizzata Exercise 6: Personalizzare una heat map con palette divergente Exercise 7: Adatta la tua palette al contesto Exercise 8: Palette categoriali Exercise 9: Usare una palette categoriale personalizzata Exercise 10: Gestire troppe categorie Exercise 11: Colorare categorie ordinali Exercise 12: Scegliere la variabile giusta da codificare con il colore

L’incertezza è ovunque nella data science, ma spesso viene esclusa dalle visualizzazioni, proprio dove invece andrebbe inclusa. Qui rivediamo cos’è un intervallo di confidenza e come visualizzarlo sia per stime puntuali sia per funzioni continue. Inoltre, discutiamo la tecnica del bootstrap (ricampionamento) per valutare l’incertezza e come rappresentarla correttamente.

Exercise 1: Intervalli di stima puntuale Exercise 2: Intervalli di confidenza di base Exercise 3: Annotare gli intervalli di confidenza Exercise 4: Bande di confidenza Exercise 5: Creare una banda di confidenza Exercise 6: Separare molte bande Exercise 7: Pulire le bande in caso di sovrapposizioni Exercise 8: Oltre il 95%Exercise 9: Intervalli al 90, 95 e 99%Exercise 10: Bande al 90 e 95%Exercise 11: Usare lo spessore delle bande invece del colore Exercise 12: Visualizzare il bootstrap Exercise 13: L'istogramma del bootstrap Exercise 14: Regressioni bootstrap Exercise 15: Tanti bootstrap con beeswarm

Spesso la visualizzazione viene insegnata in modo isolato, con le buone pratiche trattate solo in termini generali. In realtà, dovrai adattare le regole a scenari diversi. Dalle esplorazioni disordinate alle rifiniture delle dimensioni dei font del tuo prodotto finale: in questo capitolo vediamo come ottimizzare le visualizzazioni in ogni fase del flusso di lavoro di Data Science.

Exercise 1: Prime esplorazioni Exercise 2: Uno sguardo ai dati dei farmers market Exercise 3: Scatter matrix delle colonne numeriche Exercise 4: Approfondire con trasformazioni di base Exercise 5: Esplorare i pattern Exercise 6: La latitudine è legata ai mesi di apertura?Exercise 7: Qual è lo stato più favorevole ai mercati?Exercise 8: Popolarità dei prodotti venduti per stato

Esercizio attuale

Exercise 9: Rendere efficienti le tue visualizzazioni Exercise 10: Sovrapporre per trovare tendenze Exercise 11: Usare un grafico come legenda Exercise 12: Rifinire i tuoi grafici Exercise 13: Pulire lo sfondo Exercise 14: Rimixare un grafico Exercise 15: Migliorare la leggibilità Exercise 16: Complimenti!