Visualizzare molte variabili
Quando inizi a considerare più variabili, tracciarle tutte insieme diventa sempre più difficile. Oltre a usare le scale x e y per due variabili numeriche, puoi usare il colore per una terza variabile numerica e il faceting per le variabili categoriche. E questo è più o meno il limite prima che i grafici diventino troppo difficili da interpretare. Esistono alcuni tipi di grafici specialistici, come le heatmap di correlazione e i grafici a coordinate parallele, che gestiscono più variabili, ma forniscono molte meno informazioni su ciascuna variabile e non sono ideali per visualizzare le previsioni di un modello.
Qui spingerai al massimo lo scatter plot mostrando insieme, in un unico grafico, il prezzo della casa, la distanza dalla stazione MRT, il numero di negozi di alimentari nelle vicinanze e l’età della casa.
taiwan_real_estate è disponibile; ggplot2 è caricato.
Questo esercizio fa parte del corso
Regressione intermedia in R
Istruzioni dell'esercizio
- Usando l’insieme di dati
taiwan_real_estate, disegna uno scatter plot din_conveniencerispetto alla radice quadrata didist_to_mrt_m, colorato in base aprice_twd_msq. - Usa la scala colori continua viridis "plasma".
- Suddividi (facet) il grafico, avvolgendo per
house_age_years.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Using taiwan_real_estate, no. of conv. stores vs. sqrt of dist. to MRT, colored by plot house price
___ +
# Make it a scatter plot
___ +
# Use the continuous viridis plasma color scale
___ +
# Facet, wrapped by house age
___