Negara bagian mana yang paling ramah pasar?
Saat mengeksplorasi data farmer's market, Anda penasaran pola apa yang muncul jika agregasi dilakukan pada tingkat negara bagian. Apakah beberapa negara bagian lebih ramah pasar dibanding yang lain? Untuk menyelidikinya, Anda mengelompokkan data menurut negara bagian dan menghitung jumlah pasar yang ditransformasikan log (log_markets) serta populasi negara bagian (log_pop).
markets_and_pop = (markets
.groupby('state', as_index = False)
.agg({
'name': lambda d: log(len(d)),
'state_pop': lambda d: log(d.iloc[0]) })
.rename(columns = {
'name': 'log_markets',
'state_pop': 'log_pop' }))
Untuk memvisualisasikan, Anda memutuskan menggunakan plot regresi untuk mendapatkan gambaran tentang hubungan 'normal' antara jumlah pasar dan populasi, serta text-scatter untuk cepat mengidentifikasi outlier yang menarik.
Latihan ini merupakan bagian dari kursus
Meningkatkan Visualisasi Data Anda di Python
Instruksi latihan
- Iterasikan baris-baris DataFrame
markets_and_pop. - Tempatkan anotasi di sebelah titik pada scatter plot.
- Kecilkan ukuran teks anotasi menjadi
10poin.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
g = sns.regplot(
"log_markets", "log_pop",
ci = False,
# Shrink scatter plot points
scatter_kws = {'s':2},
data = markets_and_pop)
# Iterate over the rows of the data
for _, row in markets_and_pop.____():
state, _, _, log_markets, log_pop = row
# Place annotation and reduce size for clarity
g.annotate(state, (____,____), ____ = ____)
plt.show()