Negara bagian mana yang paling ramah pasar?
Saat mengeksplorasi data farmer's market, Anda penasaran pola apa yang muncul jika agregasi dilakukan pada tingkat negara bagian. Apakah beberapa negara bagian lebih ramah pasar dibanding yang lain? Untuk menyelidikinya, Anda mengelompokkan data menurut negara bagian dan menghitung jumlah pasar yang ditransformasikan log (log_markets) serta populasi negara bagian (log_pop).
markets_and_pop = (markets
.groupby('state', as_index = False)
.agg({
'name': lambda d: log(len(d)),
'state_pop': lambda d: log(d.iloc[0]) })
.rename(columns = {
'name': 'log_markets',
'state_pop': 'log_pop' }))
Untuk memvisualisasikan, Anda memutuskan menggunakan plot regresi untuk mendapatkan gambaran tentang hubungan 'normal' antara jumlah pasar dan populasi, serta text-scatter untuk cepat mengidentifikasi outlier yang menarik.
Latihan ini adalah bagian dari kursus
Meningkatkan Visualisasi Data Anda di Python
Petunjuk latihan
- Iterasikan baris-baris DataFrame
markets_and_pop. - Tempatkan anotasi di sebelah titik pada scatter plot.
- Kecilkan ukuran teks anotasi menjadi
10poin.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
g = sns.regplot(
"log_markets", "log_pop",
ci = False,
# Shrink scatter plot points
scatter_kws = {'s':2},
data = markets_and_pop)
# Iterate over the rows of the data
for _, row in markets_and_pop.____():
state, _, _, log_markets, log_pop = row
# Place annotation and reduce size for clarity
g.annotate(state, (____,____), ____ = ____)
plt.show()