Negara bagian mana yang paling ramah pasar?

Saat mengeksplorasi data farmer's market, Anda penasaran pola apa yang muncul jika agregasi dilakukan pada tingkat negara bagian. Apakah beberapa negara bagian lebih ramah pasar dibanding yang lain? Untuk menyelidikinya, Anda mengelompokkan data menurut negara bagian dan menghitung jumlah pasar yang ditransformasikan log (log_markets) serta populasi negara bagian (log_pop).

markets_and_pop = (markets
    .groupby('state', as_index = False)
    .agg({
       'name': lambda d: log(len(d)),
       'state_pop': lambda d: log(d.iloc[0]) })
    .rename(columns = {
        'name': 'log_markets', 
        'state_pop': 'log_pop' }))

Untuk memvisualisasikan, Anda memutuskan menggunakan plot regresi untuk mendapatkan gambaran tentang hubungan 'normal' antara jumlah pasar dan populasi, serta text-scatter untuk cepat mengidentifikasi outlier yang menarik.

Latihan ini merupakan bagian dari kursus

Meningkatkan Visualisasi Data Anda di Python

Instruksi latihan

Iterasikan baris-baris DataFrame markets_and_pop.
Tempatkan anotasi di sebelah titik pada scatter plot.
Kecilkan ukuran teks anotasi menjadi 10 poin.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

g = sns.regplot(
    "log_markets", "log_pop", 
    ci = False,
    # Shrink scatter plot points
    scatter_kws = {'s':2},
    data = markets_and_pop)

# Iterate over the rows of the data
for _, row in markets_and_pop.____():
    state, _, _, log_markets, log_pop = row
    # Place annotation and reduce size for clarity
    g.annotate(state, (____,____), ____ = ____)

plt.show()

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Meningkatkan Visualisasi Data Anda di Python

SkillTag.level.intermediateSkillTag.label

4.7+

Mulai Kursus Gratis

Bagaimana Anda menampilkan seluruh data sambil memastikan penonton tidak melewatkan poin penting? Di sini kita membahas cara memandu penonton melalui data dengan sorotan berbasis warna dan teks. Kami juga memperkenalkan himpunan data tentang nilai polutan umum di seluruh Amerika Serikat.

Exercise 1: Menyoroti data Exercise 2: Meng-hardcode sorotan Exercise 3: Membuat highlight secara terprogram Exercise 4: Membandingkan kelompok Exercise 5: Membandingkan dengan dua KDE Exercise 6: Meningkatkan KDE Anda Exercise 7: Beeswarm Exercise 8: Anotasi Exercise 9: Anotasi teks dasar Exercise 10: Anotasi panah Exercise 11: Menggabungkan anotasi dan warna

Warna adalah alat yang kuat untuk mengodekan nilai dalam visualisasi data. Namun, kekuatan ini juga membawa risiko. Dalam bab ini, kita membahas cara memilih palet warna yang sesuai untuk visualisasi Anda berdasarkan jenis data yang ditampilkan.

Exercise 1: Warna dalam visualisasi Exercise 2: Menghapus warna yang tidak perlu Exercise 3: Memperbaiki bagan batang Seaborn Exercise 4: Palet warna kontinu Exercise 5: Membuat palet kontinu kustom Exercise 6: Menyesuaikan heatmap dengan palet divergen Exercise 7: Menyesuaikan palet sesuai konteks Exercise 8: Palet kategorikal Exercise 9: Menggunakan palet kategorikal kustom Exercise 10: Menangani terlalu banyak kategori Exercise 11: Mewarnai kategori ordinal Exercise 12: Memilih variabel yang tepat untuk dikodekan dengan warna

Ketidakpastian muncul di mana-mana dalam data science, tetapi sering kali tidak ditampilkan dalam visualisasi padahal seharusnya disertakan. Di sini, kita meninjau apa itu interval kepercayaan dan cara memvisualisasikannya untuk estimasi tunggal maupun fungsi kontinu. Selain itu, kita membahas teknik bootstrap resampling untuk menilai ketidakpastian dan cara memvisualisasikannya dengan tepat.

Exercise 1: Interval estimasi titik Exercise 2: Interval kepercayaan dasar Exercise 3: Memberi anotasi pada interval kepercayaan Exercise 4: Pita kepercayaan Exercise 5: Membuat confidence band Exercise 6: Memisahkan banyak pita Exercise 7: Merapikan pita untuk area yang tumpang tindih Exercise 8: Melampaui 95%Exercise 9: Interval 90%, 95%, dan 99%Exercise 10: Pita 90 dan 95%Exercise 11: Menggunakan ketebalan pita alih-alih pewarnaan Exercise 12: Memvisualisasikan bootstrap Exercise 13: Histogram bootstrap Exercise 14: Regresi bootstrap Exercise 15: Banyak bootstrap dengan beeswarm

Sering kali visualisasi diajarkan secara terpisah, dengan praktik terbaik hanya dibahas secara umum. Kenyataannya, Anda perlu menyesuaikan aturan untuk berbagai skenario. Dari visualisasi eksploratif yang masih berantakan hingga memoles ukuran font produk akhir; dalam bab ini, kita mengulas cara mengoptimalkan visualisasi pada setiap tahap alur kerja data science.

Exercise 1: Eksplorasi pertama Exercise 2: Melihat data pasar tani Exercise 3: Scatter matrix untuk kolom numerik Exercise 4: Mendalami dengan transformasi dasar Exercise 5: Menjelajahi pola Exercise 6: Apakah garis lintang berkaitan dengan bulan buka?Exercise 7: Negara bagian mana yang paling ramah pasar?

Latihan Saat Ini

Exercise 8: Popularitas komoditas yang dijual per negara bagian Exercise 9: Membuat visualisasi Anda efisien Exercise 10: Menumpuk plot untuk menemukan tren Exercise 11: Menggunakan plot sebagai legenda Exercise 12: Menyetel plot Anda Exercise 13: Merapikan latar belakang Exercise 14: Menyusun ulang sebuah plot Exercise 15: Meningkatkan keterbacaan Exercise 16: Selamat!