Filter spam Bayesian
Bagus sekali pada latihan sebelumnya! Sekarang mari kita bahas Teorema Bayes yang terkenal dan menggunakannya untuk tugas yang sederhana namun penting: deteksi spam.
Saat menelusuri kotak masuk, Anda menyadari bahwa cukup banyak email yang sebaiknya tidak Anda buang waktu untuk membacanya memuat kalimat seru, seperti "BELI SEKARANG!!!". Anda mulai berpikir bahwa keberadaan tiga tanda seru berurutan bisa menjadi prediktor spam yang baik! Karena itu Anda menyiapkan sebuah DataFrame bernama emails dengan dua variabel: spam, apakah email tersebut spam, dan contains_3_exlc, apakah email tersebut memuat string "!!!". Bagian awal datanya terlihat seperti ini:
spam contains_3_excl
0 False False
1 False False
2 True False
3 False False
4 False False
Tugas Anda adalah menghitung probabilitas suatu email merupakan spam dengan syarat email tersebut memuat tiga tanda seru. Mari kita selesaikan langkah demi langkah! Berikut adalah rumus Bayes sebagai referensi:
$$P(A|B) = \frac{P(B|A) * P(A)}{P(B)}$$
Latihan ini adalah bagian dari kursus
Analisis Data Bayesian dengan Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Calculate and print the unconditional probability of spam
p_spam = ____[____].____
print(____)