Bayesscher Spam-Filter

Gut gemacht bei der vorherigen Übung! Jetzt widmen wir uns dem berühmten Satz von Bayes und nutzen ihn für eine einfache, aber wichtige Aufgabe: Spam-Erkennung.

Beim Durchsehen deines Posteingangs ist dir aufgefallen, dass etliche E-Mails, für die du deine Zeit lieber nicht verschwenden würdest, Ausrufe enthalten, etwa "BUY NOW!!!". Du denkst dir, dass drei aufeinanderfolgende Ausrufezeichen ein guter Spam-Prädiktor sein könnten! Daher hast du ein DataFrame namens emails vorbereitet, mit zwei Variablen: spam (ob die E-Mail Spam war) und contains_3_exlc (ob sie die Zeichenfolge "!!!" enthält). Der Kopf der Daten sieht so aus:

     spam    contains_3_excl
0    False             False
1    False             False
2    True              False
3    False             False
4    False             False

Deine Aufgabe ist es, die Wahrscheinlichkeit zu berechnen, dass eine E-Mail Spam ist, gegeben, dass sie drei Ausrufezeichen enthält. Gehen wir das Schritt für Schritt an! Hier ist zur Erinnerung die Bayes-Formel:

$$P(A|B) = \frac{P(B|A) * P(A)}{P(B)}$$

Diese Übung ist Teil des Kurses

Bayesianische Datenanalyse in Python

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Calculate and print the unconditional probability of spam
p_spam = ____[____].____
print(____)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Bayesianische Datenanalyse in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Mach deine ersten Schritte in der bayesianischen Welt. In diesem Kapitel lernst du die Grundlagen von Wahrscheinlichkeiten und statistischen Verteilungen kennen sowie den berühmten Satz von Bayes, das Fundament bayesianischer Methoden. Abschließend baust du dein erstes bayesianisches Modell, um aus zufälligen Münzwürfen Schlüsse zu ziehen.

Exercise 1: Wer ist Bayes? Was ist Bayes?Exercise 2: Bayesianer vs. Frequentisten Exercise 3: Wahrscheinlichkeitsverteilungen Exercise 4: Wahrscheinlichkeit und der Satz von Bayes Exercise 5: Lass uns Karten spielen Exercise 6: Bayesscher Spam-Filter

Aktuelle Übung

Exercise 7: Was sagt der Test?Exercise 8: Bayes auf den Geschmack kommen Exercise 9: Eine Münze werfen Exercise 10: Je mehr du wirfst, desto mehr lernst du Exercise 11: Hey, ist diese Münze fair?

Jetzt schauen wir unter die Haube der bayesianischen Methode. Du lernst, wie du den Satz von Bayes auf Daten zur Medikamentenwirksamkeit anwendest, um mit der Gitter-Approximation die Parameter von Wahrscheinlichkeitsverteilungen zu schätzen und diese Schätzungen zu aktualisieren, sobald neue Daten vorliegen. Als Nächstes erfährst du, wie du Vorwissen in das Modell einbeziehst, und übst schließlich die wichtige Fähigkeit, Ergebnisse einem nicht-technischen Publikum zu vermitteln.

Exercise 1: Unter der Bayesian-Haube Exercise 2: Auf dem Weg zur Gitterapproximation Exercise 3: Gitter-Approximation ohne Vorwissen Exercise 4: Aktualisierung der Posterior-Überzeugung Exercise 5: Vorwissen Exercise 6: Die Wahrheit des Priors Exercise 7: Die passende Prior wählen Exercise 8: Posterior-Ziehungen simulieren Exercise 9: Bayessche Ergebnisse berichten Exercise 10: Punktschätzungen Exercise 11: Credible Intervalle mit höchster Posterior-Dichte Exercise 12: Die Bedeutung von Glaubwürdigkeit

Setze deine neu erworbenen Fähigkeiten in bayesianischer Datenanalyse ein, um reale geschäftliche Herausforderungen zu lösen. Du arbeitest mit Online-Marketingdaten aus dem Vertrieb, um A/B-Tests, Entscheidungsanalysen und Prognosen mit linearen Regressionsmodellen durchzuführen.

Exercise 1: A/B-Tests Exercise 2: Beta-Posterior simulieren Exercise 3: Posterior-Klickraten Exercise 4: A oder B – und wie sicher sind wir?Exercise 5: Wie schlimm kann es werden?Exercise 6: Entscheidungsanalyse Exercise 7: Entscheidungsanalyse: Kosten Exercise 8: Entscheidungsanalyse: Gewinn Exercise 9: Regression und Prognose Exercise 10: Ein Bayes’sches Regressionsmodell definieren Exercise 11: Regressionsparameter analysieren Exercise 12: Prädiktive Verteilung

In diesem letzten Kapitel nutzt du das leistungsstarke Paket PyMC3, um bayesianische Regressionsmodelle einfach anzupassen, Plausibilitätsprüfungen für die Konvergenz eines Modells durchzuführen, zwischen konkurrierenden Modellen zu wählen und Vorhersagen für neue Daten zu generieren. Zum Abschluss setzt du das Gelernte ein, um in einer Fallstudie zur bayesianischen Datenanalyse den optimalen Preis für Avocados zu finden. Viel Erfolg!

Exercise 1: Markov-Chain-Monte-Carlo und Modellanpassung Exercise 2: Markov Chain Monte Carlo Exercise 3: Posterior-Ziehungen sampeln Exercise 4: Ergebnisse interpretieren und Modelle vergleichen Exercise 5: Posterior-Ziehungen inspizieren Exercise 6: Modelle mit WAIC vergleichen Exercise 7: Vorhersagen treffen Exercise 8: Aus der prädiktiven Dichte sampeln Exercise 9: Testfehler schätzen Exercise 10: Wie viel kostet eine Avocado?Exercise 11: Das Modell fitten Exercise 12: Das Modell untersuchen Exercise 13: Den Preis optimieren Exercise 14: Abschließende Hinweise