Filtre antispam bayésien

Bravo pour l’exercice précédent ! Passons maintenant au célèbre théorème de Bayes et appliquons-le à une tâche simple mais essentielle : la détection de spam.

En parcourant votre boîte de réception, vous avez remarqué que bon nombre des e-mails que vous préféreriez ne pas lire contiennent des phrases exclamatives, comme « BUY NOW!!! ». Vous vous dites alors que la présence de trois points d’exclamation consécutifs pourrait être un bon indicateur de spam. Vous avez donc préparé un DataFrame nommé emails avec deux variables : spam, indiquant si l’e-mail est un spam, et contains_3_exlc, indiquant s’il contient la chaîne « !!! ». Le début des données ressemble à ceci :

     spam    contains_3_excl
0    False             False
1    False             False
2    True              False
3    False             False
4    False             False

Votre objectif est de calculer la probabilité qu’un e-mail soit un spam sachant qu’il contient trois points d’exclamation. Procédons étape par étape ! Voici la formule de Bayes pour rappel :

$$P(A|B) = \frac{P(B|A) * P(A)}{P(B)}$$

Cet exercice fait partie du cours

Analyse de données bayésienne en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Calculate and print the unconditional probability of spam
p_spam = ____[____].____
print(____)

Modifier et exécuter le code

Cet exercice fait partie du cours

Analyse de données bayésienne en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Faites vos premiers pas dans l’univers bayésien. Dans ce chapitre, vous découvrirez les notions essentielles de probabilité et de distributions statistiques, ainsi que le célèbre théorème de Bayes, pierre angulaire des méthodes bayésiennes. Pour finir, vous construirez votre premier modèle bayésien afin de tirer des conclusions à partir de lancers de pièce aléatoires.

Exercise 1: Qui est Bayes ? Qu’est-ce que Bayes ?Exercise 2: Bayésiens vs. Fréquentistes Exercise 3: Lois de probabilité Exercise 4: Probabilités et théorème de Bayes Exercise 5: Jouons aux cartes Exercise 6: Filtre antispam bayésien

Exercice en cours

Exercise 7: Que dit le test ?Exercise 8: Goûter au Bayes Exercise 9: Lancer une pièce Exercise 10: Plus vous lancez, plus vous apprenez Exercise 11: Alors, cette pièce est-elle équilibrée ?

Il est temps de soulever le capot bayésien. Vous apprendrez à appliquer le théorème de Bayes à des données d’efficacité d’un médicament pour estimer les paramètres de distributions de probabilité à l’aide de la technique d’approximation par grille, puis à mettre à jour ces estimations à mesure que de nouvelles données arrivent. Ensuite, vous verrez comment intégrer des connaissances a priori dans le modèle, avant de vous exercer à l’indispensable compétence de restitution des résultats à un public non technique.

Exercise 1: Sous le capot bayésien Exercise 2: Vers l’approximation par grille Exercise 3: Approximation par grille sans connaissance a priori Exercise 4: Mise à jour de la croyance a posteriori Exercise 5: Croyance a priori Exercise 6: La vérité sur l’a priori Exercise 7: Choisir la bonne loi a priori Exercise 8: Simuler des tirages a posteriori Exercise 9: Présenter des résultats bayésiens Exercise 10: Estimations ponctuelles Exercise 11: Intervalles de crédibilité de densité a posteriori maximale Exercise 12: Le sens de la crédibilité

Mettez en pratique vos nouvelles compétences en analyse bayésienne pour résoudre des problématiques métiers réelles. Vous travaillerez sur des données de marketing de ventes en ligne pour mener des tests A/B, de l’analyse de décision et de la prévision avec des modèles de régression linéaire.

Exercise 1: Test A/B Exercise 2: Simuler une postérieure bêta Exercise 3: Taux de clics a posteriori Exercise 4: A ou B, et avec quel degré de certitude ?Exercise 5: Quel est le pire scénario ?Exercise 6: Analyse de décision Exercise 7: Analyse de décision : coût Exercise 8: Analyse de décision : profit Exercise 9: Régression et prévision Exercise 10: Définir un modèle de régression bayésienne Exercise 11: Analyzing regression parameters Exercise 12: Distribution prédictive

Dans ce dernier chapitre, vous exploiterez la puissance du package PyMC3 pour ajuster facilement des modèles de régression bayésiens, vérifier la convergence d’un modèle, choisir entre des modèles concurrents et générer des prédictions pour de nouvelles données. Pour conclure, vous appliquerez ce que vous avez appris afin de déterminer le prix optimal des avocats dans une étude de cas d’analyse bayésienne. Bonne chance !

Exercise 1: Chaînes de Markov Monte Carlo et ajustement de modèle Exercise 2: Chaîne de Markov Monte Carlo Exercise 3: Échantillonner des tirages a posteriori Exercise 4: Interpréter les résultats et comparer les modèles Exercise 5: Examiner les tirages a posteriori Exercise 6: Comparer des modèles avec la WAIC Exercise 7: Faire des prédictions Exercise 8: Échantillonner depuis la densité prédictive Exercise 9: Estimer l’erreur de test Exercise 10: Combien coûte un avocat ?Exercise 11: Ajuster le modèle Exercise 12: Inspection du modèle Exercise 13: Optimiser le prix Exercise 14: Remarques finales