Un témoin, un policier et un statisticien voit un taxi bleu

L’homme déambulait du côté de la gare Montparnasse quand soudain il vit un taxi bleu créer un accident et s’enfuir à toute allure. D’un coup il (l’homme) passa du statut de flâneur à celui de témoin, nettement moins réjouissant… Dans ce genre de cas, des études ont montré que le témoin a raison dans 80% des cas. Le policier quant à lui sait que 85% des taxis autour de la gare Montparnasse sont bleus. Pour savoir s’il doit croire le témoin ou non, le policier sort prestement son téléphone portable de sa poche, pianote le numéro de son pote statisticien et lui pose la question suivante: « quelle est donc la probabilité pour un taxi bleu d’être impliqué dans l’accident ? » Le statisticien raccrocha, se saisit d’un crayon et d’une feuille de papier et commença à triturer ses méninges. Voici, en gros, sa démarche.

taxi à Bangkok

Pour commencer, quelques notations. Quand on écrit P(A/B) on entend: probabilité de l’évènement A sachant que l’évènement B est survenu. Le « sachant que » est noté par le « / » dans la formule. Et puis bien sûr, si A est un évènement, \bar{A} est son opposé et on a: P(A) + P(\bar{A}) = 1.

Ensuite, la première chose à faire est d’écrire les informations connues:

P( \text{le temoin dit que le taxi est bleu} / \text{le taxi est bleu} )

= P( \text{le temoin a raison} ) = 0.8

Cette probabilité renseigne le policier sur la probabilité qu’a le témoin d’avoir raison sur le fait que le taxi soit bleu.

On sait aussi que P( \text{le taxi est bleu} ) = 0.85. Cette probabilité décrit le degré de confiance qu’a le policier en le fait que le taxi soit bleu avant même d’avoir entendu le récit du témoin. En bon anglophone, on appellera cette probabilité le prior.

Maintenant ce qui intéresse vraiment le policier:

P( \text{le taxi est bleu} / \text{le temoin dit que le taxi est bleu} )

En d’autres mots, le policier veut savoir la probabilité qu’un taxi bleu soit impliqué dans l’accident sachant les données qu’il a de la part du témoin. Accrochez-vous bien: grâce aux travaux d’un révérend anglais du XVIIe siècle, Thomas Bayes, le statisticien va pouvoir fournir une réponse au policier. Sa contribution majeure fût le so-called « théorème de Bayes« :

P( A / B ) = \frac{P( B / A ) P( A )}{P( B )}

pour deux évènements A et B, avec P(B) > 0.

Et pour P(B), on peut écrire:

P(B) = P(B/A) P(A) + P(B/\bar{A})P(\bar{A})

Ce qui est utile avec ce théorème, c’est qu’il permet de « renverser » les probabilités conditionnelles: si on connait P(A) et P(B) on peut trouver P(A/B) à partir de P(B/A) (et réciproquement).

Maintenant, on peut appliquer ce théorème à notre cas. Soit A l’évènement « le taxi est bleu » et B l’évènement « le témoin dit que le taxi est bleu ». On sait déjà que P(B/A)=0.8 et que P(A)=0.85. Il est donc facile de calculer P(B/\bar{A}):

= P( \text{le temoin dit que le taxi est bleu} / \text{le taxi n'est pas bleu} )

= P( \text{le temoin a tort} )

= 1 - P( \text{le temoin a raison} )

= 1 - 0.8

= 0.2

On peut aussi calculer:

P( \bar{A} )

= P( \text{le taxi n'est pas bleu} )

= 1 - P( \text{le taxi est bleu} )

= 1 - 0.85

= 0.15

On peut alors calculer:

P(B)

= P(B/A)P(A) + P(B/\bar{A})P(\bar{A})

= (0.8 \times 0.85 ) + ( 0.2 \times 0.15 )

= 0.71

Finalement, on répond à la question initiale:

P( \text{le taxi implique dans l'accident est bleu} / \text{le temoin dit que le taxi est bleu} )

= P( A/B )

= \frac{P(B/A)P(A)}{P(B)}

= \frac{0.8 \times 0.85}{0.71}

= 0.96

Mais attention, ce n’est pas fini, et c’est même là que ça devient vraiment intéressant, alors on ne faiblit pas et on lit jusqu’au bout !

Il y a deux probabilités-clés dans la formule de Bayes ci-dessus. La première est P( \text{le temoin dit que le taxi est bleu} / \text{le taxi est bleu} ) notée P(B/A). Puisque le témoignage est la seule donnée connue de la police et que le reste est une hypothèse (85% des taxis sont bleus), on peut voir cette probabilité comme étant P( \text{donnees} / \text{hypotheses} ). Cette probabilité est la vraisemblance (likelihood) des données en fonction des hypothèses: how likely the data are given the hypotheses.

La seconde probabilité-clé est P( \text{le taxi est bleu} ) notée P(A). Comme on l’a dit précédemment, c’est le prior, le degré de confiance qu’on a en l’hypothèse, avant d’avoir vu les données.

Grâce au théorème de Bayes, on calcule la probabilité P( \text{le taxi est bleu} / \text{donnees} ) appelée le posterior. En fonction des données que l’on observe, on ajuste notre probabilité de l’hypothèse. Il est donc aussi facile de calculer la probabilité P( \text{le taxi n'est pas bleu} / \text{le temoin dit que le taxi est bleu} ):

= P( \bar{A} / B )

= 1 - P( A / B )

= 1 - 0.96

= 0.04

Comme P( \text{le taxi est bleu} / \text{le temoin dit que le taxi est bleu} ) (qui vaut 0.96) est bien plus grande que P( \text{le taxi n'est pas bleu} / \text{le temoin dit que le taxi est bleu} ) (qui vaut 0.04), il est normal pour le policier de conclure que le taxi impliqué dans l’accident est bleu.

Jusqu’à maintenant on a simplement considéré comme données le témoignage selon lequel le taxi était bleu. Mais si le témoin dit que le taxi n’était pas bleu, que se passe-t-il ? Et bien on fait le même type de calcul et on obtient comme posterior:

P( \text{le taxi est bleu} / \text{le temoin dit que le taxi n'est pas bleu} )

= 0.59

et donc aussi:

P( \text{le taxi n'est pas bleu} / \text{le temoin dit que le taxi n'est pas bleu} )

= 0.41

Et là, stupéfait, on se rend compte que, dans ce cas-là aussi, le policier conclut que le taxi doit être bleu. Si je résume, quelque soit le témoignage de notre brave homme, le policier conclut à chaque fois que le taxi est bleu ! Le prior qu’a le policier sur la couleur des taxis a en fin de compte été plus fort que les données apportées par le témoignage.

Mais pourquoi écrire tout un billet sur cette question ? Pour plusieurs raisons, tout d’abord, si vous êtes arrivés jusqu’à ces lignes, cela signifie que vous avez compris l’usage de la formule de Bayes (yes…!). Mais surtout, ce billet me permet de parler de l’utilisation des statistiques dans l’enceinte d’un tribunal. En effet, dans des affaires délicates, les experts ès « forensic statistics » sont amenés à présenter devant juges et jurés les probabilités respectives des différents scénarios possibles. Malheureusement, juges et jurés sont rarement conscients des implications d’une telle démarche. Voici le casse-tête: qui choisit les hypothèses de départ: le juge, le procureur, la défense ? Quelles données utilise-t-on ? Comment ont-elles été obtenues ces données ? Quel modèle emploie-t-on ?

Certains sont d’ailleurs allés loin dans la réflexion, voir l’article « Don’t teach statistics to lawyers ! » de Robertson et Vignaux (1998). C’est un aspect du droit qui devient de plus en plus important, notamment avec les histoires de tests ADN (voir ce blog duquel est tiré l’essentiel de mon billet). Et pour la petite histoire, comment en suis-je arriver à parler de ça ? Et bien l’un de mes amis soutient sa thèse de maths dans quelques semaines et son directeur s’est beaucoup impliqué dans une affaire judiciaire au cours de laquelle des erreurs ont été commises dans l’estimation des probabilités…

Source: merci à Franz Golhen pour la photo du taxi

About these ads

4 commentaires pour Un témoin, un policier et un statisticien voit un taxi bleu

  1. Jonathan dit :

    tres bon billet :)
    ca faisait longtemps, ce bon vieux Bayes!

  2. elifsu dit :

    « Dans ce genre de cas, des études ont montré que le témoin a raison dans 80% des cas ». Phrase pas très claire. Raison en disant quoi ? Tu veux dire que son témoignage est juste ?
    Pourquoi prendre un exemple de taxis bleus (« 85% des taxis autour de la gare Montparnasse sont bleus ») ??? Remarque, tu parles peut-être pas de la Gare Montparnasse de Paris…

    • walrus dit :

      “Dans ce genre de cas, des études ont montré que le témoin a raison dans 80% des cas”: ça veut dire que si le témoin dit quelque chose du style « le coupable fait plus d’1m80″ ou bien « le taxi est bleu » ou bien « il était 8h au moment des faits », il ne se trompe que dans 20% des cas. Bien sûr l’exemple donné est simpliste, mais c’était surtout pour introduire les probas bayésiennes. Quant au fait que le taxi soit bleu, c’est au hasard, j’aurai pu prendre autre chose.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Suivre

Recevez les nouvelles publications par mail.

%d blogueurs aiment cette page :