Comment ne pas faire de statistiques

“Le Nombre imaginaire” ou les mathématiques comme terrain de jeu où l’imagination seule fixe les limites.

Ce qu’il y a de formidable avec la stupidité humaine, c’est qu’elle nous donne toujours plus de matière que prévu à s’émerveiller – la source ne s’en tarit jamais. Il m’est donc impossible de ne pas prolonger un chouïa la digression que m’avait inspirée la saga électorale étatsunienne, car j’y découvre un nouveau joyau. Il ne sera plus question de logique cette fois, mais de statistiques.

Ce qui, la semaine dernière, a fait les plus gros titres d’une actualité pourtant chargée outre-Atlantique, c’est en effet la plainte déposée directement auprès de la Cour suprême des États-Unis par le Texas contre quatre États « clés » où Biden a gagné (Pennsylvanie, Géorgie, Michigan et Wisconsin). Le Lone Star State leur reproche d’avoir pris prétexte de la pandémie pour peu ou prou abuser de leurs propres législations électorales afin de favoriser le vote par correspondance, mettant au passage en danger l’intégrité du vote. Les plaignants – soutenus par bon nombre d’États à législature Républicaine, et auxquels s’était joint Donald Trump himself – ne demandaient rien de moins que l’invalidation des élections dans ces quatre États clés. Si cela était arrivé, cela aurait pu a minima retarder le vote des grands électeurs prévu le 14 décembre, voire conduire à ce que les grands électeurs de ces États soient choisis par leurs législateurs (à dominante Républicaine) en ignorant les résultats du vote populaire, ou même à ce que le nouveau Président soit choisi par la Chambre des représentants avec une voix par État (ce qui assurerait la victoire à Trump). Je laisse à plus versé que moi en ces matières le soin de décider s’il s’agit là d’une tentative de coup d’État, mais ça y ressemble tout de même pas mal (dans sa réponse, la Pennsylvanie qualifie en tout cas cette action d’« abus séditieux du processus judiciaire »).

Il semblait y avoir consensus chez les juristes consultés par la presse américaine pour estimer que ce procès n’aurait pas lieu et que la Cour suprême devrait immédiatement considérer la plainte comme irrecevable – ce qui a été le cas.

Quoi qu’il en soit, ce qui nous intéresse directement dans cette affaire, c’est l’argument statistique mis en avant par les plaignants pour soutenir que les modalités de vote ont permis une fraude massive dans les quatre États défendeurs. Cet argument est martelé sur quatre paragraphes dans la plainte, dont il est censé constituer un des éléments de preuve majeurs.

Une chance sur un billiard

Qu’est-il dit ? La plainte explique que selon un expert statisticien, le Dr Charles J. Cicchetti, la probabilité statistique pour que Biden ait gagné honnêtement dans l’un de ces États est de moins de… 1 chance sur 1 000 000 000 000 000, soit 1015, nombre gigantesque qui s’appelle un quadrillon en anglais-américain et un billiard (!) en français. La probabilité pour que Biden ait gagné les quatre États (dans des scrutins supposés indépendants) est alors de une chance sur 1060. Elle est donc infiniment plus faible que celle de trouver par hasard un grain de sable donné dans tout le Sahara. À côté de cela, votre chance de gagner deux fois de suite le gros lot de l’Euromillion devient presque une certitude. Autant dire qu’on a affaire à un cas de fraude mahousse !

Sauf que… d’une part ce n’est pas tout à fait ce que dit le Dr Cicchetti, et d’autre part ce que dit cet « expert » est d’une imbécilité sans nom.

Le Dr Cichietti a d’abord étudié la différence entre les résultats partiels obtenus au soir de l’élection – qui montraient une avance de Trump – et les résultats finaux, qui comptaient en particulier les votes par correspondance, et qui donnaient la victoire à Biden. Il considère ces deux ensembles de bulletins – ceux dépouillés au jour J, et ceux dépouillés après – comme deux échantillons pris au hasard de la même population avec les mêmes intentions de vote. Il montre alors qu’observer la différence constatée entre les deux est extrêmement improbable, sauf fraude massive intervenue après l’élection.

Pour illustrer cette idée, supposons qu’une jarre contienne un million de billes, dont une certaine proportion (inconnue) est noire et les autres blanches. Vous prélevez disons deux-cent mille billes au hasard, et découvrez que 60% d’entre elles sont noires. Plus tard vous comptez toutes les billes, et vous découvrez qu’en fait il y a au total 60% de billes blanches et seulement 40% de billes noires dans la jarre. Ça, c’est louche ! Il faudrait vraiment un hasard extraordinaire pour que lors de votre premier tirage vous ayez sélectionné aléatoirement une telle majorité de billes noires alors que la jarre en contenait moins que de billes blanches. On peut en déduire qu’il y a eu un problème quelque part : plus que vraisemblablement, quelqu’un a ajouté des billes blanches dans l’urne après votre premier échantillonnage ! Donc fraude il y a eu, CQFD.

Une balle dans le pied

Ce raisonnement est imparable, mais ne tient pas compte d’un fait tout simple. Effectivement, les deux échantillons dépouillés à des dates différentes ne représentent pas statistiquement la même population et ne peuvent pas être considérés comme tirés au hasard ; effectivement, de nouvelles boules blanches ont bien été ajoutées à la jarre après votre premier tirage. C’est tout simplement dû au fait avéré que les électeurs Démocrates ont eu beaucoup plus tendance que les Républicains à voter par courrier, et que les bulletins dépouillés le plus tard contenaient donc une proportion bien plus élevée de votes Démocrates que ceux dépouillés le jour de l’élection. Ce phénomène, ce fameux « mirage rouge » dont nous avons déjà parlé, était prévu de longue date par les observateurs ; et les plaignants y font eux-mêmes référence dans leur plainte, en mentionnant que « significativement, dans les États défendeurs, les électeurs Démocrates ont voté par courrier en proportion double ou triple des Républicains ». Admettre cela, c’est se tirer une balle dans le pied : vu que les bulletins des Démocrates ont souvent été dépouillés après ceux des Républicains, il n’est absolument pas étonnant d’obtenir une telle différence entre les deux lots de bulletins. En voulant expliquer comment le vote par courrier était censé favoriser les Démocrates (et donc à quel point les États qui en ont élargi la possibilité étaient poussés par des impératifs partisans), les plaignants retirent toute substance à leur fameuse expertise statistique.

Laquelle ne s’arrête d’ailleurs pas là. Car notre bon Dr Cicchetti se fait aussi fort de « démontrer » avec des arguments du même tonneau que si l’on compare la performance de Biden à celle de Hillary Clinton en 2016, la différence est trop marquée pour être honnête. Ici encore, si les deux résultats étaient issus d’un tirage aléatoire d’une même population homogène, la probabilité que la différence entre les résultats de 2016 et ceux de 2020 soit celle observée est infinitésimale ; il y a donc eu fraude.

Cet argument se démonte encore plus facilement que le précédent : supposer que les électeurs de 2016 et ceux de 2020 forment une population homogène, c’est supposer que leurs intentions de vote n’ont pas évolué entre ces deux dates… ce que le résultat des élections vient justement contredire ! À suivre le raisonnement jusqu’au bout, il faudrait non seulement en déduire qu’il y a eu fraude mais aussi affirmer que le vote lui-même ne sert à rien, vu qu’il suffit de supposer que les électeurs de 2020 pensent la même chose qu’en 2016. Ce qui, admettons-le, rendrait les choses plus simples.

L’analyse statistique du Dr Cicchetti se résume donc ainsi : si on suppose que les votes par correspondance et les votes en personne viennent de la même population, il y a eu fraude massive. Si on suppose que les électeurs de 2020 sont comme les électeurs de 2016, il y a eu fraude massive. Donc il y a eu fraude massive. Hop !

Un autre statisticien aurait peut-être testé une autre hypothèse moins radicale, selon laquelle les votes par correspondance et les votes en personne ne venaient pas nécessairement de la même population, et selon laquelle les électeurs de 2020 ne votaient pas nécessairement comme ceux de 2016. C’est ce que l’on appelle l’hypothèse neutre, dont nous avons déjà parlé. Mais pas le Dr Cicchetti.

« Tout simplement stupide »

Bon, mais qui est donc ce fameux expert ? Sa fiche Wikipedia (sujet d’une activité éditoriale débordante ces derniers jours, et qui pourrait bien disparaître rapidement) nous le présente comme membre fondateur d’un groupe de conseil spécialisé dans l’économie de l’énergie. On sait également qu’il fut donateur à la campagne Trump. Et pas grand-chose de plus, mis à part sa soudaine célébrité due à cette affaire.

Il semble en tout cas que la communauté de ses pairs se lâche avec délices à son propos, comme en témoignent quelques citations choisies. Ainsi Kenneth Mayer, professeur de sciences politiques à l’université de Wisconsin-Madison : « [cette analyse] sera utilisée en cours de statistiques dans le secondaire comme exemple canonique de comment ne pas faire de statistiques » ; David Post, de la faculté de droit de Beasley : « L’analyse de Cicchetti – pour laquelle, je suppose, il a été coquettement payé – est tout simplement stupide, hors sujet, et constitue une totale perte de temps » ; ou Justin Grimmer, professeur de sciences politiques à Standford : « Je suis embarrassé qu’une telle incompétence statistique soit apparue en un lieu d’aussi haute tenue [que la Cour suprême des Etats-Unis] ». En comparaison, l’État de Pennsylvanie, dans sa réponse envoyée à la Cour suprême, est un modèle de sobriété : « Les allégations du Texas et l’analyse du Dr. Cicchetti sont dénuées de sens.  »

J’avais déjà écrit l’essentiel de cette chronique quand j’ai appris que la Cour suprême a sobrement mais fermement rejeté cette plainte. Plus exactement, elle se refuse à l’examiner, au motif que le Texas n’est pas légitime à la déposer (constitutionnellement, un État ne devrait pas se mêler de ce que font les autres concernant les élections). Il est par ailleurs intéressant de lire que deux juges sur les neuf auraient pour leur part accepté de l’examiner, mais seulement pour la rejeter entièrement quant au fond. C’est donc bien ce qu’on appelle un enterrement de première classe.

On peut se réjouir que, contrairement à l’adage, on ne puisse pas toujours faire dire ce que l’on veut aux statistiques. Mais, rien ne semblant devoir calmer les ardeurs de Trump et de ses sycophantes, qui sait quelles surprises l’avenir proche nous réserve encore ? La traduction automatique attend donc toujours, et je n’ose vous promettre de revenir à ce sujet avant que la messe soit définitivement dite le 20 janvier à midi heure de Washington.

Yannick Cras
Le nombre imaginaire