Neuf sur dix

“Le Nombre imaginaire” ou les mathématiques comme terrain de jeu où l’imagination seule fixe les limites.

Qu’on envisage mollement d’arrêter de fumer, ou qu’on cherche à tout le moins – comme c’est mon cas – à limiter sa consommation, il faut se donner de bonnes raisons pour le faire, et ce n’est pas gagné. Les gros fumeurs comme moi sauront quels trésors d’ingéniosité peuvent se perdre en justifications oiseuses pour fumer celle de trop (c’est-à-dire, en toute raison, la première)  : voici, s’il en fallait une, la preuve humiliante de l’irrationalité de l’esprit humain.

Fort heureusement, connaissant ma faiblesse et celle de mes congénères, nos bienveillantes quoique fermes autorités de santé ont résolu de prendre les choses en main. D’une part, comme on sait, en taxant le paquet au point d’en faire un objet de luxe ; d’autre part en lui faisant arborer, outre une tristoune couleur d’uniforme aussi peu engageante que possible, quelques photos et messages chocs qui ne mâchent pas leurs mots pour nous expliquer quels risques nous prenons.

Parmi ces derniers, celui-ci : 9 cancers du poumon sur 10 sont causés par le tabac. Tiens, prends ça. Comment peux-tu encore griller une clope avec un risque pareil ? 9 sur 10, c’est du suicide !

Intéressant, n’est-ce pas, l’effet psychologique de ce message ? Car, en vérité, ce que l’on en comprend d’instinct n’est pas du tout ce qu’il nous dit. Aucun mensonge ici ; ce message s’appuie sur un fait avéré pour évoquer chez nous la peur, certainement bienvenue, d’une saleté sacrément mortelle. Mais il joue tout de même sur notre incompréhension naturelle des pourcentages, et même pour la bonne cause nous ne devrions pas accepter d’être manipulés par les chiffres (Philip Morris et les autres s’y sont suffisamment essayés en leur temps, merci beaucoup).

Décryptons. Ce que nous dit le ministère de la Santé, c’est qu’une personne souffrant du cancer du poumon a neuf chances sur dix d’avoir fumé au point de le provoquer.

Notons d’abord qu’établir ce fait n’est pas aussi facile qu’il y parait. On ne peut pas se contenter de compter les fumeurs parmi les malades, ce qui est facile : il faut aussi établir la causalité, ce qui est très complexe. Les cigarettiers ont joué pendant très longtemps sur cette difficulté, avec des arguments du type  : si vous avez vécu vingt ans entouré d’amiante ou simplement en milieu pollué, qui peut dire si c’est votre paquet quotidien qui vous a rendu malade ? Si la cigarette est la cause du cancer du poumon, pourquoi certains gros fumeurs y échappent-ils ? Arguments d’ailleurs recyclés de nos jours presque à l’identique par les vendeurs de pesticides.

La réponse ne peut bien entendu être que statistique, et fondée sur une méthodologie précise. Nous cherchons à établir si le fait de fumer influe sur nos chances d’avoir un cancer du poumon. Nous devons donc collecter au hasard les données les plus larges possibles – qui est atteint du cancer du poumon, qui ne l’est pas, qui fume, qui s’abstient – en s’assurant de ne pas biaiser les échantillons. Il nous faut, idéalement, recruter nos fumeurs et nos non-fumeurs, nos malades et nos bien portants, dans les mêmes tranches d’âge, de sexe, de catégorie socio-professionnelle, d’habitat… C’est déjà un défi en soi, puisque le fait de fumer aussi bien que le fait d’être malade peut-être fortement corrélé à certains de ces facteurs.

Une fois notre échantillon constitué, nous l’analysons. Il nous montre très clairement une sur-représentation du cancer du poumon chez les fumeurs : neuf cancers du poumon sur dix y apparaissent associés au tabac. Compte tenu par ailleurs du rapport entre le nombre de fumeurs et la population générale, cela nous conduit à émettre une hypothèse, selon laquelle fumer multiplie par trente la probabilité de développer un cancer du poumon. Nos données sont compatibles avec cette hypothèse. Cependant, elles n’en représentent pas une preuve ; il reste possible, même si c‘est très improbable, que notre échantillon soit biaisé par pur hasard, ayant laissé de côté un grand nombre de fumeurs en bonne santé et de non-fumeurs malades.

Pour en avoir le cœur net, nous allons former une deuxième hypothèse, appelée l’hypothèse nulle, selon laquelle fumer n’a aucune incidence sur le risque d’avoir un cancer du poumon. On peut alors, grâce à différents outils, construire un modèle statistique basé sur cette hypothèse, puis évaluer la probabilité d’obtenir l’écart que nous avons effectivement observé, voire une disparité encore plus forte, si cette hypothèse nulle était vraie ; c’est ce qu’on appelle la p-valeur de cette hypothèse. Si cette p-valeur est très faible, par exemple inférieure à 1%, alors la chance que nous avions d’obtenir de telles données par hasard est tellement faible qu’il est raisonnable de considérer que l’hypothèse nulle ne s‘applique pas, et d’en déduire que la consommation de tabac a effectivement une incidence sur le risque de cancer. Le même phénomène est en jeu si vous observez la même pièce tomber 20 fois de suite sur face : bien que cela ne soit pas impossible avec une pièce normale, vous en déduirez sans doute que c’est une pièce pipée.

Nous n’en sommes cependant qu’à la moitié du chemin : fumer présente donc un risque mais il nous faudrait quantifier ce risque, ce qui n’est pas évident. Notre échantillon montre certes neuf fois plus de malades chez les fumeurs que chez les non-fumeurs, soit un risque trente fois plus élevé pour les fumeurs, mais le hasard peut avoir fait que ce résultat soit trop optimiste ou trop pessimiste. Nous ne pourrons donc pas conclure exactement.

Toutefois, comme nous l’avons fait pour l’hypothèse nulle, nous pouvons tester des hypothèses spécifiant un facteur multiplicatif précis, par exemple : « fumer multiplie par 20 les risques de cancer du poumon » ou « fumer multiplie par 40 les risques de cancer du poumon ». Pour chacune de ces hypothèses, nous créerons un modèle statistique puis obtiendrons une p-valeur, à savoir la probabilité donnée par ce modèle d’obtenir l’écart observé ou un écart encore plus fort par rapport à ce que prévoit l’hypothèse. Puisque nous avons effectivement observé un rapport de 1 à 30 dans nos données observées, la p-valeur sera certainement élevée pour notre hypothèse centrale (risque multiplié par 30), plus faible pour d’autres (risque multiplié par 25 ou par 35), et enfin inacceptablement faible pour, disons, un facteur inférieur à 10 ou supérieur à 40. Dans ce cas, on pourra conclure avec une très bonne confiance statistique que fumer augmente les risques de cancer du poumon d’un facteur compris entre 10 et 40. 

Dans la réalité de notre exemple, les très nombreuses études épidémiologiques existantes permettent certainement d’obtenir un intervalle de confiance plus resserré. Il faut toutefois garder en tête la difficulté de l’exercice et la rigueur nécessaire pour établir des règles quantitatives de causalité. En particulier, il ne faut pas commettre l’erreur de confronter votre hypothèse favorite à la seule hypothèse nulle : rejeter la seconde n’implique pas d’accepter la première ! De plus, il est important de choisir la valeur minimale de la p-valeur qui vous conduira à rejeter une hypothèse avant même de collecter votre échantillon ; sinon la tentation sera forte d’accepter (ou plutôt de ne pas rejeter) une hypothèse qui vous tient à cœur en montant ce seuil pour qu’il colle aux données que vous avez. Par ailleurs, quand une hypothèse est trop précise, on montre qu’un échantillon suffisamment grand permettra toujours de l’invalider. De fait, à cause de tous ces effets et d’autres, la p-valeur fait l’objet de débats enflammés chez les statisticiens : nous autres, humbles mortels, devrions la regarder avec une respectueuse défiance.

Passons cependant à la suite. Certes, un risque de cancer multiplié par 30, cela fait peur, mais à quel point cela doit-il nous effrayer ? Pour le savoir, il faudrait connaître le risque absolu pour un fumeur de développer un cancer du poumon, ce que cette statistique ne nous dit pas.

Il nous faut d’autres chiffres. En l’occurrence : Sur une population de 67 millions d’habitants, la France compte 15 millions de fumeurs. Par ailleurs, on compte environ 49 000 nouveaux cas de cancer du poumon chaque année. Sachant que si je suis fumeur, j’ai 30 fois plus de chances qu’un non-fumeur de faire partie de ces nouveaux cas, quelle est la probabilité (sans tenir compte de mon sexe, de mon âge ou de mes conditions de vie) que je sois diagnostiqué dans l’année ?

On peut trouver cette probabilité de deux manières. Tout d’abord, on peut établir que parmi les 49  000 nouveaux cas de cette année, les neuf dixièmes, soit 44 100 cas, se répartiront chez les 15 millions de fumeurs, lesquels auront donc chacun environ une chance sur 340 d’être diagnostiqués chaque année. On peut aussi utiliser la célèbre formule de Bayes déjà évoquée dans ces colonnes : la probabilité que l’on me diagnostique un cancer du poumon cette année si je fume est égale à la probabilité que je fume si j’ai un cancer du poumon (9/10, soit 90%), multipliée par celle qu’on me diagnostique un cancer du poumon dans l’année (49 000/67 000 000, soit 0,07%), divisée par la probabilité que je fume (15 000 000/67 000 000, soit 22%) ; on trouve le même résultat.

Bien entendu, ce nombre – une chance sur 340 – n’a guère de sens pour un individu particulier : en tant qu’homme de 58 ans, par exemple, il est évident que mon risque personnel est bien plus élevé que cela. En effet, les deux tiers des cas sont diagnostiqués chez l’homme et, pour 70% de ces deux tiers, chez ceux de 50 à 74 ans. Mon risque personnel double du fait que je suis un homme, et double encore du fait de ma tranche d’âge (je suis sans doute un peu pessimiste, du fait que par ailleurs les hommes fument plus que les femmes ; mais soit).

Une chance sur 85, chaque année, d’apprendre la mauvaise nouvelle (à supposer qu’un problème cardiovasculaire ne prenne pas la priorité), ce n‘est vraiment pas rien. Sur 10 ans, cela correspond à 12% de risque cumulé ; sur 20 ans, à 21% de risque, soit une chance sur cinq. Je ne sais pas pour vous, mais cela me fait réfléchir. Pourquoi, alors, les autorités de santé ne communiquent-elles pas davantage ce genre de chiffres ? Certes, ils sont moins frappants qu’un « neuf sur dix ». Mais ne peut-on, tout de même, parier sur l’intelligence des Français et servir à la fois la santé publique et l’éducation citoyenne ?

Yannick Cras
Le nombre imaginaire