“Le Nombre imaginaire” ou les mathématiques comme terrain de jeu où l’imagination seule fixe les limites.
Le dimanche 16 avril, sur France Inter, Nicolas Demorand recevait dans sa toujours passionnante émission « Questions politiques » Loïc Blondiaux, professeur de science politique et Brice Teinturier, DG Délégué d’Ipsos France. On y parlait sondages, et j’y ai trouvé, s’il en était besoin, l’amère confirmation de la difficulté qu’il y a à vulgariser les maths.
Car si l’on attend naturellement d’un journaliste politique une solide culture historique, sociale, économique et (bien entendu) politique, il ne semble pas aller de soi que ce même journaliste maîtrise les concepts de base qui sous-tendent l’art du sondage. À entendre cette émission, on eût même dit que ce qui ressort des maths en général ou de la statistique en particulier est par essence inaccessible à l’honnête homme, aussi cultivé et intelligent fût-il par ailleurs, et quels que soient les efforts d’explication déployés par les professionnels. On s’interdirait a priori et par principe d’y comprendre goutte, que cela ne serait guère différent. C’est bien dommage car, comme nous allons le voir, on ne parlait ici pas tant de maths que de bon sens.
Le débat portait sur le redressement dans les sondages, technique consistant à sur- ou sous-pondérer le poids de certaines catégories de sondés, et dont les experts invités tentaient d’expliquer le fonctionnement, quand le chœur des journalistes présents demanda en substance : « Mais comment redressez-vous Macron, puisqu’il n’était présent lors d’aucune élection antérieure ? ». Excellente question en apparence, à ceci près que ses prémisses sont fausses. Et nos invités, en effet, de répondre vaillamment qu’ils ne redressent pas un candidat mais un échantillon. Visiblement, hélas, cette explication n’expliquait rien du tout car la question revint à l’identique au moins deux fois. Et l’un de nos malheureux invités, après quelques tentatives d’y répondre et finalement réduit au désespoir, de capituler : « Je ne comprends pas. Je donne un cours sur ces sujets à Science-Po, mais, visiblement, je n’arrive pas à vous expliquer cela… ».
Je voudrais voler ici, fût-ce trop tard, au secours de MM. Teinturier et Blondiaux dont les réponses me parurent, quant à moi, aussi claires et pertinentes que visiblement incomprises. Pourrait-on y réussir un peu mieux après la bataille, et par écrit ? Si M. Demorand me fait l’insigne honneur de lire cette chronique, peut-être me dira-il s’il est satisfait par ce qui suit.
Un sondage se doit de refléter l’opinion (disons, les intentions de vote) de la population française à un instant donné. Comme il est impossible de poser la question à tout le monde, il faut bien choisir un sous-groupe, que l’on appelle un échantillon. Si cet échantillon est représentatif de la population en son ensemble, ses réponses seront statistiquement assez proches, dans des marges d’erreur que l’on sait évaluer en fonction de sa taille, de ce que répondrait la population dans son ensemble à la même question (et au même moment, ce que l’on tend à oublier : un sondage est un instantané, pas une prédiction).
Mais comment savoir a priori qu’un échantillon est représentatif ? Et d‘ailleurs, que recouvre cette notion ? Eh bien, nous savons tous ce qu’en est l’opposé, à savoir un échantillon biaisé. Si vous faites un sondage d’opinion sur l’adoption homoparentale à la sortie de la messe de Saint-Nicolas-du-Chardonnet, une étude épidémiologique sur le tabac dans la file d’attente du buraliste de la Place de Clichy ou une enquête de popularité pour Mélenchon dans les tribunes de l’hippodrome de Saint-Cloud, il y a fort à parier que vous obtiendrez des chiffres pour le moins faisandés. Nous le sentons confusément : pour qu’un échantillon soit représentatif, il y faut « un peu de tout » – pas trop de riches et pas trop de pauvres ; pas trop de jeunes ni de vieux ; pas trop de citadins ni de campagnards. Il nous faudrait de tout cela dans des proportions qui correspondent peu ou prou à la moyenne nationale.
Fort bien, direz-vous ; eh bien, si l’on tirait tout simplement l’échantillon au sort parmi toute la population française, on devrait bien s’en approcher, de cet échantillon représentatif idéal, non ?
Certes ; vous avez raison. Et vous noterez au passage que la représentativité de cet échantillon n’a strictement aucun rapport avec la question que vous lui poserez. L’échantillon est représentatif ou non, mais son état ne changera pas selon que vous lui demandez s’il croit en Dieu, pour qui il va voter, ou s’il aime les frites.
Cependant, les sondeurs font face à quelques petits problèmes pratiques.
Tout d’abord ils ne peuvent pas réellement choisir les sondés au hasard dans l’ensemble de la population ; certaines catégories de personnes sont tout simplement trop difficiles à joindre, méfiantes des sondeurs, etc. Le simple fait que vous acceptiez de répondre à un sondage, paradoxalement, vous range dans une catégorie certes moins élitiste que le Lions Club mais tout de même déjà plus restreinte que la population générale ; et ce d’autant plus s’il s’agit d’un sondage par Internet. Après tout, si l’on demandait aux Français s’ils ont déjà accepté de répondre à un sondage une fois dans leur vie, 100% des sondés (moins quelques facétieux) répondraient oui ; nul n’oserait pourtant en déduire que le sondage est un sport national au même titre que la belote. Par ailleurs, dans le cadre des sondages politiques, les intentions d’abstention sont bien peu sondées (ce que l’on peut regretter) : les sondages ne s’intéressent donc guère aux abstentionnistes à répétition, aux électeurs potentiels non inscrits, etc.
De plus, en général un échantillon est petit – quelques milliers de personnes au mieux. Or, plus un échantillon tiré au sort est petit, plus il a de chances justement de s’écarter des moyennes nationales. Si vous sélectionnez 1000 personnes au hasard, la probabilité d’avoir exactement 480 hommes et 520 femmes (correspondant approximativement à la proportion d’hommes et de femmes dans la population générale) est très faible ; vous pourriez aussi bien avoir quelque chose comme 511 femmes et 489 hommes par exemple. Ces écarts seront d’autant plus importants si votre échantillon doit contenir des représentants de catégories influentes mais peu représentées dans la population générale. Par exemple, les militaires représentent moins de 1% de la population active française, et il est fort possible que votre échantillon de mille personnes n’en contienne qu’un ou deux (voire aucun). Or, imaginons à titre d’hypothèse (je n’en sais strictement rien) que le vote des militaires soit très polarisé vers la droite : ces 1% pourraient lui fournir un apport non négligeable de voix à côté duquel il ne faudrait pas passer. En résumé, malgré toutes vos précautions, votre échantillon a bien des chances de ne pas être si représentatif que ça.
Or, constituer un échantillon coûte cher : si celui que vous avez ne convient pas, vous pouvez rarement vous permettre de recommencer et d’en sélectionner un autre sans garantie d’en obtenir un meilleur. Il faut faire plus ou moins avec ce que l’on a.
C’est ici que le redressement intervient. Si par exemple vous manquez un peu d’hommes dans votre échantillon par rapport aux femmes, vous pouvez appliquer une légère sur-pondération à ce que vous disent les hommes, de façon à répliquer le rapport national.
De même, si vous n’avez que deux militaires, vous pourriez être tenté de sur-pondérer leur opinion d’un facteur plus important. Ce faisant, vous prendrez cependant le risque d’amplifier dangereusement un écart à la réalité, s’il se trouve justement que ces deux militaires-là – ou ne fût-ce que l’un d’eux – ne votent pas comme la masse de leurs collègues ; c’est un risque incompressible qui alimente les marges d’erreur et auquel vous ne pouvez rien, à moins d’obtenir un échantillon plus grand ou de recruter plus de militaires.
D’où la notion de quota : pour éviter des distorsions statistiques trop importantes, vous chercherez à garantir, en constituant votre échantillon, un nombre minimum de personnes appartenant à certaines catégories, par exemple les militaires. Mais une difficulté additionnelle se présente : il peut exister de nombreuses catégories à la fois minoritaires et potentiellement polarisées politiquement, et vous ne pouvez pas nécessairement imposer un quota pour chacune. Si vous exigez de votre échantillon de mille personnes qu’il contienne dix militaires, deux cent personnes vivant en environnement rural, une centaine de chômeurs, cinq personnes touchant le RSA, trois vivant dans les DOM-TOM et dix faisant partie des 1% de Français à plus haut revenu, cette accumulation de contraintes pourrait se révéler trop difficile à satisfaire simultanément ; il faudrait alors lâcher du lest quelque part et redresser au mieux.
En gros, redresser votre échantillon, c’est donc ajuster un groupe d’individus choisis au mieux puis le regarder à travers un verre (si possible pas trop) déformant qui lui donne un air respectablement représentatif. Chaque institut de sondage fabrique sa propre lentille, et il n’y a rien de mal à ça.
Parmi les critères que vous pouvez redresser, il en est un qui s’impose facilement pour les sondages politiques : il serait sain que votre échantillon ait voté comme la population générale à la présidentielle de 2012. C’est pourquoi vous demanderez à vos sondés pour qui ils ont voté à l’époque, ce qui vous permettra de redresser si besoin, disons, les électeurs du Front national s’il en manque dans votre échantillon.
L’astuce, c’est que ce redressement-là permet aussi de traiter le cas de l’électeur honteux ou cachottier : s’il n’ose ou ne veut pas vous indiquer qu’il a voté FN en 2012, il contribuera ce faisant à un poil de sur-pondération de ceux qui ont admis l’avoir fait ; sa propre opinion comptera de ce fait un poil moins, et vous vous retrouverez au total avec une estimation pas si mauvaise que cela de la représentation de ce parti.
Tout cela, encore une fois, n’a guère de rapport avec la question politique que vous vous apprêtez à poser à votre échantillon. Vous ne pouvez certes pas redresser les électeurs de Macron puisqu’il n’en a jamais eu. Mais tel n’est pas votre but : vous voulez redresser les électeurs (pour 2012) de Sarkozy, Hollande ou Le Pen. Si vous avez fait un bon travail, vous aurez un condensé acceptable de la population nationale, et des intentions de vote pour Macron par exemple (avec une marge d’erreur de toute façon incompressible de plusieurs points, gardons-le en tête).
Bien entendu, tout représentatifs qu’ils soient, vos sondés peuvent encore vous mentir quant à leurs intentions de vote présentes. Tel qui vota Sarkozy en 2012 n’admettra peut-être pas en public qu’il a secrètement décidé de voter Mélenchon, que sais-je. Un sondeur pourrait être tenté de chercher à pondérer cela, s’il a quelque idée du taux de mensonge à envisager. Mais on n’est alors plus dans le redressement, il s’agit d’autre chose : vouloir lire dans le pensées de l’électeur au lieu de rapporter tout simplement ce qu’il vous dit, c’est entrer de plain-pied et à vos risques et périls dans le domaine de la prédiction.
Yannick Cras
Le nombre imaginaire
0 commentaires