Au rythme des algos

“Le Nombre imaginaire” ou les mathématiques comme terrain de jeu où l’imagination seule fixe les limites.

Assurer sa sécurité informatique, c’est bien beau ; mais ce n’est pas cela qui vous préservera du marketing personnalisé intrusif, des bannières intempestives sur Internet ou du spam embarrassant dans votre boîte aux lettres – sans même parler, sauf pour les plus paranos d’entre nous, d’écoutes de la NSA. De tous les secrets, notre vie privée est le plus précieux ; c’est malheureusement également le plus difficile à préserver. D’une part parce que l’essentiel de nos interactions sur Internet ont précisément pour but, explicite ou non, de nous le faire révéler ; d’autre part, parce que les méthodes utilisées pour cela sont d’une diabolique ingéniosité.

En premier lieu, faut-il le rappeler, chacun de nos clics, chacun de nos mèls, chacune de nos connexions et de nos recherches coûte de l’argent à quelqu’un ; il faut bien payer les machines, leur amortissement, l’énergie qu’elles consomment, les employés qui veillent sur elles. La proportion de philanthropes parmi les grandes fortunes mondiales restant plus que raisonnable, et au vu des profits affolants de certains géants d’Internet, il est donc sain de supposer que chaque clic rapporte plus qu’il ne coûte. Quelqu’un paye pour cela en bon argent. Si ce n’est pas vous, c’est quelqu’un d’autre.

Or ce qui se monnaye si cher, ce sont justement nos clics, nos mèls, no connexions, nos commentaires, no laïkes, no re-touites et j’en passe. Vu que nous sommes les producteurs bénévoles et hyperactifs de tout cela, il est tout de même intéressant de se demander si nous ne nous faisons pas un peu avoir dans l’histoire. En d’autres termes et comme on dit : si vous ne payez pas pour le produit, vous êtes le produit. Nous pouvons accepter de l’être – après tout, cela nous permet de bénéficier gratuitement de réels services – mais autant savoir qui nous consomme et comment.

Qui, ce sont bien entendu les vendeurs d’espace publicitaire et in fine les annonceurs, qui trouveront moyen de nous atteindre au cœur de nos besoins au mieux, de nos envies, au pire de nos vanités. Comment, ce sont les fameux algorithmes dont on parle tant.

Ces algorithmes, soit dit en passant, ne datent pas d’hier. Beaucoup d’entre eux ont été conçus, au moins sous une forme primitive, dans les quarante dernières années du vingtième siècle, dans des buts de recherche en informatique, en théorie de graphes, en télécommunications ou en aide à la décision. Certes, ils ont progressé depuis, mais leur essor foudroyant depuis dix ans découle principalement de leur rencontre avec deux phénomènes plus récents : une masse affolante de données à leur soumettre, ces même données que nous distribuons gratuitement et allègrement partout où nous passons, et une puissance de calcul distribuée phénoménale capable de les mettre en œuvre. Le « nuage », c’est d’abord cela : une capacité arbitrairement grande de stockage et de traitement des données à faible coût dont personne ne rêvait il y a seulement vingt-cinq ans – pour ceux qui acceptent, bien sûr, que leurs données soient stockées dans des fermes d’ordinateurs en Californie et des centres de calcul à Shanghaï.

Que font ces algorithmes, et comment ? Prenons l’exemple de l’un des plus simples, que l’on appelle un algorithme de groupage – de clustering en Anglais. Cet algorithme – qui n’est rien d’autre qu’une méthode mathématique, programmable sur ordinateur – a pour but d’identifier, au sein d’une immense population d’internautes (par exemple), des groupes cohérents d’individus ayant peu ou prou les mêmes intérêts, les mêmes besoins, les mêmes modes. Identifier un grand nombre de tels groupes et associer chaque internaute à l’un d’entre eux vous permet de cibler les produits à lui vendre, de décider en temps réel quelles publicité il recevra sur son écran, de le diriger plus ou moins subtilement vers les sites marchands qui le feront craquer. Mais – et c’est un effet pervers dont on commence à parler – cela permet aussi de préserver et d’encourager la cohésion de ces groupes, en donnant à leurs membres les nouvelles qu’ils attendent sur les sujets qui les intéressent, en leur parlant de ce qu’ils aiment plutôt que de ce qui les dérange. C’est essentiel car plus un groupe est cohérent, plus il forme une communauté connectée, et plus vous avez de chances, en vendant un produit à un membre de ce groupe, qu’il y fasse gratuitement votre publicité et vous aide à y vendre davantage. Les membres du groupe, eux, y gagnent le sentiment rassurant d’avoir raison dans leurs choix de vie et leurs opinions et d’appartenir à une large communauté, puisqu’ils recevront surtout des informations qui confortent leurs idées, des commentaires appréciateurs de leurs publications, des photos et vidéos qu’ils sont susceptibles d’apprécier (et de laïker) ; le clustering encourage ainsi sciemment notre biais de confirmation (qui nous pousse tous à mieux retenir les événements allant dans le sens de nos préconceptions que les autres). Qu’est-ce qu’on y perd ? Oh, presque rien : la diversité, la mixité sociale, la confrontation des idées – la démocratie peut-être ?

Comment marche donc cet algorithme de groupage ? Il considère chacun de nous comme un point dans l’espace. Imaginons pour commencer que l’algorithme connaisse trois choses sur vous : votre sexe, votre âge, et votre revenu estimé (peut-être déduit de vos achats antérieurs sur Internet). Il peut placer un point vous représentant dans un espace fictif où les hommes sont placés à gauche, et les femmes à droite ; les jeunes juste devant vous, les vieux plus loin ; les gens à faibles revenus vers le bas, les plus aisés vers le haut. On place ainsi un point pour chaque utilisateur du site concerné, disons des points bleus. Certaines régions de l’espace seront peut-être plus remplies que d’autres – les hommes ayant généralement de meilleurs revenus que les femmes au même âge, par exemple, il pourrait y avoir un vide relatif en haut à droite. Certains points seront placés exactement au même endroit et apparaîtront superposés ; nous les considérons tout de même comme distincts.

Supposons maintenant que l’on cherche à créer dix groupes, dix segments de marché structurant cette population. Commencez par placer dix points, des rouges cette fois, au hasard dans l’espace. Chaque point représentera un groupe. Rattachez alors l’utilisateur correspondant à chaque point bleu au groupe représenté par le point rouge le plus proche. Quand vous avez fini, calculez le centre de gravité de chaque groupe (que l’on baptise aussi du joli nom de centroïde) : c’est le point de l’espace dont les coordonnées en longueur, en largeur et en hauteur correspondent à la moyenne des coordonnées de tous les points bleus du groupe. Déplacez le point rouge du groupe à cet endroit, et procédez de même pour chacun des groupes. Puis recommencez la procédure : attachez de nouveau chaque point bleu au point rouge le plus proche. Certains utilisateurs changeront ainsi de groupe tandis que d’autres resteront dans leur groupe d’origine. Recalculez le centre de gravité de chaque groupe, déplacez-y à nouveau les points rouges, recalculez le point rouge le plus proche de chaque point bleu, et continuez ainsi jusqu’à ce que plus rien ne bouge : vous avez ainsi atteint une configuration stable, ce que l’on appelle un point fixe, qui vous donne des groupes homogènes – des points bleus bien amassés autour des points rouges qui représentent leurs groupes. Si je vous ai perdus, vous trouverez ici une animation un peu rudimentaire mais éclairante.

Il est parfaitement possible que certains points rouges occupent des positions qu’aucun utilisateur seul ne pourrait occuper : par exemple, si le sexe ne joue aucun rôle dans un groupe qui représente les riches retraités, le point rouge correspondant pourrait se trouver à mi-chemin des hommes et des femmes. Notez par ailleurs qu’à aucun moment l’algorithme ne comprend ce que veut dire le sexe, l’âge ou le revenu de quelqu’un ; il ne voit que des points qu’il regroupera arbitrairement. C’est vous, analyste, qui distinguerez peut-être un groupe de retraités aisés, un groupe de jeunes gens fauchés, un groupe de femmes d’âge et de revenus moyens… à qui vous essaierez de vendre des produits différents.

Bien entendu, dans la réalité, l‘algorithme connaît bien plus de choses sur chacun de nous que notre sexe, notre âge et notre revenu estimé – il connaît des centaines ou des milliers de petits faits nous concernant, ce que l’on appelle des traits. Il peut savoir que nous avons acheté tel produit, que nous fréquentons tel site, que nous sommes amis avec untel. L’algorithme va alors considérer un espace non pas à trois dimensions comme le nôtre, mais à des centaines ou des milliers de dimensions, chacune d’elle correspondant à un trait. Dans un tel espace, on peut aussi calculer une distance entre deux points (on peut même le faire de différentes façons) ; l’algorithme que nous venons de décrire y fonctionnera tout aussi bien, même si les calculs sont plus longs. Par ailleurs ce ne sont pas dix groupes qui seront créés, mais des centaines ou des milliers, structurant ces millions de points qui représentent les internautes considérés.

Aussi sophistiqués soient-ils, les algorithmes de groupage ne peuvent donner une réponse absolue. Dans celui qui nous sert d’exemple, un choix différent du placement aléatoire des points rouges de la première génération pourrait résulter en une structure de groupes très différente, surtout si les points bleus sont peu structurés. Par ailleurs, et contrairement à d’autres techniques dites supervisées, ce genre d’algorithme souffre d’un défaut : il est très souvent difficile à un être humain de comprendre ce que représente réellement un groupe fabriqué par l’algorithme, et donc d’expliquer en termes de marketing ce qu’il convient de lui vendre. Mais ce n’est pas nécessairement un problème, car l’algorithme fonctionne très bien tout seul, sans intervention humaine, et peut être couplé avec un autre algorithme tout aussi automatique qui, en analysant l’historique des achats internet d’un groupe, peut envoyer à chacun de ses membres une publicité qui sera, sinon toujours la bienvenue, au moins pertinente avec une probabilité bien plus haute qu’un bombardement publicitaire au hasard. Par ailleurs, un bon algorithme de réseau social, en s’appuyant sur ce qu’il connaît de vous et de votre groupe d’affinité, prendra soin de choisir soigneusement ce qui apparaît dans votre page personnelle, de manière à vous y garder le plus longtemps possible et de la meilleure humeur possible. Il est peu vraisemblable qu’on vous y embête vraiment, sauf si vous avez été repéré(e) pour le plaisir que vous prenez à poster des commentaires au lance-flamme… ce qui vous place aussi dans un groupe !

Que pourriez-vous faire pour échapper à cet étiquetage s’il ne vous convient pas ? Peut-être vous lier d’amitié avec des gens d’horizons très différents, vous intéresser à une grande variété de sujets, laïker des articles un peu au hasard ? Malheureusement, outre le fait que vous vous retrouverez de ce fait bombardés d’informations qui ne présentent peut-être pas le moindre intérêt pour vous, cela ne vous conduira qu’à être classés parmi les internautes volages et aventureux… pour lesquels il peut parfaitement exister un groupe, car votre propension à vous focaliser ou à vous disperser peut, elle aussi, être mesurée et associée à un trait, puis à une dimension de l’espace sur laquelle vous vous distinguerez clairement. Il n’y a guère de moyen de s’en sortir : si vous ne voulez pas être un point, ne laissez pas d’information sur les réseaux sociaux. Ce qui veut dire, dans la pratique, ne pas s’y inscrire (votre chroniqueur doit à l’honnêteté de reconnaitre qu’il fait partie du groupe des hypocrites qui n’ont pas de compte Facebook mais aiment bien regarder par-dessus l’épaule de leur chère et tendre qui en a un…).

Une idée en passant : quitte à être un point, soyez-en plusieurs. Ouvrez autant de comptes que vous avez de centres d’intérêt ; ouvrez un compte qui s’intéresse à des sujets sur lesquels on ne vous informe jamais ou à des opinions que vous désapprouvez. Couplée avec l’utilisation d’un anonymiseur d’adresse IP, cette démarche vous permettra peut-être de faire croire à votre réseau social favori que vous êtes plusieurs et de brouiller ainsi les cartes. Mais les algorithmes sont prompts à repérer les traits communs qui révèlent notre personnalité ; rien ne peut être garanti.

Il faut bien constater qu’il n’y a strictement aucune intelligence, aucune compréhension du monde à l’œuvre ici – mis à part celle des inventeurs des algorithmes. Aucune conscience désincarnée n’observe nos faits et gestes sur Internet ; si Big Brother il y a, il n’a pas d’ego. L’Intelligence artificielle, la vraie, existera peut-être un jour, mais elle n’est pas occupée à mesurer nos clicks et à optimiser nos achats. Un traitement de masse, sans aucune conscience, y suffit. C’est humiliant peut-être, c’est certainement effrayant, mais c’est ce qui se passe, puisque nous le voulons bien.

Yannick Cras
Le nombre imaginaire