Molière : un point, c’est tout !

“Le Nombre imaginaire” ou les mathématiques comme terrain de jeu où l’imagination seule fixe les limites.

Après une absence pour de réjouissantes raisons personnelles, dont les lecteurs voudront j’espère l’excuser, votre chroniqueur est de retour et nous pouvons continuer notre promenade dimensionnelle. Nous quittons donc d’un pas décidé l’espace à cinq dimensions pour en rejoindre un autre qui s’enorgueillit, lui, du nombre fort respectable de cent mille dimensions, à quelques dizaines de milliers près.

Cet espace, c’est celui défini par les mots de la langue française. Chaque dimension de cet espace est un mot ou, plus précisément, une racine de mot (nous confondrons ici les formes singulière et plurielle d’un substantif, les formes féminine et masculine d’un adjectif, ou les formes conjuguées d’un verbe).

Si chaque mot est une dimension, quels sont les points de cet espace ? Eh bien, en première approximation, on y trouve déjà les textes en français (tous les textes en français jamais écrits et tous ceux à venir, du moins en utilisant le lexique contemporain).

L’astuce est d’associer à un texte une coordonnée pour chaque mot, qui est tout simplement le nombre de fois où ce mot figure dans le texte. Bien sûr, il est possible que deux textes distincts utilisent exactement le même nombre de fois ces mots, en ne différant que par leur ordre ; il s’agit donc, comme nous l’avons dit, d’une approximation. Cependant, quand on étudie un corpus donné comme les œuvres de Molière, ceci ne se produit en pratique jamais : à toutes fins utiles, chaque texte du corpus est identifié de manière unique par le nombre de fois qu’il utilise chaque mot. Il faut néanmoins convenir que, traduite dans cet espace, la scène des beaux yeux de la belle marquise du Bourgeois Gentilhomme perd tout son intérêt.

Notre espace textuel contient par ailleurs bien d’autres points qui ne sont pas des textes. En effet, pour que nous puissions y travailler à notre aise, nous aurons besoins de points avec des coordonnées négatives ou non-entières : aucun texte ne contient pourtant -12 fois le mot « melon » ni 1/3 de fois le mot « autobus ». Nous pourrons cependant, comme nous le verrons, utiliser ces points mystérieux à des fins fort utiles.

Une fois cela établi, nous pouvons définir quelques concepts utiles, directement hérités de la géométrie à deux ou trois dimensions. Tout d’abord la notion de vecteur : un vecteur, c‘est la flèche qu’il faut tracer pour aller d’un point à un autre en ligne droite. Elle s’identifie par une longueur – la longueur en vol d’oiseau entre les deux points – et une direction. Tout comme un point, un vecteur associe un nombre à chaque dimension : c’est la différence entre la coordonnée du point d’arrivée et celle du point de départ pour cette dimension.

Entre Paris et Lyon, je peux ainsi tracer une flèche, un vecteur, d’une longueur d’environ 500 km et orientée en gros vers le sud-est. Mais on remarquera que la même flèche, décalée sur la carte, me permet aussi de passer de Clermont-Ferrand à Marseille. Un même vecteur peut ainsi relier une infinité de couples de points, qui ont la même distance et la même direction relative l’un par rapport à l’autre. Visuellement, cela veut dire que l’on peut déplacer notre flèche partout sur la carte, sans changer sa longueur ni son orientation : c’est toujours le même vecteur. En plaçant l’origine (le point de départ) du vecteur Paris-Lyon sur la ville de Bruxelles, on constate que son extrémité (son point d’arrivée) tombe aux environs de Zurich.

On définit facilement quelques opérations fort utiles sur les vecteurs. Ainsi, on peut calculer la somme de deux vecteurs en accolant l’extrémité du premier à l’origine du second, puis en traçant la flèche qui va de l’origine du premier vers l’extrémité du second. Comme pour les nombres, l’addition de plusieurs vecteurs donne le même résultat indépendamment de l’ordre dans laquelle on l’effectue. On peut aussi multiplier un vecteur par un nombre : on obtient un vecteur de même orientation (ou orienté dans l’autre sens si le nombre est négatif), et dont la longueur est multipliée par ce nombre. Il existe en particulier un vecteur nul, dont l’origine et l’extrémité sont confondues : ajouté à un autre vecteur il ne change rien, et multiplié par un nombre il donne toujours lui-même.

D’autres opérations sont possibles, mais celles-ci nous permettent déjà de calculer des choses intéressantes. Par exemple, le centre de gravité G d’un ensemble de points P1,…,Pn est un point tel que la somme des vecteurs reliant G à un point P est le vecteur nul. Intuitivement, G est « au milieu » du nuage de points. C’est ainsi que l’on peut établir que Bourges est approximativement le centre de gravité de la France continentale : suspendu à un fil passant par Bourges, notre hexagone resterait horizontal.

On peut maintenant s’amuser, comme je l’ai fait récemment, à utiliser ces mêmes outils dans notre espace textuel à 100 000 dimensions. Pour ce faire, j’ai récupéré le texte de toutes les pièces de Molière sur Internet, et calculé leurs coordonnées dans cet espace. Au cas où vous vous poseriez la question, je n’ai pas réellement eu besoin de récupérer un dictionnaire complet du français ni de stocker 100 000 nombres par pièce pour cela. La coordonnée d’une pièce, pour une immense majorité des mots-dimensions, est nulle : une pièce ne contient en effet généralement que 2000 à 3000 mots différents. Il existe des techniques pour représenter efficacement ce genre de jeu de données à très faible densité.

J’obtiens ainsi un ensemble de 33 points. Pour chacune de ces pièces, on peut d’abord évaluer à quel point elle est représentative du style général de Molière, ou si elle s’en écarte. Pour cela, je calcule le centre de gravité de l’ensemble des pièces – c’est un point de notre espace mais, bien entendu, ce n’est ni une pièce de Molière ni même un texte. Il contient par exemple 36,6 fois le mot « Sganarelle », ce qui signifie qu’une pièce de Molière contient en moyenne ce nombre d’occurrence du personnage (y compris dans les didascalies).

Je peux ensuite calculer la distance entre chaque pièce et le centre de gravité : c’est la longueur du vecteur qui les relie. Cela me donne une idée de l’aspect typique ou au contraire inhabituel de l’œuvre. Ainsi, la pièce la plus représentative de Molière selon cette mesure est l’une des moins connues, Les Amants Magnifiques (février 1670), elle-même très proche d’une autre, La Princesse d’Élide (mai 1664). À l’inverse, ces hits absolus que sont L’Avare (septembre 1668), Le Bourgeois gentilhomme (octobre 1670) et Le Malade imaginaire (février 1673) forment un trio atypique – assez proches les unes des autres, mais fort éloignés de la moyenne. Il est par ailleurs intéressant de remarquer que Les Amants magnifiques et Le Bourgeois gentilhomme, composées la même année, sont éloignées l’une de l’autre : l’évolution temporelle du style de l’auteur n’explique donc pas tout.

On peut aussi s’amuser à déterminer quelle pièce du corpus est la plus éloignée, ou la plus opposée à une autre, en cherchant celle qui est le plus proche du point symétrique par rapport au centre de gravité. Ainsi, La Critique de l’École des femmes (juin 1663) est à l’opposé des Amants magnifiques, et L’Avare à celui de la Pastorale comique (janvier 1667) – ici encore, on voit que deux styles au moins cohabitent les mêmes années.

On pourrait objecter que notre manière de mesurer prend en compte tout autant la taille d’une pièce que son lexique, ce qui peut biaiser les considérations purement stylistiques : de fait, si Molière avait ajouté deux actes à son Malade imaginaire, les deux points résultants seraient fort éloignés alors que l’intuition nous les désigne comme très proches. Nous pouvons facilement prendre cette critique en compte en travaillant avec des vecteurs dits normalisés. Pour cela, nous calculons le vecteur qui relie le centre de gravité commun à chaque pièce, puis nous le divisons par sa propre longueur : nous obtenons ainsi, pour chaque pièce, un vecteur de longueur 1, qui ne se distingue plus des autres que par sa direction dans l’espace. Cette direction représente le lexique de la pièce, et caractérise donc son style au mieux que nous puissions l’appréhender en ne prenant en compte que les mots. Ce vecteur ne changerait guère si Le Malade imaginaire était plus long.

Appliquer cette correction est facile mais ne change pas fondamentalement les choses ; cela renforce cependant le fait que quelques pièces majeures – dont L’Avare et Le Tartuffe (mai 1664) – se démarquent des autres par leur lexique.

Faute de temps et de moyens, votre chroniqueur arrêtera là son expérimentation ; mais non point Google, qui dispose de corpus, de représentations et de moyens de calculs autrement impressionnants. Google vous permet en particulier de jouer aux devinettes du style : qu’est-ce qui est à Paris ce que l’Angleterre est à Londres ? Ici encore, on constitue un espace muni de vecteurs, mais les points y sont des concepts et les vecteurs des relations, toutes identifiées en analysant des textes. Poser cette question, c’est tout justement se demander ce qui se passe si on positionne l’origine du vecteur qui relie Londres à L’Angleterre sur le point « Paris ». La magie en jeu, c’est que ce vecteur représente la relation « est capitale de », mais sans que cela ne soit jamais explicitement défini par un quelconque programmeur.

Désolé de finir sur une note plus sinistre, mais vous vous en doutez peut-être déjà : quelque part, dans un espace aux millions de dimensions, il y a aussi un point qui vous représente vous, défini par les produits que vous avez achetés, les pages que vous avez regardées, les publications que vous avez laïkées… et vos vecteurs personnels y sont scrutés de près, combinés avec des millions d’autres. Qu’y faire, à part quitter les réseaux sociaux ?

Yannick Cras
Le nombre imaginaire