« Les algorithmes reproduisent les biais des données avec lesquelles ils sont entraînés »

Arnaud Claes, chercheur UCLouvain

Question – Notre invité pour la semaine numérique est aujourd’hui Arnaud Claes, chercheur à l’UCLouvain. Première question : à quel point les algorithmes des réseaux sociaux ont-ils une influence sur la formation de l’opinion et particulièrement de l’opinion des jeunes?

Arnaud Claes – Tout d’abord, c’est une question qui est assez difficile à quantifier formellement à cause de l’opacité des plateformes qui rendent très difficile l’accès à des données quantitatives précises de grande envergure. Ce qu’on sait, c’est que la force de cet effet, l’amplitude de l’effet « bulle informationnelle » dans laquelle les algorithmes enfermeraient les individus sur les réseaux sociaux, est plus faible que ce qu’on pourrait imaginer au niveau des clivages, très loin d’une polarisation très forte des opinions.

D’après la recherche, les algorithmes sont neutres d’un point de vue du genre?

Alors je crois que, que ce soit pour des algorithmes ou n’importe quel n’importe quel objet technique, il est conçu par des personnes, par des équipes de développeurs.ses qui, comme vous et moi, ne sont pas plus neutres ou objectif.ves que n’importe qui d’autre.

Par conséquent, ce sont des dispositifs qui ont des biais, en l’occurrence lorsqu’on parle d’algorithmes. Ce que l’on entend d’habitude par intelligence artificielle dans les médias, ce sont des technologies qui sont particulièrement sensibles à cette question des biais.

Il y a d’une part ce qu’on appelle des biais explicites. Ce sont en fait des logiques, des objectifs, des priorités de fonctionnement qui sont dictées par les développeurs et qui traduisent une série de biais. Typiquement, c’est par exemple Tinder qui va attribuer des scores de désirabilité à leurs utilisateurs.trices en fonction de toute une série de critères qui pourraient être discriminatoires, en tout cas qui peuvent poser question.

D’autre part, il y a les biais implicites qui découlent en fait des données qui sont utilisées pour entraîner ces dispositifs. Ces algorithmes essayent d’identifier des schémas, des éléments récurrents, des logiques sous-jacentes qu’ils pourront reproduire par eux-mêmes. Par conséquent, si ces données sont caractérisées par des biais, ces biais seront perpétués. Un cas récurrent qui revient, c’est l’usage d’outils d’intelligence artificielle pour trier des candidatures, pour proposer à un employeur potentiel un prétraitement de candidats. Les données sur lesquelles cet outil est entraîné reposent sur des exemples d’embauche préalables. Si dans ces données, certaines populations ne sont jamais représentées, comme les personnes d’origine étrangère ou les femmes, ces dispositifs vont juste reproduire en fait ces schémas et donc mettre en priorité des candidat.es qui ont été mis en priorité auparavant.

Il est néanmoins possible de mettre des garde-fous ou de faire en sorte que ces biais soient mitigés. Néanmoins, ça implique de connaître a priori l’existence de ces biens et donc d’avoir tous les systèmes d’audit, de contrôle, de supervision de ces systèmes, ce qui est très difficile à mettre en place.

On parle là de l’impact dans la vie réelle que peuvent avoir des algorithmes en intelligence artificielle. Mais je voudrais aussi avoir votre avis sur l’impact sur la vie en ligne, tout simplement. L’impact sur l’invisibilisation des femmes, du discours féminin, du discours féministe en particulier sur les réseaux sociaux ou la production de contenus par les intelligences artificielles.

J’ai deux exemples qui me viennent en tête. Le premier porte sur ce qu’on appelle des algorithmes de recommandation. C’est ce qu’on retrouve sur des réseaux sociaux, Facebook, Instagram. Ce sont les algorithmes qui vont hiérarchiser l’information à présenter à l’utilisateur.trice dans son fil d’actualité. Ce qui se passe, c’est que ces technologies, en fait, sont généralement optimisées pour maximiser l’engagement de l’utilisateur.trice sur ces plateformes. Donc faire en sorte qu’on va leur présenter principalement des contenus qui vont provoquer des réactions qui vont encourager la personne à interagir, à commenter, à partager, à like. Le problème, c’est que les contenus qui sont plus à même justement de faire réagir, de provoquer ce genre de réactions, sont bien souvent des contenus qui vont provoquer des émotions, des réactions émotionnelles, généralement des réactions émotionnelles assez négatives, de la frustration, de la colère, du dégoût, de l’énervement, etc.

Ce qui fait que les contenus qui vont avoir le plus de visibilité grâce à ce système de recommandation sont souvent des contenus relativement extrêmes dans leurs propos plutôt clivants. Et à l’inverse, les contenus qui ont tendance à être plus modérés, à encourager une réflexion, à encourager le débat, vont perdre en visibilité sur ces plateformes.

Ce qui fait que pour des débats de société, par exemple, ce sont plutôt des propos assez extrêmes, plutôt clivants, qui vont gagner, qui vont être plus haut dans les recommandations et donc vont être beaucoup plus visibles. Ces plateformes ne sont pas vraiment des espaces adéquats pour vraiment aborder en profondeur et de façon constructive ce genre de questions de société.

Un autre exemple qui me vient également en tête, c’est effectivement le cas des outils d’intelligence générative comme la génération d’images par exemple, type Dall-E où l’on constate qu’ils ont contribué à perpétuer certains stéréotypes de façon assez évidente. Par exemple, je faisais encore un test, si je lui demande de me représenter un avocat.e : bien souvent, l’image qui ressort, c’est un homme blanc en costume, et si je lui demande de me représenter un.e infirmier.ère, c’est une femme toujours blanche.

Que pensez-vous du Digital Act qui vient d’entrer en vigueur? Est-ce que pour vous, cela peut contribuer à lutter contre les biais du genre, la haine en ligne? Alors oui, tout à fait. C’est une démarche excessivement importante. Le levier de la loi est nécessaire pour forcer les acteurs commerciaux à adopter des pratiques inclusives de conception de leurs systèmes. Toutefois, on peut aller plus loin. Le principal défaut de cette démarche, c’est que si on a encore des un cadre très très large autour de la notion de transparence. Pour rendre un système algorithmique transparent, ça peut dire vouloir beaucoup de choses. Il faut un travail de médiation. Il faut essayer de comprendre comment présenter, notamment aux utilisateurs et utilisatrices, la meilleure façon d’expliquer comment fonctionne un algorithme, quels sont les risques et les avantages. Et donc on espère qu’il y aura à cet égard un cadre législatif plus contraignant, pour définir de façon un peu plus claire ce qu’on entend par des systèmes plus transparents.

« Les algorithmes reproduisent les biais des données avec lesquelles ils sont entraînés »

En savoir plus

Interview de A Smart World

Interview de Green IT Belgium

« Sur le numérique, on est tous un peu immatures »