Lutter contre les biais de l’intelligence artificielle au sein d’ANITI

  • Scal[ia]

    4 mai 2022

ANITI, artificial and natural intelligence toulouse institute

Dans un monde où l’intelligence artificielle (IA) commence à se répandre dans tous les domaines, les principaux acteurs de la mobilité cherchent à développer des algorithmes capables d’automatiser les moyens de transports tout en assurant la sûreté des passagers. Cependant, ceci est une tâche davantage complexe que cela n’en a l’air de l’extérieur, puisque toutes les avancées récentes et résultats incroyables dont vous avez sûrement entendu parler ont été obtenus grâce à des modèles de type réseaux de neurones, et ceux-ci sont connus pour être des modèles « boîte noire », c’est-à-dire qu’il nous est impossible de connaître ses principes de fonctionnement internes. 

Pour ce faire, l’Etat Français a lancé l’initiative 3IA (« Instituts Interdisciplinaires d’Intelligence Artificielle ») afin de relancer la recherche française dans le domaine de l’IA appliquée et applicable dans l’industrie et accélérer le transfert des nouvelles technologies vers celle-ci. C’est dans ce contexte qu’ANITI (« Artificial and Natural Intelligence Toulouse Institute ») et le projet de recherche collaborative DEEL (« DEpendable and Explainable Learning ») ont été créés. L’un orienté vers la recherche académique et le dernier avec une vision davantage orientée aux applications industrielles et embarquées. 

ANITI est composé de 3 programmes de recherche, portant sur l’acceptabilité de l’IA dans la société, la certifiabilité des systèmes critiques comportant des briques d’IA et l’hybridation de l’IA avec d’autres domaines tels que la robotique, la logique ou le raisonnement humain.  

Le projet DEEL fait partie du programme de certifiabilité de l’IA d’ANITI depuis septembre 2021. Il est découpé en « défis scientifiques » qu’il serait nécessaire de résoudre avant de pouvoir espérer avoir des IA de confiance :

  • le biais et la fairness pour avoir des systèmes qui ne discriminent pas des groupes de données (quelle que soit l’application),
  • l’explicabilité afin de pouvoir comprendre les décisions des modèles,
  • la détection d’échantillons hors de distribution afin de pouvoir détecter des anomalies et des nouveautés dans les données d’entrée,
  • la robustesse pour garantir que les réseaux de neurones entraînés ne sont pas susceptibles à des attaques adversaires,
  • l’apprentissage par renforcement pour apprendre des agents de façon fiable,
  • et la mission certification afin d’étudier comment adapter les standards actuels de safety dans la mobilité (voitures, trains, avions) aux systèmes comportant de l’IA.

Bien qu’intéressé par l’intégralité des thématiques, c’est autour de la première et la dernière que Scalian, à travers l’équipe Data Consulting, participe aux échanges dans le consortium. C’est dans le défi biais que nous essayons de répondre à la question de comment s’assurer que nos modèles n’ont pas appris des biais présents dans nos jeux de données. Pour ce faire, il est nécessaire de pouvoir détecter les conditions qui sont susceptibles d’engendrer des sources de biais, normalement à cause de processus de collecte de données où, à cause de la facilité de se retrouver dans des certaines conditions, il existe des types de données sous ou surreprésentées. Ce déséquilibre peut pousser des modèles entraînés sur ces jeux de données à traiter incorrectement tout un ensemble de données, et parfois ce comportement passe inaperçu pendant la période d’évaluation du système. 

Une fois les potentielles sources de biais détectées, il est possible de déterminer si le modèle traite différemment les différents sous-groupes de données, et de corriger ce comportement si besoin. Pour réaliser ceci, il existe un sous-domaine de l’IA qui s’attaque à ces questions et propose des métriques et des solutions pour répondre à ces questions : la fairness (ou la justesse en Français). 

Mais comment pouvons-nous être sûrs que nous avons tenu compte de toutes les sources de biais possible ? En effet, ceci est un problème de combinatoire à part entière, mais il est possible de le contourner au travers des techniques issues des domaines de l’optimisation distributionnellement robuste (DRO en Anglais) et plus particulièrement, de shift de sous-populations. Dans ce domaine, la plupart des solutions proposent des variantes à la minimisation du risque empirique afin de tenir compte des potentiels biais. En particulier, la majorité des approches tournent autour d’une minimisation de l’erreur commis par le modèle dans le pire des cas (pour un ensemble de cas prédéfinis). Cependant, ce problème n’est pas simple à résoudre non plus et sa traçabilité dépend des choix spécifiques de certains paramètres. Ceci demande un effort de la part de l’expert en charge de l’entraînement pour mener à bien le processus d’apprentissage. 

L’idée est donc de s’attaquer aux problèmes de biais tout au long de la chaîne de création des modèles statistiques : la détection de sources de biais dans les jeux de données, la correction des modèles biaisés et l’apprentissage de représentations «fair». 

Enfin, afin de faciliter le processus de validation des technologies développées au sein du projet, de nombreux jeux de données ont été mis à disposition par les industriels partenaires, avec des cas d’usages appropriés aux différentes tâches. Ceci permet la mise en place d’une chaîne de développement technologique qui commence par la recherche des solutions avec les partenaires académiques dans ANITI et qui finalise avec l’application sur des cas d’usages réels au sein du projet DEEL. Et puisque le focus du projet est le transfert technologique de la recherche vers l’industrie et de créer des outils prêts à l’emploi pour les industriels, nous développons des librairies en open-source qui sont ouverts à tous ceux qui souhaitent les utiliser. N’hésitez pas à jeter un œil à github.

ANITI en quelques chiffres : 

  • ANITI rassemble plus de 200 chercheurs sur les 3 programmes, divisés en 24 chaires scientifiques et plus de 50 partenaires des secteurs public et privé, avec un budget de plus de 100M€.
  • Le projet DEEL compte 30M€ pour 50 collaborateurs provenant des 17 partenaires du projet avec des antennes à Toulouse et à Montréal. 

Le consortium ANITI

ANITI DEEL IA