CAUSALITÉ 101 : une introduction à une autre forme d’Intelligence Artificielle

  • Innovation

    1 March 2022

Depuis 10 ans, nous assistons à l’avènement de l’intelligence artificielle, poursuivant inexorablement sa route vers son âge d’or. Le chemin, que les pionniers ont débroussaillé depuis plus d’un siècle en posant les fondements mathématiques, est encore pavé d’obstacles à surmonter pour parvenir à une adoption pleine et entière par les différentes strates sociétales.

Peut-on faire confiance à une intelligence artificielle ? Comment comprendre le mode de fonctionnement d’un modèle ? Le système prédictif est-il robuste aux perturbations ? Le Machine Learning permet-il de s’affranchir de biais néfastes pour le domaine d’usage ? Autant de questions qui conduisent à une question (volontairement) simpliste : qu’est-ce qu’un bon modèle d’IA ?

La réponse est, forcément, toute en nuance. Si l’on peut s’attendre à ce que l’ensemble des modèles déployés en conditions opérationnelles soit porteur d’un niveau minimal d’exigence concernant des propriétés intrinsèques (viabilité, robustesse, performance, explicabilité, etc.), il est évident que certains cas d’usage privilégieront davantage l’explicabilité à la performance ou la robustesse à l’équité.

Quelle est la réponse du domaine de l’Intelligence Artificielle à cette recherche de nuancement ?

Le terme Intelligence Artificielle regroupe plusieurs branches bien distinctes mais heureusement également hybridables : Machine et Deep Learning, systèmes experts, mécanismes à logiques floues, robotiques, pour ne citer que celles-là. Chacune de ces branches présente des spécificités techniques, un potentiel et des limites qui lui sont propres. Mais quid de leur couverture médiatique, de leur poids auprès des organes de formation, de leur fréquence d’implémentation chez les industriels de tous bords ? Le constat est sans appel : le Machine Learning, et avec lui le Deep Learning ont pratiquement éclipsé l’ensemble des autres branches à grand coup de performances retentissantes dans telle ou telle tâches.

Pour autant le Machine Learning peut-il indéfiniment porter à lui seul l’essor de l’IA vers son âge d’or ?

Simplifié d’une façon (presque) caricaturale, un modèle de Machine Learning tend à minimiser une fonction d’erreur lors d’un processus itératif de paramétrage des coefficients d’une expression mathématique. L’importance de la qualité et de la quantité de données est alors centrale à l’apprentissage afin d’espérer obtenir un modèle garantissant les meilleures capacités de généralisation au domaine réel. En ne reposant que sur des données d’observation, les modèles de Machine Learning identifient et utilisent des connexions entre les variables, mais ne savent différencier ce qui est de l’ordre de l’association fortuite de la vraie relation de cause à effet.

Pour le Machine Learning, et particulièrement en Deep Learning, les caractéristiques (Features) favorisant l’apprentissage du modèle (et donc la minimisation de la fonction d’erreur) sont extraites automatiquement des données d’apprentissage et ne portent généralement pas ou peu de pouvoir explicatif pour un être humain. On peut donc par exemple disposer d’un formidable classifieur, mais dénué d’éléments permettant de comprendre ce qui a conduit au résultat de sa classification : l’impasse pour de nombreux cas d’usage, notamment les plus critiques.

Va-t-on enfin parler d’IA Causale ?

Si c’est la question que vous vous posez après 3 minutes de lecture d’un article censé faire la part belle à cette branche spécifique de l’IA, rassurez-vous : je me la pose régulièrement !

Qu’est-ce que l’inférence causale ?
Une approche qui, à l’utilisation des données chères au Machine Learning, ajoute une couche de connaissance supplémentaire : celle de l’expert métier. Cet être humain qui, fort de l’expérience dans son domaine, n’a pas ou peu besoin d’un colossal volume de données pour expliquer qu’un événement A conduira à un effet B dans telle condition, ou à un effet C dans une autre.

Figure 2 : Derrière la corrélation des variables, une éventuelle cause. Si l’approche purement data centrique ne permet pas toujours d’identifier cette cause, l’implication d’un expert humain peut faire une réelle différence dans la qualité des modèles.

 

Comment représenter la connaissance d’un expert ?

L’une des approches possibles est l’utilisation de DAG : Directed Acyclic Grapg, des graphiques pouvant localement reboucler sur eux-mêmes, mais globalement toujours proposer une sortie. Un ensemble d’événements conduira toujours à un ou plusieurs effets. Un DAG ne s’emballe pas en proposant un effet final qui réalimentera les événements initiaux.

Notez que la disponibilité d’un expert n’est pas toujours aisée à obtenir : de nombreuses librairies implémentent désormais des méthodes permettant d’estimer les relations causales existants au sein d’un dataset. Leurs approches permettent de dégrossir le travail de création du graphique, mais ne doivent pas dispenser un expert métier d’intervenir à cette étape clef du processus.

Le BNN : le modèle de base

Le réseau de neurones bayésiens (ne vous y trompez pas, on ne parle pas de Deep Learning) ou BNN représente l’approche la plus classique en inférence causale. Sur la base du DAG généré par l’analyse des données et l’implication de l’expertise humaine, une table de probabilité conditionnelle est générée pour soutenir l’apprentissage d’un BNN. Le principe, reposant sur le théorème de Bayes, vise à calculer (ou renseigner par l’humain) la probabilité de voir apparaître un effet donné en face de chaque événement. Toutes les relations du graphique doivent être définies selon cette approche conditionnelle.

Qu’est-ce qu’on y gagne ?

De meilleures performances sur les métriques habituelles ? Généralement non, soyons francs. L’IA causale ne permet pas, à ce jour, de proposer des niveaux de performances supérieurs à ceux du Machine Learning. Généralement, les niveaux de performances sont inférieurs ou équivalents, et plus rarement supérieurs. Alors pourquoi s’y intéresser ?

  1. L’association structure (DAG) – paramètres (Tables) fournit des informations claires, compréhensibles sur la nature des relations entre les variables (sans exploration supplémentaire). Un utilisateur final peut instantanément comprendre quels ont été les événements responsables de l’effet qu’il observe ou qu’on lui prédit en bout de chaîne.
  2. Le jeu du What if… ? Et si un gestionnaire met en place un plan d’action X1 jouant sur les événements A et B, quel en sera l’effet sur la variable cible ? Versus le plan d’action X2 qui lui préfèrent des restrictions sur les événements B et E ? Autrement dit, peut-on estimer de façon fiable l’effet d’une ou plusieurs actions ?
  3. Les scenarii contrefactuels : une spécificité des réseaux bayésiens. Et si l’on pouvait estimer des résultats non observés dans le jeu d’apprentissage? Oui, on peut.
  4. Parce que l’écart de performance entre le Machine Learning et un BNN n’est parfois pas décisif pour le cas d’usage concerné. Il ne s’agit pas d’être le meilleur à détecter les cibles, mais être le meilleur à détecter les raisons pour lesquelles il y a des cibles, et comment en prévenir la présence.

Appliquez ce dernier raisonnement au secteur médical, et vous comprendrez pourquoi une branche de l’IA ne doit surtout pas monopoliser le champ des solutions possiblement implémentables. Le Deep Learning pour la détection des cancers, les BNNs pour l’identification des causes latentes et la production d’outils d’aide à la médication.

Et l’état de l’art ?

Rendons à César ce qui est à César : en un clic découvrez une vue relativement complète de jeux de données relatives à la causalité, d’outils, de tutoriaux, d’ouvrages, de cours, d’articles, etc.

Si l’IA Causale ne brille encore pas suffisamment à côté de sa cousine neuronale, il est certain qu’une partie de la communauté scientifique et de nombreux convaincus travaillent à l’évangélisation de cette approche. Sur le seul plan des outils disponibles pour développer une IA Causale, nous citerons :

  • DoWhy : Une librairie python tout droit sortie des laboratoires Microsoft, et dédiée à l’inférence causale, en 4 étapes.
  • CausalNex : Une boîte à outils accessible en Python, et dédiée au développement de réseaux bayésiens. Coup de chapeau à QuantumBlack pour cette réalisation.
  • DiCE : Focus sur les exemples contrefactuels avec cette librairie Python. L’idée est d’obtenir d’un algorithme de Machine Learning une explication qui ait du sens pour l’être humain en lui opposant une approche causale.

En plus des travaux facilitant la prise en main des méthodes bayésiennes par le plus grand nombre, de nombreuses recherches portent sur l’évolution des bases théorisées : hybridation entre logique floue et approche bayésienne, réseaux bayésiens dynamiques (pour intégrer la dimension temporelle et donc l’impact de l’état de l’effet final comme condition initiale au temps suivant), approche bayésienne appliquée aux images ou à l’optimisation des modèles de Deep Learning… Les obstacles sur la route de la démocratisation de l’intelligence artificielle sauront-ils y résister ?

Nous proposerons dans un prochain article une confrontation Machine Learning vs IA Causale, en utilisant l’une de ces librairies. En attendant, vous pouvez poursuivre votre lecture par l’un des autres articles rédigés par l’équipe ou par une discussion à l’occasion d’un échange.

Pour en savoir plus…

Si vous êtes curieux sur les applications d’algorithmes génétiques réalisés chez Scalian, ainsi que de nos projets autours du développement et l’optimisation de modèles Machine et Deep Learning, n’hésitez pas à rejoindre notre communauté.

Je m’inscris

BNN deep learning IA machine learning réseau de neurones bayésiens