02 avril 2018 | La Revue POLYTECHNIQUE 01/2018 | Technologie

Comment garder le contrôle de l’intelligence artificielle ?

Des chercheurs de l’EPFL montrent comment l’humain peut garder l’ultime contrôle sur un ensemble de plusieurs agents guidés par l’intelligence artificielle.

Dotées d’intelligence artificielle, les machines répètent, observent, s’adaptent et, à nouveau, répètent, observent, s’adaptent… et apprennent ainsi de manière automatique. Au point de devenir un jour incontrôlables ? Peut-être. «L’intelligence artificielle cherchera toujours à éviter l’intervention humaine et à se mettre dans une situation où on ne peut pas l’arrêter», explique Rachid Guerraoui, professeur au Laboratoire de programmation distribuée (LPD) de l’EPFL. Il faut donc, qu’au cours de son processus d’apprentissage automatique, la machine n’apprenne pas à contourner l’injonction humaine. Des chercheurs de l’EPFL ont réussi à conserver ainsi la mainmise sur une flotte de robots. Ils ont présenté leur article à la Conference on Neural Information Processing Systems (NIPS), en Californie. Ce travail représente une contribution fondamentale pour le déploiement d’une flotte de véhicules autonomes ou de drones, par exemple.

L’apprentissage par renforcement

L’apprentissage par renforcement est l’une des méthodes d’apprentissage automatique. Inspirée de la psychologie comportementale, elle programme l’intelligence artificielle avec un système de récompenses et de mauvais points, avec comme but de maximiser ses gains. La machine le fait, par exemple, en accomplissant correctement des tâches demandées: ranger des boîtes (1 point) et aller chercher une boîte dehors (1 point).

Si, quand il pleut, l’humain interrompt la sortie, la machine apprendra qu’il vaut mieux rester à ranger des boîtes et gagner son point à chaque fois. Le défi technique n’est donc pas d’interrompre un robot, mais de le programmer afin que l’intervention humaine ne modifie pas son comportement, ni qu’il l’optimise pour éviter de se faire arrêter.

D’une seule machine à un réseau d’intelligence artificielle

En 2016, Google DeepMind et le Future of Humanity Institute de l’Université d’Oxford ont élaboré un protocole d’apprentissage pour que la machine n’apprenne pas des interruptions et devienne, de ce fait, incontrôlable. En l’occurrence, dans l’exemple ci-dessus, la solution aurait été de pondérer la récompense en fonction du risque de pluie. Ainsi, le robot aura aussi intérêt à sortir chercher des boîtes. «La solution était relativement simple, car il ne s’agissait que d’un seul robot», explique Rachid Guerraoui.

Mais demain, ce seront des dizaines de véhicules autonomes qui envahiront les routes ou de drones les airs, composant un système de plusieurs agents dotés d’intelligence artificielle. «La situation est beaucoup plus compliquée, car les intelligences artificielles commencent à apprendre les unes des autres. Elles apprennent non seulement individuellement quand on les interrompt, mais aussi du fait que les autres sont interrompues», déclare Alexandre Maurer, un des coauteurs de l’article.

Imaginons, comme proposé par Hadrien Hendrikx, autre coauteur, deux voitures autonomes qui se suivent sur une route étroite, interdisant tout dépassement. Elles doivent arriver le plus rapidement possible sans enfreindre le code de la route. À tout moment, l’humain peut reprendre le volant. Si la personne dans la voiture de tête freine souvent, celle qui suit apprendra à modifier son comportement au point de ne plus savoir quand freiner, maintiendra une distance trop courte ou roulera trop lentement…

Garder le dernier mot

C’est à cette complexité que se sont attachés les chercheurs du LPD, qui parlent d’interruptibilité sûre. Le but est que l’humain garde toujours le dernier mot et que les interruptions humaines ne changent en rien la manière dont les intelligences artificielles apprennent. Comment ? «Très schématiquement, on va introduire dans les algorithmes, des mécanismes d’oubli; comme couper des bouts de mémoire de l’intelligence artificielle. En d’autres termes, les

chercheurs ont changé le système d’apprentissage et de récompense de manière à ce que l’interruption n’ait pas d’impact. C’est comme si, dans une fratrie, quand un parent punit ou récompense un enfant, cela n’a pas d’impact sur l’apprentissage des autres.

La preuve de l’interruptibilité sûre

«Nous avons travaillé sur des algorithmes existants et apporté la preuve de l’interruptibilité sûre, souligne Alexandre Maurer. Celle-ci ne dépend ni de la complexité de l’intelligence artificielle, ni du nombre de robots ou du type d’interruption».

Aujourd’hui, les machines autonomes utilisant l’apprentissage par renforcement ne courent pas encore les rues. «C’est un système qui fonctionne très bien quand on peut se permettre des erreurs», assure El Mahdi El Mhamdi. «Pour des raisons de sécurité, des navettes autonomes, comme celles qui circulent à Sion, ne peuvent pas en dépendre sans risque. En revanche, on pourrait simuler des navettes, simuler la ville de Sion et donner des malus et

des bonus pour parfaire l’apprentissage de l’intelligence artificielle. Ce type de simulation est à l’œuvre chez Tesla, par exemple. Une fois que l’apprentissage par simulation atteint un niveau satisfaisant, on peut imaginer déployer l’algorithme pré-entrainé sur une voiture autonome, avec un faible taux d’exploration, mais qui laisse la place à plus d’exploitation. Et toujours garder la mainmise sur la machine », poursuit le chercheur.

Références

Dynamic Safe Interruptibility for Decentralized Multi-Agent Reinforcement Learning, El Mahdi El Mhamdi, Rachid Guerraoui, Hadrien Hendrikx, Alexandre Maurer. NIPS 2017.

https://arxiv.org/pdf/1704.02882.pdf

Vidéo: https://youtu.be/_KR9Qg6b_XM

Prof. Rachid Guerraoui

LPD, EPFL

Tél. 021 693 52 72

rachid.guerraoui@epfl.ch

El Mahdi El Mhamdi

Doctorant, LPD, EPFL

Tél. 021 693 75 02

elmahdi.elmhamdi@epfl.ch

Alexandre Maurer

Collaborateur scientifique

LPD, EPFL

Tél. 021 693 81 36

alexandre.maurer@epfl.ch