Des abonnements
pour l'enrichissement
02 septembre 2025 | La Revue POLYTECHNIQUE | Intelligence artificielle

Apertus, l’IA ouverte de l’EPFL : conformité des données, multilinguisme et transparence

Apertus est une suite de modèles de langage ouverte développée sous l’égide de l’EPFL pour concilier performance, transparence et conformité des données. Elle repose sur un entraînement massif multilingue qui accorde une place inhabituelle aux langues peu dotées, puis sur un post-entraînement couvrant de nombreuses langues pour améliorer l’interaction. L’architecture est un transformeur décodeur dense, proposée en deux tailles — environ huit et soixante-dix milliards de paramètres — avec contexte étendu, optimisations d’entraînement et mécanismes visant à limiter la mémorisation verbatim. La chaîne de préparation des corpus applique des règles strictes de gouvernance documentaire, de respect des licences et de retrait rétroactif des sources non autorisées. Les auteurs publient les poids, les scripts, les pipelines et les jeux d’évaluation, afin de permettre audit, réplication et adaptation aux cas d’usage. Les résultats se montrent compétitifs sur des bancs multilingues et régionaux, tout en rappelant les limites inhérentes aux modèles génératifs et la nécessité d’un alignement spécifique avant déploiement.

Pourquoi Apertus ?

Apertus est une suite de modèles de langage conçue par un consortium mené par l’EPFL, avec des partenaires suisses et européens, pour répondre à deux limites structurelles des modèles ouverts : la conformité d’usage des données et la représentation des langues peu dotées. Les modèles sont entraînés sur quinze mille milliards de tokens, couvrant mille huit cent onze langues, avec environ quarante pour cent des données non anglophones. Ils existent en deux tailles, huit et soixante-dix milliards de paramètres. L’ensemble des artefacts scientifiques est publié pour audit et reproduction, depuis les scripts de préparation des données jusqu’aux jeux d’évaluation. « Apertus » signifie « ouvert », et l’approche revendique la transparence de bout en bout.

Conformité : « robots.txt avec rétroviseur » et hygiène des corpus

La préparation des données applique une politique stricte : retrait rétroactif des contenus dont les éditeurs ont bloqué l’exploration par robots.txt, filtrage des licences non permissives, anonymisation des informations personnelles, réduction de la toxicité. Les auteurs décrivent un mécanisme « avec rétroviseur » qui réapplique, au moment du tri des corpus, les politiques d’exclusion en vigueur en janvier deux mille vingt-cinq à des captures antérieures ; la perte estimée est d’environ huit pour cent des tokens en anglais et quatre pour cent en multilingue.

Architecture : un transformeur dense optimisé pour l’efficacité

Apertus repose sur un transformeur décodeur dense modernisé : normalisation RMS en pré-norme, attention à requêtes groupées pour l’inférence, embeddings rotatifs, et surtout une fonction d’activation xIELU couplée à une normalisation des clés et requêtes (QK-Norm) pour stabiliser l’entraînement à grande échelle. Les deux variantes (8B et 70B) supportent des contextes étendus jusqu’à soixante-cinq mille cinq cent trente-six tokens.

Recette d’entraînement : efficacité, mémorisation maîtrisée et long contexte

La recette combine un plan de taux d’apprentissage « Warmup-Stable-Decay », l’optimiseur AdEMAMix et une perte dite « Goldfish » qui masque une fraction des tokens afin de limiter la mémorisation verbatim, sans dégrader les performances en tâches aval. Des ablations montrent des gains de stabilité et une perte équivalente obtenue avec trente à quarante pour cent de tokens en moins par rapport à une base de type Llama. L’extension long contexte s’effectue par étapes pour atteindre soixante-cinq mille tokens.

Multilinguisme et post-entraînement

Au-delà du pré-entraînement massif (1811 langues), le post-entraînement ajoute des données d’instruction et de préférence couvrant cent quarante-neuf langues pour améliorer l’interaction. Cette priorité au multilinguisme vise explicitement les langues peu dotées, rarement considérées à large échelle dans les modèles ouverts.

Évaluation et performances

Les auteurs suivent des suites d’évaluation étendues, en anglais et multilingues, incluant des jeux régionaux et culturels. Les courbes montrent une progression compétitive des modèles 8B et 70B au fil des checkpoints ; les résultats agrégés indiquent des scores de pointe parmi les modèles entièrement ouverts de taille comparable, notamment sur des bancs multilingues, et de solides résultats sur des ensembles régionaux, dont SwitzerlandQA.

Limites et précautions d’usage

Le rapport rappelle que, malgré les tests de sécurité, un modèle de langage peut encore halluciner, produire des réponses toxiques ou se dégrader en génération ; Apertus est un système texte-uniquement et nécessite un alignement au cas d’usage et des tests supplémentaires avant déploiement.

Ouverture et reproductibilité

Au-delà des poids, la publication comprend les pipelines de données, les scripts, les checkpoints intermédiaires et les suites d’évaluation. L’objectif est de permettre l’audit, la réplication et l’extension, en conformité avec les exigences réglementaires émergentes, notamment européennes.

En résumé pour les lecteurs de la RP

Apertus propose une voie « ouverte » et vérifiable pour les grands modèles : gouvernance des données traçable, prévention de la mémorisation, attention prioritaire au multilinguisme et documentation exhaustive. Pour des équipes techniques, cela signifie des modèles 8B et 70B transparents, adaptés aux environnements plurilingues, avec un long contexte exploitable et une chaîne de construction auditable de bout en bout.

Comment accéder à Apertus

Apertus est disponible gratuitement en deux tailles – comportant 8 milliards et 70 milliards de paramètres, le modèle plus petit étant plus adapté à un usage individuel. Les deux modèles sont publiés sous une licence open source permissive, permettant une utilisation dans l’éducation et la recherche ainsi que dans de larges applications sociétales et commerciales.

Le déploiement des modèles est soutenu via les versions les plus récentes de TransformateursvLLM, SGLang et MLX, permettant d'exécuter les modèles sur de nombreux appareils.