Pourquoi la diversité linguistique doit être au cœur de l'avenir de l'IA

Publié le
25.09.2025
Contributeur
Martin Tisné
Partager
Catégorie

Chers amis,

J’espère que vous allez bien. Je suis heureux de vous faire part de quelques nouveautés concernant Current AI et de revenir plus en détail sur notre travail en matière de diversité linguistique.

Depuis mon dernier message, nous avons concentré nos efforts à la fois sur la mise en place de Current AI et sur le lancement de nos programmes. Concrètement, cela s’est traduit par un intense travail de construction d’équipe, du recrutement de notre premier·ère Directeur·rice général·e (CEO) et des membres de notre Conseil fondateur, à l'arrivée de nos premier·e·s collaborateur·rice·s permanent·e·s. Merci infiniment à vous toutes et tous, très nombreux, qui avez partagé notre offre pour le poste de CEO. Nous venons tout juste d’ouvrir au recrutement nos premiers postes de Responsable de Programme et de Responsable Finance et Opérations. N’hésitez pas à partager ces offres avec toute personne de votre réseau susceptible d’être intéressée.

Nous avons travaillé en étroite collaboration avec nos partenaires pays afin justement d’officialiser ces partenariats, en formalisant par exemple notre partenariat avec le gouvernement du Maroc, et nous nous sommes enregistrés en tant qu’association à but non lucratif. Côté programmes, nous avons sélectionné trois programmes pilotes sur lesquelles nous allons commencer à travailler : la diversité linguistique, la santé et le bien-être humain, et l’audit et la redevabilité. Avant le lancement officiel de ces programmes pilotes, nous avons souhaité prendre le temps de nous pencher plus en détail sur le sujet crucial de la diversité linguistique. Pour que l’innovation locale réponde réellement aux besoins locaux, il sera nécessaire d’entraîner les modèles dans les langues locales.

La diversité linguistique est vitale pour la réussite d’une IA au service de l’intérêt général. Les systèmes d’IA peuvent aider à diagnostiquer des maladies à partir de l’imagerie médicale et écrire du code dans des dizaines de langages de programmation. Mais demandez-leur de comprendre comment les guérisseurs traditionnels en Afrique du Sud classifient les symptômes, ou comment les communautés des îles du Pacifique gèrent leur adaptation aux changements climatiques : vous vous heurterez à un mur.

Malgré les progrès rapides de la technologie, la plupart des systèmes d’IA sont entraînés en anglais et dans une poignée d’autres langues dominantes, laissant d’innombrables autres langues sans représentation significative. Le monde est multilingue, multiculturel et complexe. C’est pourquoi la diversité linguistique doit être au cœur du développement de l’IA, afin qu’elle incarne cette réalité.

Pour approfondir ce sujet fascinant, j’ai demandé à deux de nos partenaires, Vidushi Marda  d’AI Collaborative et Lori McGlinchey de la Fondation Ford, de nous livrer leur regard sur l’importance de la diversité linguistique dans l’IA, ainsi que sur la valeur ajoutée que Current AI peut apporter en la matière.

Pourquoi devrions-nous nous soucier de la diversité linguistique dans l’IA ?

Lori: Il existe actuellement plus de 7000 langues parlées et peut-être plus de 300 langues des signes distinctes qui véhiculent et transmettent le patrimoine culturel et intellectuel collectif de l’humanité. Nos langues contribuent à façonner notre vision du monde. Les langues parlées et signées sont complexes et pleines de nuance. Elles évoluent avec le temps. Pourtant, l’intelligence artificielle est fortement biaisée en faveur d’une poignée de langues dominantes, ce qui n’est pas sans conséquences pour l’épanouissement humain. Une quantité significative de données utilisées pour entraîner la plupart des modèles d’IA provient d’Internet. L’anglais représente une part disproportionnellement grande de ces contenus en ligne, ce qui en fait la langue la plus accessible et la plus abondante pour l’entraînement des IA.

Ainsi, pour celles et ceux qui considèrent que l’IA peut réellement être une force de transformation positive, il est indispensable de prendre au sérieux le défi d’une véritable diversité linguistique. Lorsque la poignée de sociétés qui conçoivent des systèmes d’IA donnent la priorité aux langues dominantes, elles laissent de côté des cadres entiers utilisés par les individus et les communautés pour comprendre le monde. Actuellement, l’industrie dominante de l’IA suit le modèle du fast-food : on gagne peut-être en taille, en vitesse, en commodité, mais on sacrifie la richesse et la diversité culturelles.

Quelle est l’ampleur de la fracture linguistique ?

Vidushi: 96% des langues sont parlées par moins d’un million de personnes chacune, et elles sont systématiquement sous-représentées dans l’infrastructure et les applications de l’IA. Sans cette infrastructure essentielle, les langues sous-représentées, et par ricochet, les communautés, restent à l’écart des progrès de l’IA. Résultat, pour la majorité du monde : l’IA passe systématiquement à côté du contexte et gomme les nuances. Prenons l’exemple des soins de santé : une IA pourrait complètement manquer la manière dont, dans certaines cultures, on exprime la douleur ou décrit les symptômes, et ainsi entraîner des erreurs de diagnostic. Ou alors, dans un contexte juridique, elle pourrait ne pas saisir comment les communautés autochtones organisent l’autorité et la prise de décision. La fracture n’est ici plus seulement linguistique : elle s’étend au contexte culturel et communautaire.

Quelle est la voie à suivre ?

Lori : Small is beautiful ! (Le petit, c’est puissant !) : Il existe déjà un écosystème mondial de petits développeurs de technologies linguistiques qui construisent une infrastructure permettant aux communautés de constituer leurs propres ensembles de données, de définir des références adaptées à leur culture et de conserver la maîtrise de la représentation de leurs langues dans l’IA. Voilà exactement pourquoi nous avons fait de la diversité linguistique notre premier programme pilote. Par exemple, la Fédération Huniki est une coopérative de startups de l’IA spécialisées dans les langues africaines qui propose des services multilingues de haut niveau à destination des locuteurs de langues africaines sous-représentées et des acteurs qui souhaitent communiquer avec eux.

Les membres de la Fédération Huniki embauchent et travaillent avec des personnes de leurs communautés locales, offrant aux utilisateurs une technologie d’IA qui reflète la diversité des langues africaines. Cela renforce les capacités des startups de la tech utilisant des langues sous-représentées et soutient les économies locales, tout en donnant aux populations accès à des modèles de technologies linguistiques de meilleure qualité. En tant que fédération de plusieurs organisations, Huniki est capable de proposer une interface unique pour répondre aux besoins des utilisateurs en permettant à chaque startup de conserver son indépendance, tout en partageant données et ressources.

Pourquoi maintenant ?

Vidushi : Les modèles multilingues surpassent souvent les modèles monolingues, y compris dans des langues dominantes comme l’anglais. Nous le constatons déjà en Afrique, où de nouveaux ensembles de données couvrant plusieurs langues locales montrent que l’IA entraînée de cette manière saisit plus efficacement les nuances culturelles et produit de meilleurs résultats que les modèles basés uniquement sur l’anglais. La diversité linguistique n’est pas une œuvre de charité, mais une exigence fondamentale pour que les systèmes d’IA fonctionnent dans différents contextes : c’est un avantage compétitif. Chez Current AI, nous voulons renforcer les initiatives visant à développer une IA au service de l’intérêt général. Et la diversité linguistique est une brique essentielle de cette vision.

Les perspectives partagées par Lori et Vidushi mettent en évidence notre choix de faire de la diversité linguistique l’objet de notre premier programme pilote, et comment il s’articule avec le travail plus vaste que nous menons chez Current AI. J’ai déjà hâte de vous en dire plus en temps voulu.

Merci de nous suivre dans cette aventure.

Martin Tisné

Read more of Current AI's latest updates

Update
18.11.2025

SPRIND et Current AI lancent un Data Challenge franco-allemand en matière de santé

Nouvelle annonce de partenariat mondial
Read more
Update
24.06.2025

Trois programmes pilotes pour tester notre approche en 2025

Current AI lancera trois programmes pilotes pour tester différentes manières de mettre l’intelligence artificielle au service de l’intérêt général.
Read more
Newsletter
16.05.2025

Construire l'avenir de l'IA pour l’intérêt général

Lorsque nous avons lancé Current AI à l’occasition du Sommet pour l'action sur l'Intelligence Artificielle à Paris, l’ambition et l’élan était partagés.
Read more