Google LIMoE : un pas vers l’objectif d’une IA unique


Google a annoncé une nouvelle technologie appelée LIMoE qui, selon lui, représente une étape vers l’atteinte de l’objectif de Google d’une architecture d’IA appelée Pathways.

Pathways est une architecture d’IA qui est un modèle unique qui peut apprendre à effectuer plusieurs tâches actuellement effectuées en utilisant plusieurs algorithmes.

LIMoE est un acronyme qui signifie Apprentissage multimodalité avec un modèle de mélange d’experts clairsemé. C’est un modèle qui traite la vision et le texte ensemble.

Bien qu’il existe d’autres architectures qui font des choses similaires, la percée réside dans la façon dont le nouveau modèle exécute ces tâches, en utilisant une technique de réseau neuronal appelée le modèle épars.

Le modèle clairsemé est décrit dans un document de recherche de 2017 qui a introduit l’approche de la couche Mixture-of-Experts (MoE), dans un document de recherche intitulé, Réseaux de neurones incroyablement grands : la couche de mélange experte vaguement fermée.

Le modèle clairsemé diffère des modèles “épais” en ce que, plutôt que de dédier chaque partie du modèle à l’accomplissement d’une tâche, le modèle clairsemé attribue la tâche à plusieurs “experts” qui se spécialisent dans une partie de la tâche.

Cela réduit le coût de calcul, ce qui rend le modèle plus efficace.

Ainsi, de la même manière qu’un cerveau voit un chien et sait que c’est un chien, que c’est un carlin et que le carlin présente un pelage fauve argenté, ce modèle peut également voir une image et effectuer la tâche de la même manière. . , attribuant des tâches de calcul à différents experts spécialisés dans la tâche de reconnaître un chien, sa race, sa couleur, etc.

Le modèle LIMoE achemine les problèmes vers des “experts” spécialisés dans une tâche particulière, obtenant des résultats similaires ou meilleurs que les approches actuelles de résolution de problèmes.

Une caractéristique intéressante du modèle est la façon dont certains experts se spécialisent principalement dans le traitement d’images, d’autres se spécialisent principalement dans le traitement de texte et certains experts se spécialisent dans les deux.

La description par Google du fonctionnement de LIMoE montre qu’il existe un expert des yeux, un autre des roues, un expert des textures rayées, des textures unies, des mots, des poignées de porte, de la nourriture et des fruits, de la mer et du ciel, et un expert des images végétales. .

L’annonce du nouvel algorithme décrit ces experts :

« Il existe également des modèles qualitatifs clairs parmi les experts en imagerie ; par exemple, dans la plupart des modèles LIMoE, un expert traite tous les patchs d’image contenant du texte. … un expert traite la faune et la végétation, et un autre traite les mains humaines ».

Des experts spécialisés dans différentes parties des problèmes offrent la possibilité d’évoluer et d’effectuer avec précision de nombreuses tâches différentes, mais à un coût de calcul inférieur.

Le document de recherche résume ses conclusions :

  • « Nous proposons LIMoE, le premier mix multimodal à grande échelle de modèles experts.
  • Nous démontrons en détail comment les approches précédentes pour régulariser le mélange de modèles experts ne suffisent pas à l’apprentissage multimodal, et nous proposons un nouveau schéma de régularisation basé sur l’entropie pour stabiliser la formation.
  • Nous montrons que LIMoE se généralise à toutes les échelles d’architecture, avec des améliorations relatives de la précision d’ImageNet à déclenchement nul allant de 7 % à 13 % par rapport aux modèles denses équivalents.
  • Étendu plus loin, LIMoE-H / 14 atteint une précision ImageNet à déclenchement zéro de 84,1%, comparable aux modèles contrastifs SOTA avec des backbones pré-formés et per-modaux.

Matchs à la pointe de la technologie

De nombreux articles de recherche sont publiés chaque mois. Mais seuls quelques-uns sont présentés par Google.

Google met généralement en avant la recherche parce qu’elle réalise quelque chose de nouveau, en plus d’être à la pointe de la technologie.

LIMoE réalise cet exploit d’obtenir des résultats comparables aux meilleurs algorithmes d’aujourd’hui, mais il le fait plus efficacement.

Les chercheurs mettent en avant cet avantage :

« Dans la classification d’images sans prise de vue, LIMoE surpasse à la fois les modèles multimodaux denses comparables et les approches à deux tours.

Le plus grand LIMoE atteint une précision ImageNet sans déclenchement de 84,1 %, comparable aux modèles de dernière génération plus chers.

La parcimonie permet à LIMoE d’évoluer avec élégance et d’apprendre à gérer des entrées très différentes, en abordant la tension entre être un généraliste touche-à-tout et un spécialiste maître d’un.

Les résultats positifs de LIMoE ont conduit les chercheurs à observer que LIMoE pourrait être une voie à suivre pour parvenir à un modèle généraliste multimodal.

Les chercheurs ont observé :

“Nous pensons que la capacité à construire un modèle généraliste avec des composants spécialisés, qui peuvent décider de la manière dont différentes modalités ou tâches doivent interagir, sera essentielle pour créer des modèles multitâches véritablement multimodaux qui excellent dans tout ce qu’ils font.

LIMoE est un premier pas prometteur dans cette direction.

Lacunes potentielles, préjugés et autres problèmes éthiques

Il y a des lacunes dans cette architecture qui ne sont pas discutées dans l’annonce de Google, mais qui sont mentionnées dans le document de recherche lui-même.

Le document de recherche souligne que, comme d’autres modèles à grande échelle, LIMoE peut également introduire un biais dans les résultats.

Les chercheurs disent qu’ils n’ont pas encore abordé “explicitement” les problèmes inhérents aux modèles à grande échelle.

Ils écrivent:

“Les dommages potentiels des modèles à grande échelle…, des modèles contrastifs… et des données multimodales à l’échelle du Web… sont également reportés ici, car LIMoE ne les traite pas explicitement.”

La déclaration ci-dessus fait référence (dans un lien de note de bas de page) à un document de recherche de 2021 intitulé, Sur les opportunités et les risques des modèles de fondation (PDF ici).

Ce document de recherche de 2021 met en garde contre la façon dont les technologies émergentes d’IA peuvent avoir un impact social négatif tel que :

“… iniquité, mauvaise utilisation, impact économique et environnemental, considérations juridiques et éthiques.”

Selon l’article cité, des problèmes éthiques peuvent également découler de la tendance à l’homogénéisation des tâches, qui peut alors introduire un point de défaillance qui se reproduit ensuite dans d’autres tâches qui suivent en aval.

Le document de recherche sur les avertissements indique :

« L’importance des modèles de base se résume en deux mots : émergence et homogénéisation.

L’émergence signifie que le comportement d’un système est implicitement induit plutôt qu’explicitement construit ; c’est à la fois une source d’enthousiasme scientifique et d’inquiétude face à des conséquences imprévues.

L’homogénéisation indique la consolidation des méthodologies pour construire des systèmes d’apprentissage automatique dans un large éventail d’applications ; il fournit un puissant effet de levier pour de nombreuses tâches, mais il crée également des points de défaillance uniques.

Un domaine de prudence est l’IA liée à la vision.

Le document de 2021 indique que l’omniprésence des caméras signifie que toute avancée dans l’IA liée à la vision pourrait comporter un risque concomitant d’application de la technologie de manière imprévue, ce qui pourrait avoir un “impact perturbateur” même en ce qui concerne la vie privée et la surveillance. .

Un autre récit édifiant lié aux progrès de l’IA liée à la vision concerne les problèmes de précision et de biais.

Ils notent :

“Il existe une histoire bien documentée de biais appris dans les modèles de vision par ordinateur, entraînant des précisions plus faibles et des erreurs corrélées pour les groupes sous-représentés, conduisant à un déploiement inapproprié et prématuré dans certains contextes réels.”

Le reste du document documente comment les technologies d’IA peuvent apprendre les préjugés existants et perpétuer les inégalités.

“Les modèles de base ont le potentiel de générer des résultats inéquitables : le traitement injuste des personnes, en particulier en raison d’une répartition inégale selon des lignes qui aggravent la discrimination historique…. Comme tout système d’IA, les modèles de base peuvent exacerber les inégalités existantes en produisant des résultats injustes, en enracinant les systèmes de pouvoir et en distribuant de manière disproportionnée les conséquences négatives de la technologie parmi ceux qui sont déjà marginalisés… »

Les chercheurs du LIMoE ont noté que ce modèle particulier peut éviter certains des préjugés contre les groupes sous-représentés en raison de la nature de la spécialisation des experts dans certaines choses.

Ces types de résultats négatifs ne sont pas des théories, ce sont des réalités et ont déjà eu un impact négatif sur des vies dans des applications du monde réel telles que biais injustes fondés sur la race introduits par les algorithmes de recrutement.

Les auteurs de l’article du LIMoE reconnaissent ces lacunes potentielles dans un bref paragraphe qui sert d’avertissement.

Mais ils soulignent également qu’il pourrait être possible de remédier à certains des biais avec cette nouvelle approche.

Ils ont écrit:

“… la capacité de mettre à l’échelle des modèles avec des experts qui peuvent se spécialiser profondément peut entraîner de meilleures performances dans les groupes sous-représentés.”

Enfin, un attribut clé de cette nouvelle technologie qu’il convient de noter est qu’il n’y a pas d’utilisation explicite établie pour elle.

Il s’agit simplement d’une technologie capable de traiter efficacement les images et le texte.

Comment elle peut être appliquée, si jamais elle est appliquée sous cette forme ou sous une forme future, n’est jamais abordée.

Et c’est un facteur important qui est soulevé dans le document d’avertissement (Opportunités et risques des modèles de fondation)il attire l’attention parce que les chercheurs créent des capacités pour l’IA sans tenir compte de la façon dont elles peuvent être utilisées et de l’impact qu’elles peuvent avoir sur des questions telles que la confidentialité et la sécurité.

« Les modèles de fondation sont des actifs intermédiaires sans finalité précise avant d’être adaptés ; comprendre leurs dommages nécessite de raisonner sur leurs propriétés et le rôle qu’ils jouent dans la construction de modèles spécifiques à la tâche.

Toutes ces mises en garde sont omises de l’article publicitaire de Google, mais sont mentionnées dans la version PDF du document de recherche.

Architecture d’IA Pathways et LIMoE

Le texte, les images, les données audio sont appelés modalités, différents types de données ou spécialisation de tâche, pour ainsi dire. Les modalités peuvent également désigner le langage parlé et les symboles.

Ainsi, lorsque vous voyez l’expression « multimodal » ou « modalités » dans des articles scientifiques et des documents de recherche, ils font généralement référence à différents types de données.

L’objectif ultime de Google pour l’IA est ce qu’il appelle l’architecture Pathways Next Generation AI.

Pathways représente une évolution des modèles d’apprentissage automatique qui font très bien une chose (nécessitant ainsi des milliers d’entre eux) vers un modèle unique qui fait tout très bien.

Pathways (et LIMoE) est une approche multimodale de la résolution de problèmes.

Il est décrit comme ça:

« Les gens comptent sur plusieurs sens pour percevoir le monde. C’est très différent de la façon dont les systèmes d’IA contemporains digèrent l’information.

La plupart des modèles actuels ne traitent qu’une seule modalité d’information à la fois. Ils peuvent prendre du texte, des images ou de la voix, mais généralement pas les trois à la fois.

Pathways pourrait activer des modèles multimodaux qui couvrent simultanément la compréhension visuelle, auditive et linguistique. »

Ce qui rend LIMoE important, c’est qu’il s’agit d’une architecture multimodale que les chercheurs appellent “…une étape importante vers la vision de Pathways…

Les chercheurs décrivent LIMoE comme «marcher” parce qu’il y a encore du travail à faire, notamment en explorant comment cette approche peut fonctionner avec des modalités au-delà des images et du texte.

Ce document de recherche et l’article de synthèse qui l’accompagne montrent où vont les recherches sur l’IA de Google et comment elles y arrivent.


Devis

Lire l’article de synthèse de Google sur LIMoE

LIMoE : Apprentissage multimodal avec un modèle de mélange expert clairsemé

Téléchargez et lisez le document de recherche LIMoE

Apprentissage multimodal contrastif avec LIMoE : le mix langage-image des experts (PDF)

Image de Shutterstock/SvetaZi





Cet article a été traduit par searchenginejournal

Laisser un commentaire