社会

Cette organisation allemande à but non lucratif construit un assistant vocal ouvert que tout le monde peut utiliser

Il y a eu de nombreuses tentatives d'assistants vocaux alimentés par l'IA en open source (voir Rhasspy, Mycroft et Jasper, pour n'en citer que quelques-uns) - tous établis dans le but de créer des expériences hors ligne préservant la vie privée qui ne compromettent pas la fonctionnalité. Mais le développement s'est avéré extraordinairement lent. C'est parce que, en plus de tous les défis habituels liés aux projets open source, programmer un assistant est difficile. Des technologies comme Google Assistant, Siri et Alexa ont des années, voire des décennies, de R&D derrière elles - et une énorme infrastructure en prime.

Mais cela n'empêche pas les gens du réseau d'intelligence artificielle à grande échelle (LAION), l'organisation à but non lucratif allemande chargée de maintenir certains des ensembles de données de formation en IA les plus populaires au monde. Ce mois-ci, LAION a annoncé une nouvelle initiative, BUD-E, qui vise à construire un assistant vocal “entièrement ouvert” capable de fonctionner sur du matériel grand public.

Pourquoi lancer un tout nouveau projet d'assistant vocal alors qu'il en existe d'innombrables autres dans divers états d'abandon? Wieland Brendel, chercheur à l'Institut Ellis et contributeur de BUD-E, estime qu'il n'existe pas d'assistant ouvert avec une architecture assez extensible pour tirer pleinement parti des technologies émergentes de l'IA générative, en particulier les grands modèles de langage (LLM) du type de ChatGPT d'OpenAI.

“La plupart des interactions avec [les assistants] reposent sur des interfaces de chat assez compliquées à utiliser, [et] les dialogues avec ces systèmes semblent figés et artificiels“, a déclaré Brendel à TechCrunch lors d'une interview par email. “Ces systèmes sont OK pour transmettre des commandes pour contrôler votre musique ou allumer la lumière, mais ils ne constituent pas une base pour des conversations longues et engageantes. L'objectif de BUD-E est de fournir la base d'un assistant vocal beaucoup plus naturel pour les humains, qui imite les schémas de parole naturels des dialogues humains et se souvient des conversations passées.”

Brendel a ajouté que LAION souhaite également garantir que chaque composant de BUD-E puisse éventuellement être intégré avec des applications et des services sans licence, même commercialement - ce qui n'est pas nécessairement le cas pour d'autres initiatives d'assistants ouverts.

Une collaboration avec l'Institut Ellis à Tübingen, le cabinet de conseil en technologie Collabora et le Tübingen AI Center, BUD-E - abréviation récursive de “Buddy for Understanding and Digital Empathy” - a une feuille de route ambitieuse. Dans un article de blog, l'équipe de LAION expose ce qu'elle espère accomplir dans les prochains mois, en construisant principalement une “intelligence émotionnelle” dans BUD-E et en s'assurant qu'il peut gérer des conversations impliquant plusieurs interlocuteurs à la fois.

“Il y a un grand besoin d'un assistant vocal naturel qui fonctionne bien“, a déclaré Brendel. “LAION a montré par le passé qu'il est excellent pour construire des communautés, et l'Institut ELLIS de Tübingen et le Centre d'IA de Tübingen s'engagent à fournir les ressources nécessaires pour développer l'assistant.”

BUD-E est opérationnel - vous pouvez le télécharger et l'installer aujourd'hui depuis GitHub sur Ubuntu ou un PC Windows (macOS arrive) - mais il est très clairement encore au stade précoce.

LAION a assemblé plusieurs modèles ouverts pour constituer un MVP, notamment le LLM Phi-2 de Microsoft, le système text-to-speech StyleTTS2 de Columbia et le FastConformer de Nvidia pour la conversion de la parole en texte. En tant que tel, l'expérience est un peu non optimisée. Pour que BUD-E réponde aux commandes en environ 500 millisecondes - dans la plage des assistants vocaux commerciaux comme Google Assistant et Alexa - un GPU puissant comme le RTX 4090 de Nvidia est nécessaire.

Collabora travaille gratuitement pour adapter ses modèles de reconnaissance vocale et de conversion de texte en parole open source, WhisperLive et WhisperSpeech, pour BUD-E.

“Le fait de construire les solutions de texte en parole et de reconnaissance vocale nous-mêmes signifie que nous pouvons les personnaliser à un degré qui n'est pas possible avec des modèles fermés exposés par le biais d'APIs“, a déclaré Jakub Piotr Cłapa, chercheur en IA chez Collabora et membre de l'équipe de BUD-E, dans un email. “Collabora a initialement commencé à travailler sur [des assistants ouverts] en partie parce que nous avions du mal à trouver une bonne solution de texte en parole pour un agent vocal basé sur un LLM pour l'un de nos clients. Nous avons décidé de nous associer à la communauté open source plus large pour rendre nos modèles plus largement accessibles et utiles.”

À court terme, LAION déclare qu'il travaillera pour rendre les exigences matérielles de BUD-E moins contraignantes et réduire la latence de l'assistant. Une entreprise à plus longue échéance est la construction d'un ensemble de dialogues pour affiner BUD-E - ainsi qu'un mécanisme de mémoire permettant à BUD-E de stocker des informations issues de conversations précédentes et un pipeline de traitement de la parole pouvant suivre plusieurs personnes parlant en même temps.

J'ai demandé à l'équipe si l'accessibilité était une priorité, étant donné que les systèmes de reconnaissance vocale n'ont pas toujours bien fonctionné avec les langues qui ne sont pas l'anglais et les accents qui ne sont pas transatlantiques. Une étude de Stanford a montré que les systèmes de reconnaissance vocale d'Amazon, IBM, Google, Microsoft et Apple avaient presque deux fois plus de chances de mal interpréter les locuteurs noirs par rapport aux locuteurs blancs du même âge et du même sexe.

Brendel a déclaré que LAION ne négligeait pas l'accessibilité - mais ce n'est pas une “priorité immédiate” pour BUD-E.

“La première priorité est de redéfinir vraiment l'expérience de comment nous interagissons avec les assistants vocaux avant de généraliser cette expérience à des accents et des langues plus diversifiés“, a déclaré Brendel.

À cette fin, LAION a quelques idées assez audacieuses pour BUD-E, allant d'un avatar animé à la personnalisation de l'assistant pour prendre en charge l'analyse des visages des utilisateurs via les webcams pour tenir compte de leur état émotionnel.

L'éthique de ce dernier point - l'analyse faciale - est un peu délicate, il va sans dire. Mais Robert Kaczmarczyk, cofondateur de LAION, a souligné que LAION restera engagé envers la sécurité.

“[Nous] respectons strictement les directives de sécurité et d'éthique formulées par la réglementation européenne sur l'IA“, a-t-il déclaré à TechCrunch par email - faisant référence au cadre juridique régissant la vente et l'utilisation de l'IA dans l'UE. La réglementation européenne sur l'IA permet aux pays membres de l'Union européenne d'adopter des règles et des garanties plus restrictives pour l'IA “à haut risque“, notamment les classificateurs d'émotions.

“Ce engagement envers la transparence facilite non seulement l'identification précoce et la correction des biais potentiels, mais soutient également la cause de l'intégrité scientifique“, a ajouté Kaczmarczyk. “En rendant nos ensembles de données accessibles, nous permettons à la communauté scientifique élargie de s'engager dans la recherche qui respecte les normes les plus élevées de reproductibilité.”

Le travail précédent de LAION n'a pas toujours été irréprochable du point de vue éthique, et il poursuit actuellement un projet assez controversé sur la détection des émotions. Mais peut-être que BUD-E sera différent; il faudra attendre pour le savoir.

Related Articles

Back to top button Back to top button