En quête d'une vraie conversation
Siri fait aujourd’hui figure de Dinosaure. Exactement 10 ans après son rachat par Apple, il (ou elle ?) l’est. Apple, ou plutôt Steve Jobs, a bien été, une fois de plus, visionnaire et cette acquisition lui a permis de se positionner comme le pionnier de la reconnaissance de la parole même si de multiples équipes travaillaient sur ces problèmes depuis des dizaines d’années, il leur a volé la vedette. Il est vrai qu’utiliser un assistant vocal sur un appareil muni d’un microphone et d’un haut-parleur que l’on avait en permanence sur nous donnait enfin tout son sens à la technologie. Mais malgré près de 500 millions d’utilisateurs enthousiastes en cinq ans, et surtout à cause de la disparition de Jobs, Siri n’a pas pris le tournant technologique qu’il aurait dû prendre et n’est aujourd’hui plus un leader du domaine. Bien sûr il y a toujours des centaines de millions d’utilisateurs réguliers, mais c’est en général pour eux un usage bien particulier, comme dicter un SMS, contrôler de la musique ou dire « Appelle Maman », ce qui est très loin de la vision d’un assistant universel.
Les leaders d’aujourd’hui sont Amazon avec Alexa et Google avec Google Home. Le tournant qu’Apple aurait dû prendre pour rester dans la course est celui du Deep Learning vers 2012 ou 2013. Google, qui avait évidemment sorti un assistant similaire à Siri pour Android dès 2011, a reconnu que cette nouvelle technologie allait améliorer les performances de reconnaissance et de compréhension et l’a très vite adoptée. Amazon, en tant que tout nouveau venu, l’a utilisé dès ses débuts en 2014. Microsoft a lui aussi eu l’opportunité de venir chambouler le trio de tête avec la sortie de Cortana en 2015, mais, certainement par manque de plateformes hardware pour le supporter, cet assistant a été plus ou moins abandonné à la façon de Microsoft en 2019.
Le Deep Learning n’intervient pas vraiment au niveau du traitement du signal, de la reconnaissance des sons, mais au niveau de ce qu’on appelle le NLP, Natural language Processing. C’est l’étape, une fois les phonèmes et les mots plus ou moins bien reconnus, qui permet à l’assistant de comprendre le sens de la phrase, et d’effectuer la tâche correspondante. Par des méthodes de backtracking le NLP permettra aussi d’aller corriger les mots qui avaient été faussement reconnus, mais intéresserons-nous plutôt aux techniques de Deep Learning. Force est de constater que les leaders évoqués sont aussi certainement ceux qui collectent une des plus grandes quantités de texte au travers des nombreuses interactions que leurs sites, le moteur de recherche ou le magasin en ligne, génèrent. Et c’est bien là le nerf de la guerre, les données. En gros les méthodes utilisées sont statistiques et le système va déterminer si la suite de mots détectés correspond à une forme de phrase présente dans le modèle créé grâce à cette immense quantité de données.
Ces systèmes reconnaissent donc maintenant assez bien une phrase et son sens, peut-être même mieux que ce qu’un humain ne ferait, mais sont encore loin de pouvoir soutenir la logique et le contexte d’une conversation. Le prochain défi sera de développer ces assistants conversationnels qui n’en sont encore qu’à leurs balbutiements.
À l’autre bout de la chaîne, il y a le TTS, Text to Speech ou synthèse vocale. Elle est en fait née dans les Bell Labs avec Voder en 1936, une quinzaine d’années avant les premiers reconnaisseurs de parole. Après tout, générer semble beaucoup plus simple que comprendre : les mots français ne sont-ils pas que l’assemblage des 36 phonèmes qui composent notre langue ? Eh bien non.
Pour éviter une production hachée, la façon dont nous prononçons ces phonèmes dépend des phonèmes qui l’entourent. La synthèse devient un problème combinatoire beaucoup plus complexe qu’il n’y paraît. Nous avons tous entendu ces voix d’une platitude métallique, très énervantes à écouter qu’on imagine mal pouvoir supporter plus de quelques secondes. C’était le vieux monde… Là encore, le Deep Learning permet de s’attaquer à ces problèmes combinatoires, et par la collecte d’immenses bases de données de voix de générer du TTS plus agréable comme on l’entend avec Alexa ou Google Home.
Plus agréables, mais toujours très imparfaites. Il faut encore améliorer la prosodie et donner la possibilité aux systèmes d’épeler « SOS » au lieu de dire « sauce ». Il faudrait aussi pouvoir modéliser certaines subtilités comme utiliser une voix beaucoup plus enjouée lorsque qu’elle délivre des informations sportives que celle qui parlerait d’une guerre par exemple. Mais si un système réussit à repérer qu’il parle de sport et qu’il annonce de sa voix pleine de joie la défaite de son équipe préférée, il y a de forte chance que l’auditeur en soit fort irrité… Le plus gros problème est que ces machines n’ont encore aucune idée de ce qu’elles racontent, et à qui elles le racontent…
Luc JULIA (1995)
En tant que Directeur Technique et Innovation à Samsung, Dr. Luc JULIA a défini et conduit la stratégie du groupe pour l’IoT. Il se consacre maintenant à rendre ces objets intelligents.
Luc a dirigé Siri à Apple, a été Directeur Technique à HP et a cofondé plusieurs start-up dans la Silicon Valley dont ORB Networks où il a inventé le « place shifting ».
Il a débuté sa carrière au SRI International ou il a fondé le « Computer Human Interaction Center » et a participé à la création de « Nuance Communications » aujourd’hui leader mondial de la reconnaissance de la parole.
Luc est diplômé en Mathématiques et Informatique de l’Université Pierre et Marie Curie de Paris et a obtenu un Doctorat à Télécom Paris. Il est aujourd’hui membre de l’Académie Française des Technologies.
Il est l’auteur du best-seller « L’Intelligence Artificielle n’existe pas », titulaire de plusieurs dizaines de brevets et reconnu comme l’un des 100 développeurs français les plus influents du monde numérique.