A quand des assistants numériques qui obéissent (vraiment) à la voix ?
La reconnaissance vocale a parfois des allures de serpent de mer, et peine encore souvent à se révéler indispensable. Pourtant, la recherche avance à ce sujet. Alors, pourrons-nous bientôt (vraiment) parler à nos outils numériques, au lieu de plisser les yeux dessus ? C’est la question que pose Wired, qui invite le cofondateur du MIT Medialab Chris Schmandt a partager ses pistes de réflexion pour le futur.
Ce qu’explique l’expert, c’est qu’il faut à nos machines bien davantage que comprendre un tas de mots pour offrir une bonne interface vocale à l’utilisateur : « il faut qu’elles comprennent les intentions ». Et comprendre une intention ne peut généralement se résumer à un seul échange : même entre deux humains, cela implique souvent une conversation, qui permette de comprendre le contexte et de prendre en compte la situation de l’utilisateur.
Pour Chris Schmandt, les premiers systèmes de reconnaissance vocale étaient intéressants en ce qu’ils suggéraient à l’utilisateur de reformuler sa demande lorsqu’ils ne comprenaient pas. Selon lui, la reconnaissance vocale d’aujourd’hui est redevenue trop binaire : soit une demande est comprise, soit elle ne l’est pas – et dans ce cas, il faut généralement repasser au clavier.
> Les particularités de la voix
« J’ai utilisé le premier vrai téléphone portable aux Etats-Unis – le MicroTac Motorola – très tôt, et les gens me regardaient comme si j’étais fou de parler au téléphone tout en marchant, raconte Chris Schmandt. Maintenant, nous acceptons volontiers les personnes ayant des oreillettes Bluetooth et semblant parler toutes seules, alors qu’on pensait récemment encore croiser des fous ».