OpenAI, le créateur du célèbre programme de chat « ChatGPT » basé sur l’intelligence artificielle générative, a présenté un outil de clonage vocal qui sera d’une utilité limitée pour éviter d’enregistrer des incidents de fraude ou de crime. L’outil, appelé « Voice Engine », est capable de reproduire la voix d’une personne à partir d’un échantillon audio de 15 secondes. La société a déclaré dans un communiqué publié aujourd’hui par l’Agence France-Presse : « Nous sommes conscients que la capacité de générer des voix qui ressemblent à des voix humaines est une étape qui comporte de grands risques, surtout en cette année électorale. » Il a poursuivi : « Nous travaillons avec des partenaires américains et internationaux issus des gouvernements, des médias, du divertissement, de l’éducation, de la société civile et d’autres secteurs, et nous prenons en compte leurs commentaires lors du processus de création de l’outil. »
En cette année qui devrait être marquée par des élections dans de nombreux pays, les chercheurs dans le domaine de la désinformation craignent une utilisation abusive des applications d’intelligence artificielle générative, en particulier des outils de clonage vocal, bon marché, faciles à utiliser et difficiles à suivre.
OpenAI a confirmé avoir adopté une « approche prudente » avant de déployer le nouvel outil à plus grande échelle « en raison du potentiel d’utilisation abusive des voix synthétiques ». La présentation de l’outil intervient après qu’un conseiller travaillant dans la campagne présidentielle d’un concurrent démocrate du président américain Joe Biden ait créé un programme automatisé se faisant passer pour le président candidat à un nouveau mandat. Une voix similaire à celle de Biden a appelé les électeurs à s’abstenir de voter lors des primaires du New Hampshire. Les États-Unis ont depuis interdit les appels utilisant des voix clonées générées par l’intelligence artificielle, afin de lutter contre la fraude politique ou commerciale.
OpenAI a expliqué que les partenaires testant « Voice Engine » se sont mis d’accord sur des règles qui exigent, par exemple, le consentement explicite de toute personne avant d’utiliser sa voix, et la nécessité d’indiquer clairement aux auditeurs que les voix ont été créées par l’intelligence artificielle. La société a poursuivi : “Nous avons adopté un ensemble de mesures de sécurité, notamment un filigrane, afin que nous puissions retracer l’origine de chaque son créé par le nouvel outil, en plus d’une surveillance proactive de son utilisation.”