fermer
Intelligence Artificielle

Gemini « Bonobo » : Google lance l’automatisation d’écran pour commander vos Uber et repas

Gemini « Bonobo » : Google lance l'automatisation d'écran pour commander vos Uber et repas
Gemini « Bonobo » : Google lance l'automatisation d'écran pour commander vos Uber et repas

Pendant longtemps, Gemini a surtout été un assistant conversationnel : il explique, résume, rédige, propose un plan… mais il s’arrête au bord de l’action.

Or, une nouvelle fuite suggère que Google est en train de franchir une marche bien plus ambitieuse : laisser Gemini interagir directement avec l’interface d’apps Android pour exécuter des tâches à votre place — commander, réserver, naviguer, valider. Bref, faire, pas seulement conseiller.

Une fonctionnalité repérée dans la bêta : « Get tasks done with Gemini »

Selon une analyse de la bêta 17.4 de l’app Google, des chaînes de texte décrivent une option Labs intitulée « Get tasks done with Gemini », associée au terme « screen automation » et au nom de code « bonobo ».

Le wording est explicite : Gemini pourrait aider à « placer des commandes » ou « réserver un trajet » en utilisant l’automatisation d’écran dans « certaines apps » présentes sur l’appareil.

Le point clé, c’est la nature de l’intégration : on ne parle pas d’une API officielle à laquelle les apps se branchent, mais d’une approche « ordinateur use » appliquée au mobile : Gemini comprend ce qui est à l’écran et agit (taps, navigation, validation) comme le ferait un utilisateur.

Pourquoi c’est un changement de catégorie

Jusqu’ici, l’IA dans un smartphone, c’était souvent : « je te prépare le message », « je te trouve un itinéraire », « je te propose des options ». Avec la screen automation, on bascule vers une logique d’agent :

  • Vous formulez l’intention (« commande mon habitude du midi », « réserve un VTC pour 18 h »)
  • Gemini exécute le parcours dans l’app
  • Vous surveillez et reprenez la main si besoin

C’est exactement le virage que toute l’industrie vise : réduire l’interface à une intention, et déléguer le « tap tap tap » aux agents.

Supervision et garde-fous : Google insiste sur la responsabilité utilisateur

Les chaînes repérées insistent sur un ton très « prudence » : Gemini peut se tromper, l’utilisateur reste responsable des actions, et il serait possible d’arrêter l’automatisation et de reprendre la main. Plusieurs reprises de la fuite mettent aussi en avant des avertissements sur les informations sensibles (paiement, identifiants).

L’autre élément qui fait réagir : la question des captures d’écran. Dans certains cas, la fonctionnalité pourrait s’appuyer sur des screenshots lors de l’interaction avec les apps, avec la mention qu’ils peuvent être revus (selon réglages/activité) pour améliorer le service. C’est un point qui pèsera lourd dans l’acceptation grand public.

Un indice côté système : une permission « Screen automation » apparaît déjà sur Android 16 (Pixel)

Ce n’est pas qu’une histoire de chaînes de texte. En janvier, 9to5Google rapportait l’apparition d’un élément « Screen automation » dans les autorisations Android 16 QPR3 Beta 2 (notamment sur Pixel 10), décrit comme une capacité à « aider à compléter des tâches en interagissant avec le contenu à l’écran d’autres apps ». Autrement dit : la plomberie système se met aussi en place.

Sur le papier, c’est l’une des fonctions les plus désirables de l’IA :

  • zéro friction pour les tâches répétitives,
  • moins de temps perdu dans des apps qui veulent vous retenir,
  • une accessibilité énorme pour ceux qui ont du mal avec l’UI.

Mais, c’est aussi le terrain le plus délicat : une IA qui clique dans des apps, c’est une IA qui peut valider au mauvais moment, se faire piéger par un écran trompeur, ou agir sur des zones sensibles (réservations, commandes, paramètres). Si Google veut que ça marche, il faudra un équilibre fin : autonomie suffisante pour être utile, contrôle suffisant pour être acceptable.

Pour l’instant, tout indique un déploiement progressif, limité à « certaines apps », probablement via Labs, et avec supervision renforcée.

Tags : GeminiGoogle
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.