Gemini Live API Voice Agent macOS Automation Hackathon

Construyendo un agente de macOS controlado por voz con Gemini

¿Qué pasaría si pudieras controlar todo tu Mac simplemente hablando? Creamos Gemini Mac Pilot para el Gemini Live Agent Challenge — un agente de voz que ve tu pantalla, entiende tus aplicaciones y actúa.

marzo 2026 8 min

Construyendo un agente de macOS controlado por voz con Gemini

Cada asistente de IA hoy en día vive en un cuadro de texto. Escribes una pregunta, obtienes una respuesta, tal vez copias y pegas algo en otra aplicación. Pero la promesa de la IA siempre ha sido más grande que eso: un asistente que realmente haga cosas en tu computadora, no solo que hable sobre ellas.

Gemini Mac Pilot es un agente de macOS controlado por voz que puede abrir tus aplicaciones, navegar por tu navegador, leer tu pantalla, escribir mensajes, ejecutar comandos y completar flujos de trabajo de varios pasos, todo a partir del habla natural. No se requiere teclado.

Di "Abre WhatsApp y dile a Daniel que llegaré tarde" y Mac Pilot abre WhatsApp, busca la conversación de Daniel, escribe el mensaje y lo envía. Di "Pon a Rosalía en YouTube" y abre Chrome, busca en YouTube y reproduce el video. La interacción se siente como tener a un asistente experto sentado a tu lado, operando tu Mac mientras hablas.

El problema: Asistentes de IA que no pueden asistir realmente

Los asistentes de IA actuales están fundamentalmente desconectados de donde realmente trabajas. Viven en su propia ventana, aislados de tu escritorio, tus aplicaciones, las pestañas de tu navegador. Cuando le pides a una IA que "revise tu correo electrónico", te dice cómo revisar tu correo electrónico. Cuando le pides que "programe una reunión", te da instrucciones.

La brecha entre la capacidad de la IA y su utilidad es el problema de la última milla: lograr que la IA interactúe realmente con tu entorno real.

Queríamos cerrar esa brecha por completo. No un chatbot que da instrucciones, sino un agente que ejecuta. No solo texto, sino primero la voz, porque si vas a entregar el control a una IA, necesitas poder hablarle con naturalidad, interrumpirla, corregirla y guiarla en tiempo real.

El Gemini Live Agent Challenge nos dio la excusa perfecta para construir esto. La Live API de Gemini ofrece algo que ningún otro modelo fundacional ofrece: verdadera transmisión de audio nativa bidireccional.

Arquitectura: Dos cerebros, un agente

La idea arquitectónica clave es separar la voz del razonamiento. Intentar hacer ambas cosas en un solo modelo crea un cuello de botella: la voz requiere una transmisión de baja latencia, mientras que los flujos de trabajo de llamadas a herramientas necesitan una planificación deliberada de varios pasos. Por lo tanto, dividimos al agente en dos capas.

Capa de voz — Gemini Live API

La capa de voz utiliza la Gemini Live API con audio nativo para el habla bidireccional. El usuario habla con naturalidad y el modelo transmite respuestas de audio en tiempo real. Cuando el usuario solicita una acción, la capa de voz llama a una función execute_task, entregando la solicitud a la capa cerebral.

Capa cerebral — Gemini 3 Flash Preview

La capa cerebral utiliza Gemini 3 Flash Preview con llamadas a funciones nativas y soporte para llamadas a funciones en paralelo. Recibe una descripción de la tarea, lee el árbol de accesibilidad actual de macOS para entender qué hay en pantalla, planifica una secuencia de acciones y las ejecuta a través de llamadas a herramientas. Aquí es donde ocurre el razonamiento real a través de 24 herramientas.

Lectura de la interfaz de usuario de cualquier aplicación con la API de Accesibilidad

La API de Accesibilidad de macOS (AX API) es la columna vertebral del control de aplicaciones nativas. Cada aplicación de macOS expone su interfaz de usuario como un árbol de accesibilidad: una jerarquía de elementos con roles, etiquetas, valores y posiciones. Recorremos este árbol de forma recursiva, asignando a cada elemento un ID numérico, y se lo presentamos a Gemini como una representación de texto estructurado.

Este enfoque funciona con cualquier aplicación nativa de macOS sin ninguna integración específica de la aplicación. WhatsApp, Notes, Finder, System Settings; si tiene un árbol de accesibilidad, Mac Pilot puede leerlo y enviarle comandos.

Automatización del navegador con Chrome DevTools Protocol

Para las interacciones web, la API de Accesibilidad no es suficiente: el contenido web dentro de Chrome es opaco para AX. Por lo tanto, nos conectamos directamente al navegador Chrome real del usuario a través del Chrome DevTools Protocol (CDP). El cerebro puede navegar a URLs, leer el texto de la página, hacer clic por texto o selector CSS, escribir en entradas y ejecutar JavaScript arbitrario, todo dentro de la sesión de navegación real del usuario.

Integración con Google Workspace

Más allá del escritorio y el navegador, Mac Pilot se integra directamente con Google Workspace a través de herramientas de CLI. Lee y envía Gmail, gestiona eventos de Google Calendar, navega por Google Drive y edita Google Docs, todo a través de comandos de voz. Esto eleva el total a 24 herramientas en macOS nativo, el navegador y la productividad en la nube.

Desafíos

Límites de tiempo de la sesión de voz: La Gemini Live API tiene un límite de sesión de 15 minutos. Implementamos la reconexión automática de la sesión: cuando la sesión se acerca al límite, la capa de voz se reconecta limpiamente y reanuda la escucha.

Mantener la interfaz de usuario receptiva: Las tareas del cerebro pueden tardar entre 10 y 30 segundos. Construimos un bus de eventos que transmite actualizaciones de estado desde las capas cerebral y de voz a la superposición de PyWebView a través de WebSocket.

Permisos de accesibilidad: macOS requiere el permiso explícito del usuario para el control de accesibilidad. Agregamos instrucciones de configuración claras y mensajes de error en tiempo de ejecución que guían a los usuarios a través del flujo de permisos.

Pruébalo tú mismo

Gemini Mac Pilot es de código abierto en GitHub. Si tienes una Mac, un proyecto de Google Cloud y un micrófono, puedes estar controlando tu escritorio por voz en minutos. Mira cómo el proyecto se volvió viral en LinkedIn.

Toni Soriano

Principal AI Engineer at Cloudstudio. 18+ years building production systems. Creator of Ollama Laravel (87K+ downloads).

LinkedIn →

¿Construyendo un agente de voz?

Construimos sistemas de IA controlados por voz con audio en tiempo real y automatización de escritorio.

Reservar una llamada de descubrimiento ← Todos los artículos

Obtén el checklist de implementación de IA

10 preguntas que todo equipo debería responder antes de construir sistemas de IA. Evita los errores más comunes que vemos en proyectos de producción.

¡Revisa tu bandeja de entrada!

Te hemos enviado el checklist de implementación de IA.

Sin spam. Cancela cuando quieras.