Gemini Mac Pilot
Un agente macOS controlado por voz con 24 herramientas que te permite controlar tu Mac simplemente hablando. Habla de forma natural y ejecuta flujos de trabajo complejos — abrir apps, hacer clic en botones, escribir texto, navegar por la web, gestionar tu Google Workspace y ejecutar comandos — todo manos libres.
Ver en GitHub
Agente macOS controlado por voz potenciado por Gemini.
Gemini Mac Pilot es un agente macOS controlado por voz que te permite controlar todo tu Mac simplemente hablando. Habla de forma natural y ejecuta flujos complejos — abrir apps, hacer clic, escribir texto, navegar por la web, gestionar tu Google Workspace (Gmail, Calendar, Drive, Docs) y ejecutar comandos — todo manos libres.
La arquitectura se divide en tres capas: una capa de Voz potenciada por la Gemini Live API gestiona el habla bidireccional en tiempo real; una capa de Cerebro usando Gemini 3 Flash Preview lee el árbol de accesibilidad de macOS y decide autónomamente qué herramientas invocar (con soporte de llamadas paralelas); y una capa de Herramientas ejecuta acciones en apps nativas, el navegador, Google Workspace y el shell del sistema.
Este proyecto se construyó para el hackathon Google Gemini Live Agent Challenge, mostrando cómo las capacidades nativas de voz y function-calling de Gemini pueden potenciar un agente de escritorio completamente autónomo que conecta la interacción por voz con el control real del sistema.
Tres capas, un comando de voz, cero pasos manuales.
El sistema funciona con una arquitectura de tres capas donde cada capa es dueña de un dominio específico. Voz gestiona el habla, Cerebro gestiona las decisiones y Herramientas gestiona la ejecución — coordinadas sin fisuras a través de las capacidades nativas de function-calling de Gemini.
Capa de Voz
La Gemini Live API gestiona el habla bidireccional en tiempo real con audio I/O nativo. Cuando el usuario habla un comando en lenguaje natural, la capa de voz lo captura, entiende la intención e invoca la función execute_task del cerebro para iniciar el flujo. La transcripción en vivo y las actualizaciones de estado se muestran en la UI flotante durante todo el proceso.
Capa de Cerebro
Gemini 3 Flash Preview con function calling nativo recibe la tarea junto con el árbol de accesibilidad actual de macOS — una instantánea estructurada de cada elemento UI en pantalla. Decide autónomamente qué herramientas invocar, en qué orden y con qué parámetros. Itera hasta completar la tarea, releyendo el estado de la UI tras cada acción. Soporta llamadas de función en paralelo.
Capa de Herramientas
24 herramientas en tres dominios: 8 herramientas nativas de macOS (Accessibility API, teclado, AppleScript, shell), 8 herramientas de navegador vía Chrome DevTools Protocol conectando a las sesiones reales de Chrome del usuario (Chrome 146+), y 8 herramientas de Google Workspace (Gmail, Calendar, Drive, Docs) vía integración CLI. Cada llamada se despacha al handler apropiado y los resultados vuelven al cerebro para la siguiente decisión.
Sesiones reales de Chrome, no navegadores headless.
Las herramientas del navegador se conectan a la sesión real de Chrome del usuario vía Chrome DevTools Protocol — sin entornos sandbox, sin simulaciones.
Navega a URLs y lee el contenido de texto de la pestaña activa de Chrome. El agente entiende lo que hay en la página y puede extraer información específica.
Hace clic en elementos por texto visible o selector CSS, escribe en campos de entrada e interactúa con páginas web exactamente como lo haría un humano — en el navegador real del usuario con todas sus cookies y sesiones.
Ejecuta JavaScript arbitrario en el contexto de la página de Chrome para interacciones avanzadas, extracción de datos o manipulación de la página más allá de las operaciones estándar de clic y escritura.
Captura screenshots de la página actual del navegador y lista todos los elementos interactivos y enlaces — dando al cerebro visibilidad completa del estado de la página para la toma de decisiones.
Gmail, Calendar, Drive y Docs — por voz.
Ocho herramientas dedicadas se integran con Google Workspace vía CLI, convirtiendo comandos de voz en acciones de productividad reales en todo tu ecosistema Google.
Lee y busca emails de tu bandeja, compón y envía mensajes nuevos — todo mediante comandos de voz naturales. "Lee mis últimos emails" o "Envía una respuesta a Juan sobre la reunión."
Lista eventos próximos y crea nuevos en Google Calendar. "¿Qué tengo en la agenda hoy?" o "Crea una reunión con el equipo mañana a las 15h."
Lista, busca y lee archivos en Google Drive. Encuentra documentos por nombre, navega carpetas y lee contenidos — todo sin tocar el teclado.
Lee y edita documentos de Google Docs. El agente puede leer el contenido, hacer ediciones y actualizar texto — convirtiendo la voz en productividad escrita.
De comando de voz a acción completada.
Captura de lenguaje natural
El usuario habla un comando en lenguaje natural. La Gemini Live API captura audio bidireccionalmente, transcribe el habla en tiempo real y entiende la intención del usuario. Cuando se detecta una tarea, la capa de voz invoca la función execute_task del cerebro para iniciar el flujo.
Toma de decisiones autónoma
Gemini 3 Flash Preview recibe la tarea junto con el árbol de accesibilidad actual de macOS — una instantánea estructurada de cada elemento UI en pantalla. Decide autónomamente qué herramientas invocar, en qué orden y con qué parámetros. Itera hasta completar la tarea, releyendo el estado de la UI tras cada acción.
Despacho de herramientas multi-dominio
Cada llamada se despacha al handler apropiado entre 24 herramientas: clic en elementos UI nativos vía Accessibility API, escritura de texto vía simulación de teclado, navegación e interacción con Chrome vía CDP, gestión de Gmail, Calendar, Drive y Docs a través de Google Workspace CLI, apertura de apps o ejecución de comandos. Las llamadas de función paralelas permiten ejecutar múltiples herramientas simultáneamente.
Resultado hablado y feedback en UI
Una vez que el cerebro completa el flujo, devuelve un resumen a la capa de voz. Gemini Live habla el resultado al usuario a través de la UI flotante, que también muestra transcripción en vivo, pasos de acción y actualizaciones de estado durante todo el proceso.
El sistema completo.
IA y Voz
macOS y Navegador
Plataforma e Integraciones
¿Necesitas un agente
de IA por voz?
Construimos agentes de IA autónomos que conectan la interacción por voz con el control real del sistema. Hablemos de tu caso de uso.