IA de Voz Gemini Automatización macOS Automatización del Navegador

Gemini Mac Pilot

Un agente macOS controlado por voz con 24 herramientas que te permite controlar tu Mac simplemente hablando. Habla de forma natural y ejecuta flujos de trabajo complejos — abrir apps, hacer clic en botones, escribir texto, navegar por la web, gestionar tu Google Workspace y ejecutar comandos — todo manos libres.

Ver en GitHub

Herramientas del agente

Tiempo real

Voz I/O

Capas de integración

Todo el sistema

Alcance de automatización

Hub de control por voz de Gemini Mac Pilot

Descripción general

Agente macOS controlado por voz potenciado por Gemini.

Gemini Mac Pilot es un agente macOS controlado por voz que te permite controlar todo tu Mac simplemente hablando. Habla de forma natural y ejecuta flujos complejos — abrir apps, hacer clic, escribir texto, navegar por la web, gestionar tu Google Workspace (Gmail, Calendar, Drive, Docs) y ejecutar comandos — todo manos libres.

La arquitectura se divide en tres capas: una capa de Voz potenciada por la Gemini Live API gestiona el habla bidireccional en tiempo real; una capa de Cerebro usando Gemini 3 Flash Preview lee el árbol de accesibilidad de macOS y decide autónomamente qué herramientas invocar (con soporte de llamadas paralelas); y una capa de Herramientas ejecuta acciones en apps nativas, el navegador, Google Workspace y el shell del sistema.

Este proyecto se construyó para el hackathon Google Gemini Live Agent Challenge, mostrando cómo las capacidades nativas de voz y function-calling de Gemini pueden potenciar un agente de escritorio completamente autónomo que conecta la interacción por voz con el control real del sistema.

Arquitectura

Tres capas, un comando de voz, cero pasos manuales.

El sistema funciona con una arquitectura de tres capas donde cada capa es dueña de un dominio específico. Voz gestiona el habla, Cerebro gestiona las decisiones y Herramientas gestiona la ejecución — coordinadas sin fisuras a través de las capacidades nativas de function-calling de Gemini.

Capa 01

Capa de Voz

La Gemini Live API gestiona el habla bidireccional en tiempo real con audio I/O nativo. Cuando el usuario habla un comando en lenguaje natural, la capa de voz lo captura, entiende la intención e invoca la función execute_task del cerebro para iniciar el flujo. La transcripción en vivo y las actualizaciones de estado se muestran en la UI flotante durante todo el proceso.

Capa 02

Capa de Cerebro

Gemini 3 Flash Preview con function calling nativo recibe la tarea junto con el árbol de accesibilidad actual de macOS — una instantánea estructurada de cada elemento UI en pantalla. Decide autónomamente qué herramientas invocar, en qué orden y con qué parámetros. Itera hasta completar la tarea, releyendo el estado de la UI tras cada acción. Soporta llamadas de función en paralelo.

Capa 03

Capa de Herramientas

24 herramientas en tres dominios: 8 herramientas nativas de macOS (Accessibility API, teclado, AppleScript, shell), 8 herramientas de navegador vía Chrome DevTools Protocol conectando a las sesiones reales de Chrome del usuario (Chrome 146+), y 8 herramientas de Google Workspace (Gmail, Calendar, Drive, Docs) vía integración CLI. Cada llamada se despacha al handler apropiado y los resultados vuelven al cerebro para la siguiente decisión.

Diagrama de capas de arquitectura de Gemini Mac Pilot

Automatización del Navegador

Sesiones reales de Chrome, no navegadores headless.

Las herramientas del navegador se conectan a la sesión real de Chrome del usuario vía Chrome DevTools Protocol — sin entornos sandbox, sin simulaciones.

Navegar y Leer

Navega a URLs y lee el contenido de texto de la pestaña activa de Chrome. El agente entiende lo que hay en la página y puede extraer información específica.

Clic y Escritura

Hace clic en elementos por texto visible o selector CSS, escribe en campos de entrada e interactúa con páginas web exactamente como lo haría un humano — en el navegador real del usuario con todas sus cookies y sesiones.

Ejecución de JavaScript

Ejecuta JavaScript arbitrario en el contexto de la página de Chrome para interacciones avanzadas, extracción de datos o manipulación de la página más allá de las operaciones estándar de clic y escritura.

Capturas y Enlaces

Captura screenshots de la página actual del navegador y lista todos los elementos interactivos y enlaces — dando al cerebro visibilidad completa del estado de la página para la toma de decisiones.

Visualización del workspace y herramientas de Gemini Mac Pilot

Google Workspace

Gmail, Calendar, Drive y Docs — por voz.

Ocho herramientas dedicadas se integran con Google Workspace vía CLI, convirtiendo comandos de voz en acciones de productividad reales en todo tu ecosistema Google.

Gmail

Lee y busca emails de tu bandeja, compón y envía mensajes nuevos — todo mediante comandos de voz naturales. "Lee mis últimos emails" o "Envía una respuesta a Juan sobre la reunión."

Calendar

Lista eventos próximos y crea nuevos en Google Calendar. "¿Qué tengo en la agenda hoy?" o "Crea una reunión con el equipo mañana a las 15h."

Drive

Lista, busca y lee archivos en Google Drive. Encuentra documentos por nombre, navega carpetas y lee contenidos — todo sin tocar el teclado.

Docs

Lee y edita documentos de Google Docs. El agente puede leer el contenido, hacer ediciones y actualizar texto — convirtiendo la voz en productividad escrita.

Cómo Funciona

De comando de voz a acción completada.

Paso 01 — Entrada de Voz

Captura de lenguaje natural

El usuario habla un comando en lenguaje natural. La Gemini Live API captura audio bidireccionalmente, transcribe el habla en tiempo real y entiende la intención del usuario. Cuando se detecta una tarea, la capa de voz invoca la función execute_task del cerebro para iniciar el flujo.

Paso 02 — El Cerebro Decide

Toma de decisiones autónoma

Gemini 3 Flash Preview recibe la tarea junto con el árbol de accesibilidad actual de macOS — una instantánea estructurada de cada elemento UI en pantalla. Decide autónomamente qué herramientas invocar, en qué orden y con qué parámetros. Itera hasta completar la tarea, releyendo el estado de la UI tras cada acción.

Paso 03 — Las Herramientas Ejecutan

Despacho de herramientas multi-dominio

Cada llamada se despacha al handler apropiado entre 24 herramientas: clic en elementos UI nativos vía Accessibility API, escritura de texto vía simulación de teclado, navegación e interacción con Chrome vía CDP, gestión de Gmail, Calendar, Drive y Docs a través de Google Workspace CLI, apertura de apps o ejecución de comandos. Las llamadas de función paralelas permiten ejecutar múltiples herramientas simultáneamente.

Paso 04 — Respuesta de Voz

Resultado hablado y feedback en UI

Una vez que el cerebro completa el flujo, devuelve un resumen a la capa de voz. Gemini Live habla el resultado al usuario a través de la UI flotante, que también muestra transcripción en vivo, pasos de acción y actualizaciones de estado durante todo el proceso.

Stack tecnológico

El sistema completo.

IA y Voz

Gemini Live API Gemini 3 Flash Preview Vertex AI WebSocket

macOS y Navegador

macOS Accessibility API Chrome DevTools Protocol AppleScript PyWebView

Plataforma e Integraciones

Python Google Workspace CLI Gmail Google Calendar Google Drive Google Docs

¿Necesitas un agente
de IA por voz?

Construimos agentes de IA autónomos que conectan la interacción por voz con el control real del sistema. Hablemos de tu caso de uso.

Reservar una llamada de descubrimiento Ver todos los proyectos →