Claude por la mañana, Codex por la tarde: el flujo de dos agentes que no sabía que necesitaba

TL;DR: Después de 165 sesiones de Claude Code y 27 de Codex CLI, el patrón es claro: Claude para el trabajo interactivo donde piensas en voz alta, Codex para las tareas autónomas que delegas y te olvidas. No es cuestión de cuál es mejor — es cuándo usas cada uno. Mis datos dicen que la combinación rinde más que cualquiera solo.

Son las nueve de la mañana, café en mano, y tengo una idea a medio formar sobre cómo reestructurar un módulo. No sé exactamente qué quiero. Solo sé que lo actual no me gusta.

Abro Claude Code.

No porque sea «el mejor» — sino porque necesito pensar en voz alta con alguien que entienda el contexto. Le digo «este servicio tiene demasiadas responsabilidades, ayúdame a partirlo». Y empieza un diálogo. Propone una separación, la discuto, le pido que explore otra opción, me enseña el diff antes de tocar nada. Es una conversación.

Tres horas después, el módulo está partido, los tests pasan, y el diseño ha mejorado. Pero estoy al 40% de cuota. Y tengo una lista de tareas mecánicas que han ido saliendo: actualizar los tests de integración, limpiar imports muertos, reorganizar un directorio.

Abro Codex.

Le doy la tarea, le digo que trabaje en modo autónomo, y me voy a comer.

¿Qué encontrarás en este post?

Los datos que me hicieron ver el patrón

Llevo meses monitorizando mi propio uso con una app de menu bar que registra sesiones, tokens y horas. Esto es lo que dicen los números:

Claude Code: 165 sesiones, 160.893 mensajes, 28.052 tool calls. Modelos usados: Opus 4.5 y Opus 4.6. 5.600 millones de tokens leídos de caché.

Codex CLI: 27 sesiones. Modelo: GPT-5.4. Modo danger-full-access, política de aprobación never.

La primera sorpresa fue la distribución horaria de Claude Code:

09:00    1 ▏
10:00    5 ██
11:00   10 ████▌
12:00   14 ██████▎
13:00    7 ███
14:00   16 ███████▏
15:00   21 █████████▍
16:00   15 ██████▋
17:00   18 ████████
18:00   13 █████▊
19:00   14 ██████▎
20:00    9 ████
21:00   10 ████▌
22:00    8 ███▌

El 70% de mis sesiones de Claude Code son por la tarde. Solo un 22% por la mañana.

Cuando lo vi, pensé que mi tesis de «Claude para las mañanas» no se sostenía. Pero al mirar qué hacía en cada franja, todo encajó.

La mañana es para explorar, la tarde para ejecutar

Las sesiones de mañana con Claude Code son pocas pero largas. Son las sesiones de diseño: «¿cómo debería funcionar esto?», «revisa este plan», «propón alternativas». Son conversaciones de ida y vuelta donde cambio de opinión tres veces antes de decidir.

Las sesiones de tarde son más cortas y más numerosas. Implementar lo que se decidió por la mañana. Arreglar bugs. Ajustar tests. Trabajo donde el rumbo ya está claro y solo falta ejecutar.

Y ahí es donde entra Codex.

Por qué Codex para lo autónomo

Codex CLI con GPT-5.4 en modo approval_policy = "never" es, para entendernos, un agente al que sueltas y no te pide permiso para nada. Lee tu codebase, ejecuta comandos, modifica ficheros. Sin diálogo.

Eso da miedo si lo usas para diseño — precisamente porque no te pregunta «¿estás seguro?». Pero es exactamente lo que quieres para tareas bien definidas:

«Añade tests unitarios para todos los métodos públicos de este módulo.»
«Reorganiza estos ficheros siguiendo la estructura que describo en ARCHITECTURE.md.»
«Revisa este plan.md y busca agujeros.»

El truco es que la tarea tiene que ser completa y verificable. Si le dices «mejora el rendimiento», va a hacer algo. Pero no sabes si ese algo es lo que querías. Si le dices «reduce el tiempo de esta query de 200ms a menos de 50ms y añade un benchmark que lo verifique», puedes irte a comer tranquilo.

El turno de tarde: delegar y olvidarte

Mi flujo real de las últimas semanas:

9:00–13:00 — Claude Code interactivo. Diseño, exploración, decisiones de arquitectura. Es mi sesión de «pensar acompañado». Gasto entre un 30% y un 50% de la cuota de Claude aquí.
13:00–14:00 — Pausa. Apunto las tareas mecánicas que han salido por la mañana.
14:00–15:00 — Lanzo Codex con las tareas del mediodía. Modo autónomo. Me pongo con otra cosa (o con más Claude Code, que para entonces ha empezado a recuperar cuota).
15:00 en adelante — Reviso lo que hizo Codex. Si hay que iterar, uso Claude para el code review porque me da mejor feedback cualitativo. Las tareas que quedan las ejecuto con Claude en modo implementación (sesiones cortas, directas).

Ojo al dato: no es que Codex sea peor para las mañanas ni Claude peor para las tardes. Es que el tipo de trabajo cambia a lo largo del día, y cada herramienta encaja mejor en un tipo.

Lo que dicen los benchmarks (y lo que no)

Los comparativos públicos muestran que Codex lidera en Terminal-Bench 2.0 (77,3% frente al 65,4% de Claude Code). Pero en evaluaciones ciegas de calidad de código, los desarrolladores prefieren el código de Claude el 67% de las veces.

Usease: Codex es mejor haciendo cosas en la terminal. Claude es mejor escribiendo código bonito. No compiten — se complementan.

El dato que más me llamó la atención: Claude Code consume unas 4 veces más tokens por tarea. Con una suscripción Max, eso significa que la cuota se agota más rápido. Combinar Claude para lo que requiere calidad con Codex para lo que requiere volumen es gestión de recursos pura y dura.

La regla que aplico

Antes de abrir cualquiera de los dos, me hago una pregunta:

«¿Voy a cambiar de opinión a mitad de la tarea?»

Si la respuesta es sí → Claude Code. Necesito el diálogo, el ida y vuelta, el «espera, mejor así».
Si la respuesta es no → Codex. La tarea está definida, los criterios de éxito están claros, que se ponga a ello.

Es la misma lógica que aplicarías con personas. Al compañero con criterio le pides consejo. Al que es rápido y fiable le delegas la ejecución. No le pides consejo al ejecutor ni le delegas al consejero.

La cuota como recurso compartido

Una ventaja inesperada de usar dos agentes: la cuota de cada uno es independiente. Mientras Claude recupera cuota tras una mañana intensiva, Codex puede estar trabajando sin tocar un solo token de Anthropic. Y viceversa.

Con mi uso real — unas 4.500 mensajes de media al día en Claude Code — la cuota se pone tensa a partir de las 14:00 si he tenido una mañana productiva. Tener Codex como segundo agente convierte esa limitación en un no-problema.

No es hacer trampas. Es diversificar proveedores. Lo mismo que harías con CDNs o bases de datos.

Lo que no funciona (todavía)

El handoff entre los dos es manual. Abro un terminal, lanzo Codex, le paso contexto copiando del otro. No hay un protocolo estándar para «oye Claude, pásale esta tarea a Codex con todo el contexto».

Tampoco comparten memoria. Lo que Claude sabe de tu proyecto (via CLAUDE.md, memory/, skills) hay que replicarlo en AGENTS.md y las instrucciones de Codex. Dos fuentes de verdad. Dos sitios donde actualizar.

Y Codex, al ser más agresivo en permisos por defecto, a veces se pasa. He tenido sesiones donde reorganiza medio proyecto sin que se lo pidiera. Con Claude eso no pasa porque el flujo conversacional actúa de freno natural.

La conclusión que no esperaba

Empecé pensando que era cuestión de horario. Claude para las mañanas, Codex para las tardes. Los datos me mostraron que no — es cuestión de modo de trabajo.

El trabajo creativo e iterativo pide un agente conversacional. El trabajo mecánico y definido pide un agente autónomo. Da la casualidad de que la mañana suele ser más creativa y la tarde más mecánica, pero eso es tu cerebro, no la herramienta.

Si solo usas un agente, estás usando un destornillador para todo — incluidos los clavos. Meterle mano a dos agentes tiene coste de setup, sí. Pero después de tres meses combinándolos, no volvería atrás.

El mejor copiloto no es Claude ni Codex. Es saber cuándo usar cada uno.

Read this article in English.

Claude por la mañana, Codex por la tarde: el flujo de dos agentes que no sabía que necesitaba

Los datos que me hicieron ver el patrón

La mañana es para explorar, la tarde para ejecutar

Por qué Codex para lo autónomo

El turno de tarde: delegar y olvidarte

Lo que dicen los benchmarks (y lo que no)

La regla que aplico

La cuota como recurso compartido

Lo que no funciona (todavía)

La conclusión que no esperaba

IMPULSA TU CARRERA A TU MEDIDA