writeup

Cómo hago ingeniería con IA (no solo prompteo)

Construyo el sistema alrededor del modelo, no solo los prompts: agentes que hacen trabajo real, retrieval que se mantiene fundamentado, evals que gatean la calidad, fine-tuning cuando rinde, y la economía de tokens para correr todo eso en producción.

Solo: agentes, RAG, evals, fine-tuning, costo

agentes LLMRAGevals / LLM-as-judgefine-tuning (QLoRA)MCPtoken FinOps

TL;DR

Hago ingeniería con IA de punta a punta: construyo el sistema que produce las respuestas (agentes, retrieval, evals, fine-tuning) y lo opero en producción (orquestación, governance, costo).
Cada afirmación acá está medida en algún lado de mi trabajo, no es palabrería: κ 0.81 para el juez, ~90% de la precisión cloud a $0, un matcher que frena en seco en un tope de $1.00.
Ese stack completo, construir más operar, es justo lo que las empresas están desesperadas por contratar en 2026 y casi nunca encuentran en una sola persona.

El gap

La mayoría promptea el modelo. Pocos hacen ingeniería con él.

Un buen prompt un día, un refactor alucinado al siguiente, y una factura que nadie mira. Dentro de una organización real eso no se sostiene. El ingeniero raro construye el sistema alrededor del modelo y lo mantiene responsable: medido, acotado, y lo bastante barato para correr. Yo trabajo en esa intersección.

Construyo el sistema

No prompts en un notebook. Sistemas con partes que están testeadas y medidas.

Agentes y RAG. Un matcher de trabajo agéntico con un loop de tool-use acotado, memoria entre corridas y un servidor MCP; retrieval que se mantiene fundamentado y citado. El texto no confiable se marca como dato, nunca como instrucción, y el loop frena apenas toca un tope duro (24 pasos, 600k tokens, $1.00). (hiring-radar, daily-news)
Evals. Un LLM-as-judge calibrado contra etiquetas humanas (κ 0.81 de Cohen, una matriz de confusión, chequeos de sesgo) que frena el PR cuando un prompt empeora en silencio. El juez es un instrumento medido, no una caja negra. (rubric)
Fine-tuning. QLoRA sobre un modelo local chico, medido sobre un set etiquetado: de 72% a 80% en SROIE, ~90% de la precisión cloud a $0, sin salir de la laptop. (shoebox)

Lo opero

Cualquiera levanta un agente. Casi nadie corre una flota de ellos en un equipo sin que explote la factura.

Orquestación, no demos. Sistemas multiagente de verdad haciendo trabajo autónomo: uno coordina una flota sobre un producto offline-first, otro automatiza los issues de GitHub de punta a punta.
Governance a escala de equipo. Configuro Claude para una organización entera (permisos, estándares, agentes que otros ingenieros heredan) y moldeo el comportamiento de forma estructural, armando system prompts en Cowork desde la base, no tirando prompts sueltos.
La economía de tokens. FinOps para LLMs: el modelo correcto por tarea (Haiku donde alcanza, Opus donde hace falta), caching, presupuestos de contexto, topes duros de costo. La diferencia entre un prototipo lindo y algo que una empresa puede correr.

Programar y la IA son el mismo movimiento para mí: no escribo la feature, armo la máquina que produce features; no prompteo el modelo, hago ingeniería y opero el sistema que produce las respuestas.

el hilo conductor

Siempre en la frontera

No me quedé con lo que aprendí hace un año. Hago los cursos y sigo en el borde: ultracode, Opus 4.8 en el editor apenas salió. El mismo motor autodidacta que me enseñó a programar me mantiene al día en un campo que se mueve cada semana, y lo aplico a mi propia vida también (rutinas que me barren el inbox, workflows para LinkedIn).

Por qué importa

Ingeniería sólida más construcción de sistemas de IA más disciplina operativa es exactamente lo que los equipos no pueden contratar hoy. Puedo construir las features de IA de un equipo y gobernar su tooling, con la economía bajo control es casi un superpoder en el mercado actual. Para los roles de AI Engineer y founding engineer que apunto, esto es el pilar, no un bullet.

Dónde verlo

Las pruebas son públicas y medidas en mis propios repos: el matcher agéntico (hiring-radar), el gate de evals (rubric), el modelo local fine-tuneado (shoebox), más un PROMPT_HISTORY.md versionado y un AGENTS.md con la convención de la casa que ancla a cada agente.

Ver los case studies Mi GitHub