📰 Novedades: IA y Agentes

Lo último en agentes, tool use, evaluation harnesses, y tendencias del mundo IA que nos interesan como startup potenciada por IA.

⚠️ Solo contenido con URLs verificadas. Si no hay URL real, no se publica.


Semana del 2026-05-06

🤖 Agentes y Tool-Use

  • Terminus-4B: modelo pequeño que reemplaza a frontier LLMs en tareas agente — Paper que presenta Terminus-4B, un Qwen3-4B fine-tuned con SFT+RL para tareas de ejecución en terminal como subagente. Logra reducir el uso de tokens del agente principal ~30% sin impacto en benchmarks como SWE-Bench Pro. Compite con Claude Sonnet/Opus/GPT-5.3-Codex. → https://arxiv.org/abs/2605.03195

  • GLM-5V-Turbo: modelo fundacional nativo para agentes multimodales — Nuevo modelo de GLM hacia agentes que perciben, interpretan y actúan sobre contextos heterogéneos. → https://arxiv.org/abs/2604.26752

  • ARISE: grafo de repositorio para localización de fallos y reparación automática — Sistema que usa representación estructural de repositorios para que agentes sigan dependencias entre archivos y generen parches válidos. → https://arxiv.org/abs/2605.03117

  • The Compliance Gap: por qué los sistemas de IA prometen seguir instrucciones pero no lo hacen — Paper que identifica un tercer eje de honestidad en IA: el desfase entre lo que el sistema dice que hará y lo que realmente hace. Relevante para diseño de agentes con supervisión humana. → https://arxiv.org/abs/2605.01771

  • AEM: Adaptive Entropy Modulation para Reinforcement Learning multi-turno en agentes — Técnica para mejorar el entrenamiento RL de agentes LLM en tareas que requieren múltiples interacciones con el entorno. → https://arxiv.org/abs/2605.00425

  • SAGA: planificación workflow-atómica para inferencia de agentes IA en clusters GPU — Los schedulers actuales tratan cada llamada LLM como independiente, descartando estado intermedio. SAGA reduce latencia 3-8x. → https://arxiv.org/abs/2605.00528

  • Agent Skills — Addy Osmani — Artículo sobre cómo los agentes de código toman el camino más corto (saltándose specs, tests, reviews). Propone el concepto de “Agent Skills” como habilidad entrenada supervisada. → https://addyosmani.com/blog/agent-skills/

  • 10 Lessons for Agentic Coding — Drew Breunig — Guía práctica para programar cuando el código es barato. Lecciones sobre cuándo y cómo usar agentes de código en producción. → https://www.dbreunig.com/2026/05/04/10-lessons-for-agentic-coding.html

  • Computer Use es 45x más caro que APIs estructuradas — Análisis en HN: el coste de Computer Use (navegador/web) frente a APIs estructuradas. Relevante para decidir si nuestra IA debe usar browser o APIs nativas. → https://reflex.dev/blog/computer-use-is-45x-more-expensive-than-structured-apis/

🔌 Protocolos Agente-a-Agente (MCP, A2A)

  • Survey: “When Agents Handle Secrets” — Artículo que analiza superficies de ataque en sistemas agente: prompt injection, exfiltración de contexto, robo de credenciales, poisoning de mensajes inter-agente. Menciona explícitamente protocolos MCP y A2A. → https://arxiv.org/abs/2605.03213

  • Anthropic lanza agentes para finanzas y seguros — Nuevos plugins Cowork y Claude Code, integraciones con Microsoft 365, y una app MCP para el sector financiero/asegurador. Señal de que Anthropic apuesta fuerte por MCP como estándar enterprise. → https://www.anthropic.com/news/finance-agents

🛠️ Herramientas de Código (Claude Code, Cline, Aider)

🌍 Human in the Loop y Producción

📊 Evaluation Harnesses & Benchmarks

Pendientes de investigación

  • Explorar lm-eval-harness para evaluar modelos que usamos
  • Probar Claude Code vs OpenCode para diferentes tipos de tareas
  • Investigar tool-use benchmarks (SWE-bench, GAIA, etc.)
  • Evaluar si nos interesa VLLM o llama.cpp para inferencia local
  • Leer sobre Agent-to-Agent protocols (ACP, MCP, etc.)