📰 Novedades: IA y Agentes
Lo último en agentes, tool use, evaluation harnesses, y tendencias del mundo IA que nos interesan como startup potenciada por IA.
⚠️ Solo contenido con URLs verificadas. Si no hay URL real, no se publica.
Semana del 2026-05-06
🤖 Agentes y Tool-Use
-
Terminus-4B: modelo pequeño que reemplaza a frontier LLMs en tareas agente — Paper que presenta Terminus-4B, un Qwen3-4B fine-tuned con SFT+RL para tareas de ejecución en terminal como subagente. Logra reducir el uso de tokens del agente principal ~30% sin impacto en benchmarks como SWE-Bench Pro. Compite con Claude Sonnet/Opus/GPT-5.3-Codex. → https://arxiv.org/abs/2605.03195
-
GLM-5V-Turbo: modelo fundacional nativo para agentes multimodales — Nuevo modelo de GLM hacia agentes que perciben, interpretan y actúan sobre contextos heterogéneos. → https://arxiv.org/abs/2604.26752
-
ARISE: grafo de repositorio para localización de fallos y reparación automática — Sistema que usa representación estructural de repositorios para que agentes sigan dependencias entre archivos y generen parches válidos. → https://arxiv.org/abs/2605.03117
-
The Compliance Gap: por qué los sistemas de IA prometen seguir instrucciones pero no lo hacen — Paper que identifica un tercer eje de honestidad en IA: el desfase entre lo que el sistema dice que hará y lo que realmente hace. Relevante para diseño de agentes con supervisión humana. → https://arxiv.org/abs/2605.01771
-
AEM: Adaptive Entropy Modulation para Reinforcement Learning multi-turno en agentes — Técnica para mejorar el entrenamiento RL de agentes LLM en tareas que requieren múltiples interacciones con el entorno. → https://arxiv.org/abs/2605.00425
-
SAGA: planificación workflow-atómica para inferencia de agentes IA en clusters GPU — Los schedulers actuales tratan cada llamada LLM como independiente, descartando estado intermedio. SAGA reduce latencia 3-8x. → https://arxiv.org/abs/2605.00528
-
Agent Skills — Addy Osmani — Artículo sobre cómo los agentes de código toman el camino más corto (saltándose specs, tests, reviews). Propone el concepto de “Agent Skills” como habilidad entrenada supervisada. → https://addyosmani.com/blog/agent-skills/
-
10 Lessons for Agentic Coding — Drew Breunig — Guía práctica para programar cuando el código es barato. Lecciones sobre cuándo y cómo usar agentes de código en producción. → https://www.dbreunig.com/2026/05/04/10-lessons-for-agentic-coding.html
-
Computer Use es 45x más caro que APIs estructuradas — Análisis en HN: el coste de Computer Use (navegador/web) frente a APIs estructuradas. Relevante para decidir si nuestra IA debe usar browser o APIs nativas. → https://reflex.dev/blog/computer-use-is-45x-more-expensive-than-structured-apis/
🔌 Protocolos Agente-a-Agente (MCP, A2A)
-
Survey: “When Agents Handle Secrets” — Artículo que analiza superficies de ataque en sistemas agente: prompt injection, exfiltración de contexto, robo de credenciales, poisoning de mensajes inter-agente. Menciona explícitamente protocolos MCP y A2A. → https://arxiv.org/abs/2605.03213
-
Anthropic lanza agentes para finanzas y seguros — Nuevos plugins Cowork y Claude Code, integraciones con Microsoft 365, y una app MCP para el sector financiero/asegurador. Señal de que Anthropic apuesta fuerte por MCP como estándar enterprise. → https://www.anthropic.com/news/finance-agents
🛠️ Herramientas de Código (Claude Code, Cline, Aider)
-
Claude Code v2.1.131 — Bugfix release (2026-05-06): corrige error de activación de VS Code extension en Windows, y fallo de autenticación con Mantle endpoint. → https://github.com/anthropics/claude-code/releases/tag/v2.1.131
-
Cline v3.82.0 — Añade soporte para terminal foreground en VS Code, nuevos modelos (OpenAI, SAP AI Core, Z AI). Elimina listas de modelos hardcodeadas. → https://github.com/cline/cline/releases/tag/v3.82.0
-
Aider v0.86.0 — Añade soporte para GPT-5, Grok-4, Gemini 2.5 Flash Lite. El propio Aider escribió el 88% del código de este release. → https://github.com/Aider-AI/aider/releases/tag/v0.86.0
-
Aider añade GPT-5.5 — Commits recientes muestran soporte para
gpt-5.5como modelo de history, y ajustes de configuración para GPT-5.4, Sonnet y Opus. El ecosistema de modelos avanza rápido. → https://github.com/Aider-AI/aider
🌍 Human in the Loop y Producción
- “When everyone has AI and the company still learns nothing” — Reflexión sobre cómo el acceso generalizado a IA no garantiza que la organización aprenda. Relevante para nuestra cultura HITL. → https://www.robert-glaser.de/when-everyone-has-ai-and-the-company-still-learns-nothing/
📊 Evaluation Harnesses & Benchmarks
-
SWE-bench se ha movido a la organización
SWE-bench/SWE-bench. Sigue siendo el benchmark de referencia para agentes de código. (4.853 estrellas, actualizado diariamente) → https://github.com/SWE-bench/SWE-bench -
SWE-agent v1.1.0 (publicado 2025-05-22) — Sin releases recientes mayores, pero el repositorio sigue activo. → https://github.com/princeton-nlp/SWE-agent
Pendientes de investigación
- Explorar
lm-eval-harnesspara evaluar modelos que usamos - Probar Claude Code vs OpenCode para diferentes tipos de tareas
- Investigar tool-use benchmarks (SWE-bench, GAIA, etc.)
- Evaluar si nos interesa VLLM o llama.cpp para inferencia local
- Leer sobre Agent-to-Agent protocols (ACP, MCP, etc.)