🛠️ Herramientas de IA
Inventario de cada herramienta que usamos, cómo la hemos configurado, y lecciones aprendidas.
Hermes Agent (asistente general)
Qué es: Nuestro asistente principal. Un agente de IA autónomo con acceso a herramientas (terminal, archivos, web, Telegram, crons, skills, memoria).
Cómo lo usamos:
- Investigación de mercado y competidores
- Mantenimiento de wikis (endocrinotech, market, gdpr-salud, ai-agents)
- Automatización con crons (Market Intel semanal, PubMed T1D, GDPR Anki diario)
- Gestión de tareas complejas con múltiples herramientas
- Chatear vía Telegram para coordinar
Configuración:
- Desplegado en VPS Hetzner ARM (Debian 13) con Coolify
- Acceso a través de Telegram y terminal
- Skills personalizados para tareas recurrentes
- Memoria persistente entre sesiones
Lecciones:
- Los skills evitan repetir instrucciones — si haces algo complejo, guárdalo como skill
- La memoria es para hechos estables, no para progreso de tareas
- Las crons deben ser auto-contenidas (sin contexto de chat)
Claude Code / OpenCode (código)
Qué son: Agentes de IA especializados en escribir código. Los usamos a través del protocolo ACP (Agent Communication Protocol) desde Hermes Agent.
Cómo lo usamos:
- Desarrollo de features y refactors
- PRs y code review
- Tareas que requieren razonamiento intensivo de código
Lecciones:
- Delegar tareas de código muy específicas (no ambigüedades)
- Siempre revisar el diff antes de mergear
- El código generado es un draft — el humano valida
Skills (memoria procedural)
Qué son: Procedimientos reutilizables que Hermes Agent puede cargar para tareas recurrentes.
Skills activos relevantes:
| Skill | Para qué |
|---|---|
wiki-endocrinotech | Reglas de mantenimiento de wikis |
github-pr-workflow | Lifecycle de PRs |
test-driven-development | TDD workflow |
systematic-debugging | Debugging estructurado |
Lecciones:
- Un skill que no se actualiza se vuelve basura — parchear al instante
- Si una tarea compleja sale bien, ofrecer guardarla como skill
Crons (automatización programada)
| Cron | Horario | Qué hace |
|---|---|---|
| PubMed T1D | Lun 07:45 UTC | Busca artículos diabetes tipo 1 + ejercicio |
| GDPR Anki | Diario 06:00 UTC | Tip diario de GDPR sanitario |
| Market Intel | Lun 04:00 UTC | Scraper RSS + novedades del sector |
| AI Agents News | Pendiente | Novedades de agentes e IA |
Evaluación (harness & benchmarks)
Qué seguimos:
lm-eval-harness— Benchmarking estándar de LLMs- Evaluaciones de tool use y agent autonomy
- Rankings de modelos en tareas reales (no solo exámenes)
Por qué nos interesa:
- Elegir qué modelo usar para cada tarea
- Entender limitaciones de los agentes
- Saber cuándo confiar y cuándo desconfiar del output
Otras herramientas explorando
| Herramienta | Estado | Notas |
|---|---|---|
| Cline / Aider | Pendiente | Alternativas para edición de código |
| Copilot | No usado | Preferimos agentes completos |
| VLLM / llama.cpp | En radar | Para inferencia local |
| ComfyUI | En radar | Para generación de assets visuales |