🏗️ Infraestructura y Monetización
Cómo procesamos audio, cuánto cuesta, y cómo monetizamos la transcripción. Stack actual: Modal → futuro: AWS.
🎤 Motor de transcripción: WhisperX + pyannote
Qualicode usa WhisperX (no Whisper vanilla), que aporta:
| Característica | Whisper vanilla | WhisperX + pyannote |
|---|---|---|
| Velocidad | Lento en CPU | ⚡ 6x más rápido (faster-whisper, CTranslate2) |
| Timestamps palabra | ❌ Solo por segmento | ✅ Word-level |
| Diarización (quién habla) | ❌ | ✅ pyannote.audio |
| Precisión español | Buena | Excelente (modelo large-v3) |
Por qué WhisperX es clave para Qualicode:
- Diarización = saber quién dijo qué en entrevistas, focus groups, reuniones
- Word-level timestamps = unir códigos a frases exactas
- Rapidez = una hora de audio se procesa en ~2-3 min en GPU
☁️ Stack actual: Modal (serverless GPU)
Usamos Modal porque dan $30 USD/mes en créditos gratuitos y pagamos solo por uso.
Costes de transcripción en Modal
| Recurso | Coste estimado | Por hora de audio |
|---|---|---|
| GPU T4 (WhisperX) | ~$0.50-1.00/hora GPU | ~2-3 min → ~$0.03-0.05 |
| pyannote diarización | Misma GPU, proceso extra | ~3-5 min → ~$0.03-0.05 |
| Total por hora de audio | ~$0.06-0.10 |
El superpoder de los $30/mes de crédito
| Métrica | Valor |
|---|---|
| Crédito mensual gratis | $30 USD/mes |
| Horas de audio procesadas gratis | ~300-500 h/mes ($0.06-0.10/h) |
| Coste real para nosotros | €0 mientras no superemos 300h/mes |
| Usuarios Free que podemos soportar | ~100 usuarios × 3h/mes c/u = gratis |
💡 Mientras estemos en Modal, la transcripción nos sale casi gratis. Los $30/mes cubren mucho volumen. Es el mejor sitio para empezar.
✅ Modal y GDPR — Sí, cumple
| Requisito | Modal | Documentación |
|---|---|---|
| Región UE | ✅ Sí, europe-west3 (Frankfurt, Alemania) | docs/regions |
| DPA (Art. 28) | ✅ Disponible, se firma electrónicamente | modal.com/security |
| SOC 2 Tipo II | ✅ Certificado (seguridad, disponibilidad, confidencialidad) | blog/soc-2 |
| Datos efímeros | ✅ Los contenedores se destruyen al terminar — datos no persisten | docs/gdpr |
| Subencargado | GCP (Google Cloud Platform) — cubierto en su DPA | docs/gdpr |
Conclusión: Modal es GDPR-compliant si:
- Usamos la región de Frankfurt (
europe-west3) — ✅ - Firmamos su DPA — ⬜ Pendiente
- Los contenedores son efímeros (no guardamos audios en Volumes) — ✅ por defecto
🔗 cumplimiento — Ver página de cumplimiento para detalles del modelo encargado. Referencia general: Wiki GDPR Salud
🏢 Futuro: AWS (migración planificada)
¿Por qué AWS?
| Razón | Detalle |
|---|---|
| Todo centralizado | Queremos que toda la infra de Endocrinotech esté en AWS |
| GDPR compliance | AWS tiene contratos DPA, región EU (Frankfurt/Irlanda) |
| Escalabilidad | Modal es genial para empezar, pero AWS escala mejor |
| Servicios gestionados | S3, Transcribe, Bedrock, Cognito — ecosistema completo |
¿Cuándo migrar?
| Fase | Transcripción | Backend | Coste |
|---|---|---|---|
| MVP (ahora) | Modal ($30 crédito) | Modal + Coolify (gratis) | ~€0-10/mes |
| Crecimiento (<500h/mes) | Modal (pago ~$30-50/mes) | AWS (t3a.medium ~$25/mes) | ~€50-80/mes |
| Escala (>500h/mes) | AWS Batch con GPU spot | AWS (producción completa) | ~€200-500/mes |
Estrategia: híbrido Modal + AWS
No hace falta migrar todo de golpe:
┌─────────────────────────────────────────────────────┐
│ QUALICODE │
│ │
│ MODAL (transcripción) AWS (app) │
│ ┌─────────────────────┐ ┌──────────────────────┐ │
│ │ WhisperX + pyannote │ │ API + DB + Storage │ │
│ │ (GPU serverless) │───►│ (ECS/S3/RDS) │ │
│ │ ~$0.06-0.10/h audio │ │ ~$25-100/mes │ │
│ └─────────────────────┘ └──────────────────────┘ │
│ │ │ │
│ └──────────────────────────┘ │
│ │ │
│ Archivos TXT (S3/Backblaze) │
└─────────────────────────────────────────────────────┘
Opción alternativa: AWS Transcribe como reemplazo de WhisperX
- AWS Transcribe cuesta 1.44/hora de audio
- WhisperX en Modal: ~$0.08/hora de audio
- WhisperX es 18x más barato que AWS Transcribe
- Conclusión: mejor mantener WhisperX en Modal aunque migremos lo demás a AWS
📱 Móvil — grabar en campo, procesar en cloud
Uno de los problemas más comunes en investigación cualitativa: grabar entrevistas fuera de la oficina. La solución:
ENTREVISTADOR con móvil
│
│ Toca "Grabar" en Qualicode app (o PWA)
▼
┌──────────────────────┐
│ Grabación en móvil │ ← App nativa o PWA
│ (micrófono, offline) │
└──────────┬───────────┘
│
│ Al tener conexión: sube a Modal
▼
┌──────────────────────┐
│ WhisperX + pyannote │ ← GPU en Frankfurt
│ (transcripción) │
└──────────┬───────────┘
│
▼
┌──────────────────────┐
│ TXT en tu proyecto │ ← Local first
│ (transcripción lista)│
└──────────────────────┘
Cómo funciona:
- Abres Qualicode en el móvil (app o web)
- Pulsas grabar — funciona offline, guarda el audio localmente
- Cuando tienes conexión, sube el audio a Modal para transcripción
- El TXT vuelve a tu proyecto — puedes editar códigos desde el móvil o el ordenador
- El audio se elimina de Modal tras la transcripción
Por qué mola:
- No necesitas GPU — el móvil solo graba, Modal procesa
- Funciona offline — grabas en el campo sin cobertura
- Diarización incluida — WhisperX + pyannote identifica hablantes
- Privacidad: el audio viaja cifrado a Modal UE, se elimina al terminar
💰 Monetización de la transcripción
Coste vs. precio de la transcripción
| Quién | Precio por hora audio | Nuestro coste | Margen |
|---|---|---|---|
| NVivo Transcription | $90.00/hora | — | — |
| Rev.com AI | $15.00/hora | — | — |
| Sonix | $16.99/hora | — | — |
| Otter.ai Pro | ~$8.00/hora (plan) | — | — |
| Qualicode Free | €0 (primeras 3h/mes) | ~€0.07/h | -100% (subsidiado) |
| Qualicode Starter | €0.08/min = €4.80/h | ~€0.07/h | ~98.5% |
| Qualicode Pro | Incluido en plan (20h/mes) | ~€1.40/mes coste real | casi 100% |
Modelo freemium con márgenes bestiales
La transcripción es increíblemente barata en Modal. Podemos ofrecer:
- Plan Free: 3h de transcripción al mes (nos cuesta ~€0.21, regalamos)
- Plan Starter (€12/mes): 5h de transcripción (nos cuesta ~€0.35, cobramos €12)
- Plan Pro (€29/mes): 20h de transcripción (nos cuesta ~€1.40, cobramos €29)
- Excedente de transcripción: €0.08/min adicional (nos cuesta ~€0.001/min)
🔑 El verdadero margen no está en la transcripción, está en el análisis cualitativo (agentes IA). La transcripción barata es el gancho para vender los agentes de codificación e informes.
Unidades económicas
| Concepto | Free | Starter | Pro | Team |
|---|---|---|---|---|
| Precio | €0 | €12/mes | €29/mes | €79/mes |
| Horas transcripción | 3h | 5h | 20h | 100h |
| Coste transcripción (Modal) | ~€0.21 | ~€0.35 | ~€1.40 | ~€7.00 |
| Coste agente IA (códex/temas) | €0 (no incluido) | ~€1.00 | ~€4.00 | ~€20.00 |
| Coste total estimado | ~€0.21 | ~€1.35 | ~€5.40 | ~€27.00 |
| Margen bruto | — | ~89% | ~81% | ~66% |
| LTV estimado (12 meses) | — | ~€144 | ~€348 | ~€948 |
¿Podemos monetizar la transcripción sola?
| Estrategia | Viabilidad |
|---|---|
| Vender solo transcripción (como Otter.ai) | ✅ Sí, modelo pay-per-minute. Pero es commodity — mejor usarla de gancho |
| Transcripción gratis, cobrar análisis | ⭐ Recomendado. La transcripción es el imán, el análisis es el negocio |
| API de transcripción (como Rev.ai) | ✅ Más adelante, cuando tengamos volumen |
| Cobrar por hora y regalar el análisis | ❌ Al revés — el análisis es el valor real |