🏗️ Infraestructura y Monetización

Cómo procesamos audio, cuánto cuesta, y cómo monetizamos la transcripción. Stack actual: Modal → futuro: AWS.


🎤 Motor de transcripción: WhisperX + pyannote

Qualicode usa WhisperX (no Whisper vanilla), que aporta:

CaracterísticaWhisper vanillaWhisperX + pyannote
VelocidadLento en CPU⚡ 6x más rápido (faster-whisper, CTranslate2)
Timestamps palabra❌ Solo por segmento✅ Word-level
Diarización (quién habla)✅ pyannote.audio
Precisión españolBuenaExcelente (modelo large-v3)

Por qué WhisperX es clave para Qualicode:

  • Diarización = saber quién dijo qué en entrevistas, focus groups, reuniones
  • Word-level timestamps = unir códigos a frases exactas
  • Rapidez = una hora de audio se procesa en ~2-3 min en GPU

☁️ Stack actual: Modal (serverless GPU)

Usamos Modal porque dan $30 USD/mes en créditos gratuitos y pagamos solo por uso.

Costes de transcripción en Modal

RecursoCoste estimadoPor hora de audio
GPU T4 (WhisperX)~$0.50-1.00/hora GPU~2-3 min → ~$0.03-0.05
pyannote diarizaciónMisma GPU, proceso extra~3-5 min → ~$0.03-0.05
Total por hora de audio~$0.06-0.10

El superpoder de los $30/mes de crédito

MétricaValor
Crédito mensual gratis$30 USD/mes
Horas de audio procesadas gratis~300-500 h/mes ($0.06-0.10/h)
Coste real para nosotros€0 mientras no superemos 300h/mes
Usuarios Free que podemos soportar~100 usuarios × 3h/mes c/u = gratis

💡 Mientras estemos en Modal, la transcripción nos sale casi gratis. Los $30/mes cubren mucho volumen. Es el mejor sitio para empezar.


✅ Modal y GDPR — Sí, cumple

RequisitoModalDocumentación
Región UE✅ Sí, europe-west3 (Frankfurt, Alemania)docs/regions
DPA (Art. 28)✅ Disponible, se firma electrónicamentemodal.com/security
SOC 2 Tipo II✅ Certificado (seguridad, disponibilidad, confidencialidad)blog/soc-2
Datos efímeros✅ Los contenedores se destruyen al terminar — datos no persistendocs/gdpr
SubencargadoGCP (Google Cloud Platform) — cubierto en su DPAdocs/gdpr

Conclusión: Modal es GDPR-compliant si:

  1. Usamos la región de Frankfurt (europe-west3) — ✅
  2. Firmamos su DPA — ⬜ Pendiente
  3. Los contenedores son efímeros (no guardamos audios en Volumes) — ✅ por defecto

🔗 cumplimiento — Ver página de cumplimiento para detalles del modelo encargado. Referencia general: Wiki GDPR Salud


🏢 Futuro: AWS (migración planificada)

¿Por qué AWS?

RazónDetalle
Todo centralizadoQueremos que toda la infra de Endocrinotech esté en AWS
GDPR complianceAWS tiene contratos DPA, región EU (Frankfurt/Irlanda)
EscalabilidadModal es genial para empezar, pero AWS escala mejor
Servicios gestionadosS3, Transcribe, Bedrock, Cognito — ecosistema completo

¿Cuándo migrar?

FaseTranscripciónBackendCoste
MVP (ahora)Modal ($30 crédito)Modal + Coolify (gratis)~€0-10/mes
Crecimiento (<500h/mes)Modal (pago ~$30-50/mes)AWS (t3a.medium ~$25/mes)~€50-80/mes
Escala (>500h/mes)AWS Batch con GPU spotAWS (producción completa)~€200-500/mes

Estrategia: híbrido Modal + AWS

No hace falta migrar todo de golpe:

┌─────────────────────────────────────────────────────┐
│                  QUALICODE                            │
│                                                       │
│  MODAL (transcripción)          AWS (app)             │
│  ┌─────────────────────┐    ┌──────────────────────┐  │
│  │ WhisperX + pyannote │    │ API + DB + Storage   │  │
│  │ (GPU serverless)    │───►│ (ECS/S3/RDS)          │  │
│  │ ~$0.06-0.10/h audio │    │ ~$25-100/mes          │  │
│  └─────────────────────┘    └──────────────────────┘  │
│           │                          │                 │
│           └──────────────────────────┘                 │
│                      │                                │
│              Archivos TXT (S3/Backblaze)                │
└─────────────────────────────────────────────────────┘

Opción alternativa: AWS Transcribe como reemplazo de WhisperX

  • AWS Transcribe cuesta 1.44/hora de audio
  • WhisperX en Modal: ~$0.08/hora de audio
  • WhisperX es 18x más barato que AWS Transcribe
  • Conclusión: mejor mantener WhisperX en Modal aunque migremos lo demás a AWS

📱 Móvil — grabar en campo, procesar en cloud

Uno de los problemas más comunes en investigación cualitativa: grabar entrevistas fuera de la oficina. La solución:

ENTREVISTADOR con móvil
        │
        │ Toca "Grabar" en Qualicode app (o PWA)
        ▼
┌──────────────────────┐
│  Grabación en móvil   │ ← App nativa o PWA
│  (micrófono, offline) │
└──────────┬───────────┘
           │
           │ Al tener conexión: sube a Modal
           ▼
┌──────────────────────┐
│  WhisperX + pyannote  │ ← GPU en Frankfurt
│  (transcripción)      │
└──────────┬───────────┘
           │
           ▼
┌──────────────────────┐
│  TXT en tu proyecto   │ ← Local first
│  (transcripción lista)│
└──────────────────────┘

Cómo funciona:

  1. Abres Qualicode en el móvil (app o web)
  2. Pulsas grabar — funciona offline, guarda el audio localmente
  3. Cuando tienes conexión, sube el audio a Modal para transcripción
  4. El TXT vuelve a tu proyecto — puedes editar códigos desde el móvil o el ordenador
  5. El audio se elimina de Modal tras la transcripción

Por qué mola:

  • No necesitas GPU — el móvil solo graba, Modal procesa
  • Funciona offline — grabas en el campo sin cobertura
  • Diarización incluida — WhisperX + pyannote identifica hablantes
  • Privacidad: el audio viaja cifrado a Modal UE, se elimina al terminar

💰 Monetización de la transcripción

Coste vs. precio de la transcripción

QuiénPrecio por hora audioNuestro costeMargen
NVivo Transcription$90.00/hora
Rev.com AI$15.00/hora
Sonix$16.99/hora
Otter.ai Pro~$8.00/hora (plan)
Qualicode Free€0 (primeras 3h/mes)~€0.07/h-100% (subsidiado)
Qualicode Starter€0.08/min = €4.80/h~€0.07/h~98.5%
Qualicode ProIncluido en plan (20h/mes)~€1.40/mes coste realcasi 100%

Modelo freemium con márgenes bestiales

La transcripción es increíblemente barata en Modal. Podemos ofrecer:

  • Plan Free: 3h de transcripción al mes (nos cuesta ~€0.21, regalamos)
  • Plan Starter (€12/mes): 5h de transcripción (nos cuesta ~€0.35, cobramos €12)
  • Plan Pro (€29/mes): 20h de transcripción (nos cuesta ~€1.40, cobramos €29)
  • Excedente de transcripción: €0.08/min adicional (nos cuesta ~€0.001/min)

🔑 El verdadero margen no está en la transcripción, está en el análisis cualitativo (agentes IA). La transcripción barata es el gancho para vender los agentes de codificación e informes.

Unidades económicas

ConceptoFreeStarterProTeam
Precio€0€12/mes€29/mes€79/mes
Horas transcripción3h5h20h100h
Coste transcripción (Modal)~€0.21~€0.35~€1.40~€7.00
Coste agente IA (códex/temas)€0 (no incluido)~€1.00~€4.00~€20.00
Coste total estimado~€0.21~€1.35~€5.40~€27.00
Margen bruto~89%~81%~66%
LTV estimado (12 meses)~€144~€348~€948

¿Podemos monetizar la transcripción sola?

EstrategiaViabilidad
Vender solo transcripción (como Otter.ai)✅ Sí, modelo pay-per-minute. Pero es commodity — mejor usarla de gancho
Transcripción gratis, cobrar análisisRecomendado. La transcripción es el imán, el análisis es el negocio
API de transcripción (como Rev.ai)✅ Más adelante, cuando tengamos volumen
Cobrar por hora y regalar el análisis❌ Al revés — el análisis es el valor real