En artículos anteriores hemos contado cómo una IA musical distingue entre generar y comprender, cómo convierte audio en datos procesables y qué ocurre durante su entrenamiento. Pero hay un concepto que atraviesa todos estos procesos, del que todavía no habíamos hablado y que está reconfigurando el sector: el modelo fundacional.
Es un término que se usa mucho y se explica poco. En la práctica, marca una diferencia técnica con consecuencias directas para artistas, productores, sellos y entidades de gestión: quienes están construyendo, adaptando y distribuyendo estos modelos puede que se conviertan en quienes controlen la infraestructura musical de la próxima década.
Qué es un modelo fundacional y qué lo distingue de un modelo especializado
La definición técnica más citada viene del CRFM (Center for Research on Foundation Models, Universidad de Stanford): un modelo fundacional es un modelo entrenado con datos amplios, típicamente mediante aprendizaje autosupervisado a gran escala, que puede adaptarse a múltiples tareas posteriores.
En música, «datos amplios» significa corpus masivos de audio, a menudo combinados con texto asociado: etiquetas de género, descripciones, letras, metadatos de producción.
Y «múltiples tareas» significa que el mismo modelo base puede generar música a partir de texto, continuar una pieza existente, editar un fragmento, producir variaciones o convertir letras en una interpretación cantada, dependiendo de cómo se condicione y adapte.
Un modelo especializado, por contraste, se entrena y optimiza para una sola tarea o una familia reducida: detección de acordes, separación de stems, síntesis de voz cantada, clasificación de género. Los modelos especializados pueden ser muy precisos dentro de su ámbito, con métricas de evaluación claras y requisitos de cómputo más ajustados. Pero no transfieren capacidades fuera de su tarea sin un reentrenamiento significativo.
No es que un modelo fundacional sea «mejor» que uno especializado: son enfoques distintos.
El modelo fundacional no reemplaza a los especializados: traslada la «competencia musical general» (percepción del audio, alineación con señales de control, estructura temporal) a una base compartida que luego se especializa de forma barata. Es como pasar de tener herramientas separadas para cada operación a tener un banco de trabajo que se reconfigura para la tarea que vamos a realizar.
¿Qué pasa cuando cambiamos la escala de un modelo fundacional?
Escalar un modelo fundacional no significa simplemente hacerlo más grande. Hay al menos cuatro cosas que deben crecer a la vez: el número de parámetros (la capacidad del modelo), el volumen de datos con los que se entrena, la potencia de cómputo y la longitud del contexto (cuánta música puede «tener en cuenta» mientras genera).
Lo relevante es que estas cuatro dimensiones no funcionan por separado: un modelo con muchos parámetros pero pocos datos se sobreajusta, y uno con muchos datos pero poca capacidad no los aprovecha. El rendimiento mejora cuando todo crece de forma coordinada.
En audio, el panorama es similar pero con particularidades propias. Un minuto de audio a 44.100 Hz contiene millones de muestras, y la música exige un rango de frecuencias amplio con dependencias de largo alcance: un estribillo que vuelve tres minutos después debe mantener coherencia con la primera aparición.
Eso hace que la escala en música no sea solo cuestión de «más potencia», sino de desbloquear capacidades que los modelos pequeños no pueden alcanzar. No por falta de calidad, sino por limitaciones estructurales.
Tres cambios cualitativos aparecen de forma recurrente:
- Coherencia a largo plazo
Mantener una estructura coherente durante varios minutos (verso, estribillo, vuelta al motivo, evolución del arreglo) es uno de los retos más difíciles: cuanto más larga es la pieza, más se acumulan los errores y más fácil es que el modelo «olvide» lo que sonó al principio.
Los modelos que han conseguido avances aquí lo han hecho escalando el contexto de forma deliberada. Jukebox (OpenAI) fue el primero en generar varios minutos con canto reconocible, dividiendo el audio en capas de detalle creciente. MusicLM (Google) logró mantener coherencia durante un minuto completo usando un enfoque similar de procesamiento por etapas.
- Adherencia a señales de control
La capacidad del modelo para seguir instrucciones (texto, letras, melodía) mejora, como dijimos, con la escala de modelo y datos, a veces de forma marcada.
YuE, un modelo abierto de generación de canciones con letra, ofrece un caso concreto: sus autores comparan checkpoints de 0,5B, 2B y 7B parámetros y reportan mejoras en preferencia humana para «musicalidad» y «seguimiento de letras», vinculando el modelo más grande a un presupuesto de entrenamiento mayor (1,75 billones de tokens). La tasa de error en el seguimiento de letras también se redujo al escalar de 0,5B a 7B.
- La velocidad se convierte en cuello de botella
Cuando un modelo es pequeño, se puede compensar con técnicas de generación más lentas y costosas que mejoran la calidad del resultado. Pero a escala de producción, donde un artista o productor necesita iterar rápido, probar docenas de variaciones o editar pistas por separado, esa lentitud se convierte en un problema real. Por eso los modelos fundacionales más recientes no solo compiten en calidad, sino también en velocidad de generación.
Un matiz que importa: más escala no implica automáticamente más controlabilidad. El propio paper de YuE advierte que los modelos más grandes pueden «memorizar» los patrones dominantes del entrenamiento, lo que paradójicamente puede dificultar que sigan instrucciones precisas del usuario. En la práctica, el diseño del modelo, la selección y el orden de los datos de entrenamiento y las técnicas de generación importan tanto como el número de parámetros.
Las tres familias de arquitectura
Los modelos fundacionales de música actuales se agrupan en tres familias, definidas por cómo representan el audio y cómo generan secuencias largas.
Transformers autorregresivos sobre tokens de audio
MusicGen (Meta) es el caso de referencia. Su funcionamiento se puede resumir así: primero, un compresor de audio (EnCodec) convierte la música en secuencias de códigos numéricos, como si tradujera el sonido a un vocabulario discreto. Después, un modelo de tipo transformer genera esos códigos uno tras otro, de forma similar a como un modelo de lenguaje genera palabras. Meta publicó tres versiones de tamaño creciente (300M, 1.500M y 3.300M de parámetros) y comprobó que la calidad mejoraba a medida que el modelo crecía.
La ventaja principal es la coherencia a largo plazo y la capacidad de seguir instrucciones con precisión, de forma similar a como un modelo de lenguaje mantiene el hilo de una conversación: el modelo «recuerda» lo que lleva generado y produce continuaciones coherentes. El coste es que genera de forma secuencial (un código tras otro), lo que hace que producir minutos de audio pueda ser lento.
Difusión latente
Stable Audio Open (Stability AI) representa esta familia. El proceso funciona en tres pasos: primero, un compresor reduce la forma de onda a una representación matemática compacta (el «espacio latente»). Después, las instrucciones de texto del usuario se codifican para guiar la generación. Finalmente, un modelo de difusión construye el audio en ese espacio compacto y el resultado se descomprime de vuelta a sonido real. El sistema produce audio en estéreo con calidad de CD, hasta aproximadamente 47 segundos.
La difusión tiene una ventaja frente al enfoque anterior: puede trabajar sobre toda la pieza a la vez en lugar de generar código a código, pero necesita múltiples pasadas de refinamiento, y mantener la coherencia en piezas largas es más difícil. Stable Audio Open señala además una limitación importante: al entrenar solo con música bajo licencias Creative Commons, la variedad de estilos que el modelo conoce es más reducida.
Esto apunta a una restricción que, aunque aplica a todos los modelos, es especialmente visible aquí: la calidad del resultado depende tanto de la capacidad del modelo como de la diversidad de la música con la que se ha entrenado.
Sistemas híbridos y multi-etapa
Estos modelos dividen el trabajo en dos fases. Una primera fase se ocupa de la «planificación»: decidir la estructura de la canción, alinear la música con las letras, definir la progresión. Una segunda fase se encarga de la «producción sonora»: dar cuerpo al timbre, añadir fidelidad, generar el audio final. AudioLM fue pionero en combinar dos formas distintas de representar el audio (una orientada a la estructura y otra al detalle sonoro). MusicLM aplicó esta idea a la generación a partir de texto, procesando la música por capas de resolución creciente.
YuE sigue exactamente esta lógica de dos fases: un primer modelo lee las letras y genera una representación musical estructural, y un segundo modelo más pequeño añade el detalle acústico hasta llegar a calidad de CD (44,1 kHz).
ACE-Step combina técnicas de difusión con un compresor de audio muy eficiente y un transformer ligero, buscando el equilibrio entre velocidad, coherencia y control sobre el resultado.
Lo que importa desde la producción
La elección de arquitectura no es neutral para el resultado musical:
- Duración y estructura (canciones de varios minutos con verso, estribillo y puente) se logran mejor con modelos que generan de forma secuencial, porque «recuerdan» lo que han producido antes.
- Fidelidad y realismo sonoro (que suene a grabación profesional, con espacialidad estéreo) mejoran más con modelos que trabajan en el espacio latente, diseñados para manejar audio de alta resolución.
- Edición, no solo generación. La tendencia más reciente es que el modelo no solo cree una pieza de cero, sino que permita modificarla después: cambiar una frase de la letra, rehacer una sección instrumental, generar variaciones. ACE-Step apuesta explícitamente por este enfoque de control iterativo, más cercano al workflow real de un productor.
Adaptación: por qué importa que un modelo sea abierto y ajustable
La promesa del modelo fundacional se materializa cuando adaptarlo a un uso concreto es suficientemente barato como para ser rutinario. Hoy existe un catálogo de técnicas que lo hacen posible, ordenadas de más costosa a más ligera:
- Fine-tuning completo: se reentrenan todos los parámetros del modelo. Ofrece la máxima especialización, pero es caro y difícil de gestionar cuando se necesitan muchas variantes (por estilo, cliente o proyecto).
- LoRA (Low-Rank Adaptation): en lugar de reentrenar todo el modelo, se añaden pequeños módulos entrenables que modifican su comportamiento. El resultado es similar al fine-tuning completo, pero con una fracción del coste y la memoria.
- Módulos adaptadores: bloques entrenables pequeños que se insertan por tarea o dominio, sin tocar el modelo base. Permiten tener múltiples especializaciones sobre una misma base compartida.
- QLoRA: una versión aún más ligera de LoRA que comprime el modelo base para reducir el uso de memoria, haciendo posible adaptar modelos grandes en hardware modesto.
La clave es que estas técnicas solo funcionan si el modelo base es accesible. Y aquí es donde la apertura marca la diferencia.
Stable Audio Open presenta los modelos abiertos como necesarios porque muchos sistemas de generación musical son privados o están detrás de APIs, lo que impide adaptarlos. ACE-Step publica sus pesos bajo licencia Apache 2.0 e incluye herramientas para especialización por género o estilo, señalando que la adaptación forma parte del ecosistema previsto. YuE se posiciona como una familia de modelos fundacionales abiertos, con experimentos de escalado y análisis de memorización publicados.
Qué permite esto en la práctica
Para estudios y productores, la adaptación abre posibilidades concretas más allá de las demos de «genera una canción».
Un estudio puede construir un sonido propio sin reentrenar desde cero. La firma de un estudio (una paleta de sintetizadores particular, una sala de baterías característica, unas tendencias de mezcla) puede codificarse en adaptadores ligeros sobre un modelo base compartido, con variantes por proyecto o cliente. Es exactamente el escenario para el que LoRA y los adaptadores fueron diseñados: muchas especializaciones pequeñas sobre una misma base.
Los sellos y editoras pueden construir herramientas internas basadas en su catálogo: demos aceleradas para A&R, variantes de localización, mockups de sincronización, exploración de un espacio de género sin copiar a artistas concretos. Lo que hace esto viable es que las técnicas de adaptación ligera permiten mantener muchas variantes del modelo en funcionamiento a la vez, algo que con fine-tuning completo sería prohibitivamente caro.
La generación editable empieza a importar más que la generación de un solo disparo. Si el modelo permite ediciones locales (modificar una frase de la letra, rehacer una sección instrumental, generar variaciones controladas), puede integrarse en workflows de producción tradicionales (arreglo iterativo, comping, revisión de notas) en lugar de sustituirlos.
Un matiz importante: la adaptación no elimina la necesidad de datos de calidad. Varios papers señalan la escasez de pares de alta calidad en letras/voces/acompañamiento para generación de canciones de larga duración como barrera técnica. Las técnicas de adaptación ligera reducen el coste de cómputo, pero no crean datos limpios y representativos.
Los datos siguen siendo la parte más difícil para la mayoría de organizaciones musicales y creadores independientes.
Abierto frente a cerrado: quién controla qué
La división abierto/cerrado no es cosmética. Determina directamente quién puede auditar el sistema, quién puede adaptarlo y quién captura la ventaja acumulativa de la distribución y el cómputo.
En la práctica, «abierto» significa: pesos disponibles, ejecutable sin el proveedor y documentación técnica suficiente para reproducir o al menos evaluar limitaciones de forma significativa.
| Modelo | Acceso | Lo que hace | Transparencia |
|---|---|---|---|
| ACE-Step | Apache 2.0 | Generación y edición musical, énfasis en velocidad | Pesos, código y reporte técnico publicados |
| YuE | Abierto | Letras a canción de larga duración con coherencia vocal | GitHub, paper completo, análisis de memorización |
| Stable Audio Open | Pesos abiertos | Texto a audio/música (~47s, 44,1 kHz estéreo) | Paper con detalle de datos (solo CC), evaluación de memorización |
| MusicGen | Abierto | Generación musical condicionada por texto | Código abierto (AudioCraft), paper con datos de entrenamiento |
| Suno | Cerrado | Generación de canciones completas (app/API) | Sin paper técnico, arquitectura no publicada |
| Udio | Cerrado | Texto/letras a música con realismo vocal | Arquitectura y datos no divulgados |
| MusicLM/MusicFX | Paper + producto | Generación de música de larga duración | Paper publicado; MusicFX como producto cerrado |
Dos implicaciones son especialmente relevantes para el ecosistema:
El acceso determina los ciclos de iteración creativa. Los pesos abiertos se pueden ejecutar en local o en un entorno de estudio controlado. Eso cambia el workflow: generación por lotes rápida, fine-tunes privados, integración en DAWs o pipelines internos y estabilidad de versión bajo control propio. Los sistemas cerrados optimizan la facilidad de uso y la calidad percibida, pero el ciclo de iteración queda condicionado por precios, cuotas, roadmaps de producto y cambios de comportamiento del modelo entre versiones.
La auditabilidad determina la confianza. Stable Audio Open incluye la construcción detallada de su dataset (fuentes Creative Commons, filtrado) y evalúa el riesgo de memorización, presentándolo como parte de las «buenas prácticas para la publicación de modelos abiertos». YuE incluye análisis de memorización como parte de su contribución. Con sistemas cerrados, la comunidad puede evaluar los outputs, pero no inspeccionar pesos, reproducir el entrenamiento ni ejecutar verificaciones sistemáticas de memorización o proveniencia con la misma profundidad.
Concentración de poder: datos, cómputo y distribución
Los modelos fundacionales intensifican la concentración a través de tres activos que se refuerzan mutuamente.
- Datos
MusicGen documenta que entrenó con 20.000 horas de música licenciada, incluyendo un dataset interno y librerías comerciales (Shutterstock, Pond5), con metadatos de género, BPM y tags integrados en el conditioning. Ese nivel de acceso a datos no está distribuido de forma uniforme en el ecosistema.
ACE-Step reporta un corpus de unas 100.000 horas y 1,8 millones de piezas musicales con cobertura multilingüe, una escala que implica pipelines de datos a nivel organizacional.
Stable Audio Open se restringe a fuentes Creative Commons y advierte explícitamente que esta elección puede limitar las capacidades del modelo.
La dinámica es clara: los catálogos propietarios y licenciados permiten amplitud, las fuentes abiertas mejoran la transparencia pero pueden limitar la cobertura.
- Cómputo
La investigación muestra algo muy concreto: para que un modelo mejore, hay que escalar datos y cómputo a la vez, y las ejecuciones de entrenamiento necesarias son muy grandes. Incluso una vez entrenado el modelo, generar audio largo sigue siendo costoso.
Que ACE-Step presente la velocidad como argumento competitivo y publique benchmarks en GPUs de gama alta (A100) es un reconocimiento de que la eficiencia de cómputo no es un detalle técnico, sino un eje de competencia real.
- Distribución
Es el cuello de botella menos discutido en papers técnicos, pero el que más afecta a la experiencia del músico. Las plataformas cerradas controlan la interfaz, el feed de comunidad, la mecánica de descubrimiento y el workflow por defecto.
Suno enfatiza funcionalidades de producto como la mejora de estructura y los «Personas» (perfiles de estilo/voz que se mantienen entre creaciones). Lo que fideliza al usuario no es solo un modelo mejor, sino toda la experiencia construida alrededor.
Udio se lanzó como un producto propietario cuyos creadores declinaron compartir detalles técnicos en entrevistas, señalando que el foso competitivo está en producto, datos y distribución, no en ciencia reproducible.
Lo que implica para el ecosistema
Los artistas se enfrentan a una bifurcación: mantener el control creativo adoptando modelos abiertos o autoalojados (lo que requiere capacidad técnica), o aceptar la dependencia de plataformas a cambio de conveniencia, calidad de interfaz y UX iterativa.
Los sellos y grandes catálogos tienen una ventaja estructural: pueden combinar datos musicales profundos con cómputo y desplegar modelos internamente o mediante partnerships. La descripción del dataset de MusicGen es un ejemplo concreto de cómo el acceso a librerías comerciales se traduce en calidad y control del modelo.
Las entidades de gestión se ven presionadas a adquirir competencia técnica sobre evaluación de modelos y proveniencia, aunque no entrenen modelos, porque las afirmaciones sobre la «calidad del modelo» afectan cada vez más al poder de negociación, la comunicación con artistas y las narrativas del sector.
La diferencia que marcan los modelos fundacionales en la industria musical
La distinción entre un modelo fundacional y uno especializado no es académica. Marca la diferencia entre herramientas diseñadas para una tarea concreta y plataformas que aspiran a ser la infraestructura sobre la que se construyen muchas tareas.
Lo que hemos visto en otros dominios, donde unos pocos modelos base concentran la capacidad y el ecosistema se organiza alrededor de ellos, está ocurriendo ahora en música.
Con una particularidad: la música tiene una industria de derechos, representación y gestión colectiva que no existe en texto o imagen. Eso convierte la pregunta de quién controla los modelos fundacionales en una pregunta con ramificaciones directas sobre derechos, ingresos y capacidad de negociación.
Los modelos abiertos distribuyen capacidad. Los cerrados la concentran. Ninguna de las dos opciones es buena o mala en abstracto. Pero entender la diferencia técnica, y las decisiones de diseño que subyacen a cada sistema, es condición necesaria para participar en el debate con criterio. Para los profesionales de la industria musical, la pregunta ya no es si los modelos fundacionales van a afectar a su trabajo, sino qué posición van a ocupar en el ecosistema que estos modelos están creando.

