Los modelos de comprensión musical analizan y describen canciones completas, abriendo nuevas aplicaciones para artistas, discográficas y gestión de derechos.
El debate público sobre música e inteligencia artificial se ha centrado casi exclusivamente en un tipo de modelo: el que genera música. Plataformas como Suno o Udio, capaces de producir canciones completas a partir de un texto, han acaparado la atención mediática y la preocupación de la industria.
Pero hay otra rama de la IA musical que ha recibido mucha menos atención y que podría ser igual de relevante para artistas y gestores de derechos: los modelos de comprensión musical.
¿Qué son los modelos de comprensión musical y en qué se diferencian de los generativos?
Un modelo generativo toma un texto como «balada pop melancólica con piano» y produce audio. Un modelo de comprensión hace lo contrario: recibe una canción y produce texto (una descripción, un análisis, una respuesta a una pregunta sobre lo que suena).
No crea música. La analiza, la clasifica, la «entiende». Un modelo como Music Flamingo, por ejemplo, puede tomar un archivo de audio y devolver algo como: «Tema en tonalidad de Fa Mayor, tempo aproximado de 125 BPM, con sintetizadores analógicos predominantes, estructura verso-precoro-coro y letra que utiliza la metáfora del viaje como exploración interior».
Esta distinción es técnicamente precisa y tiene implicaciones prácticas directas. Los modelos generativos abren vías para crear contenido nuevo (con todas las oportunidades y conflictos de derechos que eso implica). Los modelos de comprensión ofrecen herramientas para gestionar, catalogar, identificar y, en su caso, proteger la música que ya existe. Son, en cierto modo, el reverso técnico de la misma moneda.
Music Flamingo: el modelo de comprensión musical de NVIDIA y UMG
El ejemplo más reciente y ambicioso de esta segunda categoría es Music Flamingo, un modelo desarrollado por NVIDIA en colaboración con la Universidad de Maryland, capaz de procesar canciones completas (hasta 20 minutos de audio) analizando armonía, estructura, timbre, letras y contexto cultural. En enero de 2026, Universal Music Group y NVIDIA anunciaron una colaboración para aplicar esta tecnología al catálogo de UMG, con un objetivo explícito: «proteger el trabajo de los artistas y asegurar la atribución apropiada del contenido musical».
No es casual que sean estas dos compañías. NVIDIA es el mayor proveedor mundial de infraestructura de computación para IA: sus GPU (Unidades de Procesamiento Gráfico) entrenan prácticamente todos los modelos de los que hablamos en estos artículos. Universal Music Group es la mayor discográfica del mundo, con un catálogo que abarca décadas y millones de grabaciones. Que el líder en infraestructura de IA y el líder en contenido musical se alíen específicamente en torno a modelos de comprensión (no de generación) señala hacia dónde se dirige la próxima fase de la IA en la industria musical: no solo hacia crear, sino hacia entender, catalogar y gestionar a escala lo que ya existe.
Cómo funcionan los modelos de comprensión musical: Dos enfoques técnicos, dos propósitos distintos
Para entender qué diferencia a un modelo de comprensión de uno generativo, conviene mirar cuatro dimensiones: qué arquitectura tienen, para qué se entrenan, qué datos consumen y producen y para qué se usan.
Arquitectura
Los modelos generativos emplean arquitecturas capaces de sintetizar audio. Algunos usan transformers autoregresivos que predicen secuencias de tokens de audio (como MusicLM de Google, que genera música token a token). Otros usan modelos de difusión que producen espectrogramas a partir de ruido, refinándolos iterativamente hasta obtener una señal coherente. En ambos casos, el modelo termina con un componente que genera sonido: un vocoder o un módulo de síntesis de audio.
Los modelos de comprensión tienen una arquitectura diferente. Combinan un encoder de audio con un modelo de lenguaje (LLM): el encoder procesa la música y el LLM genera texto a partir de lo que el encoder ha captado. El resultado es un modelo capaz de describir en texto lo que ha escuchado. Más adelante veremos en detalle cómo funciona esta arquitectura en el caso de Music Flamingo.
Objetivo de entrenamiento
Un modelo generativo aprende a predecir o recrear audio. Se entrena con pares de prompts y audio (por ejemplo, una descripción textual asociada a un fragmento musical), optimizando la calidad del sonido producido: que suene real, que sea coherente, que se parezca a la música humana.
Un modelo de comprensión se entrena para analizar y describir. Sus tareas de entrenamiento incluyen captioning (generar descripciones textuales de lo que suena), responder a preguntas sobre la música (¿qué instrumentos se usan?, ¿cuál es la tonalidad?) o clasificar atributos como género, tempo o emoción. El modelo no aprende a producir sonido, sino a extraer significado del sonido.
Una categoría intermedia
Existe también una tercera vía: los modelos de embeddings conjuntos, que no generan texto extenso ni audio, sino que proyectan audio y texto en un mismo espacio de representación numérica, permitiendo buscar música mediante descripciones textuales o viceversa. Veremos ejemplos concretos (como CLAP y MuLan) en la sección sobre el ecosistema más amplio de modelos de comprensión.
Aplicaciones
Los modelos generativos se aplican a la creación musical asistida por IA: generar ideas, instrumentaciones, pistas completas o música de fondo adaptada a un contexto.
Los modelos de comprensión se aplican al análisis y la organización del contenido musical existente: catalogación automática, búsqueda y recomendación basada en el contenido real de la música (no solo en etiquetas de género), detección de contenido generado por IA, sistemas avanzados de identificación de obras y asistentes que pueden explicar la teoría musical de cualquier canción. Esta segunda función, la comprensión, es cada vez más necesaria a medida que la cantidad de contenido musical, tanto humano como sintético, crece de forma exponencial.
Music Flamingo: cómo funciona un modelo que «escucha» canciones enteras
Music Flamingo es la tercera generación de la arquitectura Audio Flamingo (denominada Audio Flamingo 3). Cuenta con aproximadamente 8.000 millones de parámetros y representa uno de los modelos de comprensión musical más avanzados hasta la fecha. Su diseño tiene varios elementos técnicos que vale la pena desglosar.
Una arquitectura que combina audio y lenguaje
La arquitectura de Music Flamingo parte del modelo Flamingo original de DeepMind (uno de los departamentos de investigación de Google, responsables entre otros avances del paper Attention Is All You Need que dio origen a los transformers y los LLM, y de AlphaFold para la predicción de plegado de proteínas). Flamingo fusionaba visión con lenguaje, Music Flamingo adapta ese mismo enfoque al dominio musical.
Tiene dos componentes principales:
- Un encoder de audio, similar al de Whisper (el modelo de transcripción de voz de OpenAI), pero ampliado para procesar audio musical polifónico y multilingüe. Este encoder transforma la señal sonora (ondas o espectrogramas) en una secuencia de tokens de audio: representaciones numéricas que capturan las características del sonido.
- Un decoder de lenguaje de gran tamaño (del orden de 8.000 millones de parámetros), basado en una arquitectura transformer autoregresiva. Este componente recibe las representaciones del encoder y genera texto coherente sobre la música.
La conexión entre ambos se realiza mediante capas de cross-attention (atención cruzada): las representaciones del encoder de audio se inyectan en las capas del modelo de lenguaje, permitiendo que el decoder acceda a los detalles musicales mientras genera sus descripciones. El resultado es un modelo capaz de producir texto largo y coherente sobre lo que escucha, combinando descriptores de bajo nivel (timbre, ritmo, frecuencias) con conceptos de alto nivel (estructura narrativa, contexto cultural, intención emocional).
Escuchar canciones completas, no fragmentos
Music Flamingo puede procesar aproximadamente 24.000 tokens de audio, lo que equivale a unos 20 minutos de música continua: esto significa que puede procesar una canción entera en una sola pasada en lugar de tener que trocear el tema.
Esto es relevante porque muchas de las propiedades que definen una pieza musical solo se perciben a escala de canción completa: la estructura (intro, versos, coro, puente), los cambios graduales de dinámica o tempo, la progresión narrativa de la letra. Un modelo limitado a fragmentos de 30 segundos no puede captar estas dimensiones. Music Flamingo escucha la pieza entera, desde los detalles locales hasta la macroestructura, antes de emitir su análisis.
Lograr este contexto extendido requirió optimizaciones en el encoder (más memoria, técnicas de paralelización eficientes) y capas adaptadoras para mantener baja la latencia a pesar del volumen de datos procesado.
Saber dónde ocurre cada cosa: Rotary Time Embeddings
Para manejar secuencias musicales largas con precisión temporal, Music Flamingo introduce una técnica llamada RoTE (Rotary Time Embeddings, embeddings temporales rotatorios). En lugar de la codificación posicional lineal habitual en modelos transformer, RoTE asigna a cada token de audio una componente que indica su timestamp absoluto en la canción, usando una representación angular rotatoria.
En lugar de saber solo que un token es «el número 5.000 en la secuencia», RoTE le asigna una marca temporal real: «esto ocurre en el minuto 2:30 de la canción». Gracias a esto, Music Flamingo puede generar respuestas como «en el minuto 2:30 entra un solo de saxofón» o vincular fragmentos de letra a momentos concretos de la música, algo que sin una noción explícita de tiempo no sería posible.
Razonar como un músico, no solo clasificar
Una de las innovaciones más llamativas es que Music Flamingo fue entrenado para razonar paso a paso antes de dar una respuesta, siguiendo un proceso similar al chain-of-thought (cadena de razonamiento) que se ha demostrado eficaz en modelos de lenguaje.
Durante el entrenamiento se le proporcionó un conjunto de datos llamado MF-Think, donde cada pregunta sobre música venía acompañada de un razonamiento intermedio paso a paso antes de la respuesta final. En estos razonamientos intermedios, el modelo desglosa la armonía (identificando tonalidad y acordes), el ritmo (patrones de compás, síncopas), el timbre (instrumentos y texturas sonoras) y la intención emocional de la pieza. En lugar de clasificar directamente («esto es jazz»), aprende a justificar su análisis con observaciones concretas, como lo haría alguien con formación musical.
Tras esta fase supervisada, se aplicó un refinamiento por Reinforcement Learning (aprendizaje por refuerzo), con recompensas diseñadas para premiar explicaciones musicalmente correctas, detección precisa de metadatos (tempo, tonalidad, acordes) y referencias fieles a la letra. El método específico utilizado se denomina GRPO (Group Reward PPO).
Qué puede hacer en la práctica
El resultado de todo este diseño es un modelo con capacidades de análisis musical que superan a las de modelos multimodales generales como GPT-4 (con capacidad auditiva) en más de 10 benchmarks de comprensión musical.
El ejemplo que veíamos al inicio (tonalidad, tempo, sintetizadores, estructura y metáfora lírica identificados de un solo tema) no es un caso aislado. En pruebas con canciones inéditas, Music Flamingo fue capaz además de analizar la progresión armónica, incluyendo el uso de subdominante y dominante para mantener el tono optimista, con acordes menores introduciendo brevemente introspección en los versos. Todo en una sola respuesta cohesiva.
Sus capacidades incluyen generar descripciones largas y detalladas de canciones, identificar instrumentos, transcribir letras en múltiples idiomas, seguir progresiones armónicas con precisión, localizar eventos musicales dentro de la pista y hacerlo todo con consciencia del contexto cultural de cada canción.
Aplicaciones prácticas de los modelos de comprensión musical
La capacidad de «entender» música a escala abre aplicaciones concretas para sellos, plataformas, entidades de gestión y artistas.
Catalogación inteligente
Los modelos de comprensión pueden analizar automáticamente grandes catálogos y generar metadatos detallados de cada obra. En lugar de depender exclusivamente del etiquetado manual (un proceso lento, costoso y a menudo inconsistente), un modelo como Music Flamingo puede producir descripciones del nivel de unas notas de álbum profesionales: progresiones de acordes, instrumentación, detalles de mezcla y arcos emocionales.
Para discográficas y editoriales, esto agiliza la indexación y búsqueda de temas para sincronizaciones, compilaciones o reversiones. Para sociedades de gestión, facilita bases de datos enriquecidas donde cada obra cuenta con descriptores estandarizados de género, tempo, tonalidad, instrumentos e idioma de la letra, mejorando la identificación y el registro del repertorio.
Recomendación que va más allá del género
Los sistemas de recomendación actuales se basan principalmente en hábitos de escucha, artistas similares o etiquetas genéricas de género. Un modelo de comprensión permite recomendar música en función de lo que la música realmente contiene: narrativas emocionales, arreglos instrumentales, contexto cultural.
La visión que NVIDIA y UMG describen para Music Flamingo apunta a descubrimientos personalizados basados no solo en género o tempo, sino en «narrativa emocional y resonancia cultural». Esto podría beneficiar tanto a artistas consolidados (conectar más profundamente con audiencias afines) como a artistas emergentes (ser descubiertos por fans que buscan exactamente el tipo de experiencia musical que su obra ofrece, independientemente de su visibilidad en playlists algorítmicas).
Detección de contenido sintético
Los modelos de comprensión son también herramientas para gestionar los efectos de los modelos generativos. Un caso ya operativo es el de Deezer, que en 2025 desplegó un sistema de detección de música generada por IA en su plataforma. Según sus datos, cerca del 30% de las nuevas subidas diarias eran música sintética, buena parte de ella cargada con intención de acaparar reproducciones y royalties mediante bots. El sistema de Deezer identifica con alta precisión el audio proveniente de modelos conocidos como Suno y Udio (aunque esa precisión puede caer ante audio manipulado o modelos nuevos), permitiendo etiquetarlo, excluirlo de recomendaciones y descontar sus reproducciones del reparto.
Este tipo de clasificador, que separa contenido genuino de generado, es cada vez más necesario a medida que el volumen de subidas sintéticas crece, aunque aún está lejos de ser un sistema infalible. Para discográficas y entidades de gestión, protege la integridad del catálogo y asegura que los ingresos por derechos lleguen a quienes crean música.
Identificación y atribución más sofisticadas
Los sistemas actuales de identificación de contenido, como Content ID de YouTube o Audible Magic, reconocen audio exacto previamente registrado. Un modelo de comprensión puede ir más allá: detectar un sample no declarado, reconocer una melodía tocada en otro tempo o instrumento, o identificar coincidencias melódicas o líricas entre obras registradas.
Un objetivo explícito de la alianza UMG–NVIDIA es usar la IA para rastrear cuándo una canción incorpora elementos de otra (un remix no autorizado, un cover sin licencia) y asignar el crédito correspondiente. Un modelo que entiende acordes, letras y estructuras podría también facilitar la documentación de créditos, identificando las contribuciones de cada intérprete o instrumento en una grabación.
Monitorización de uso
Las entidades de gestión podrían usar modelos de comprensión para una monitorización más granular del uso de música en streaming, broadcast y contenido generado por usuarios. No solo detectar qué canción suena, sino en qué contexto (de fondo, en directo, remixada) y durante cuánto tiempo, generando datos enriquecidos para un reparto de derechos más preciso.
Ecosistema completo de modelos de comprensión musical
Music Flamingo no es un caso aislado. Hay otros modelos y proyectos que abordan la comprensión musical desde ángulos complementarios.
CLAP (Contrastive Language-Audio Pretraining, 2022), desarrollado por investigadores de Microsoft y Columbia, entrena dos encoders paralelos (uno de audio y otro de texto) para proyectar ambos en un espacio de representación común. Se entrenó con unos 128.000 pares de audio con descripciones textuales y permite buscar sonidos mediante texto, clasificar audio sin entrenamiento específico o emparejar canciones con comentarios relevantes. CLAP es al audio lo que CLIP ha sido a las imágenes: una base para conectar lo que suena con lo que se dice sobre ello. Es un modelo abierto (LAION publicó variantes públicas) y ha servido como encoder generalista en sistemas más grandes.
MuLan (Music-Language, Google, 2022) sigue un enfoque similar pero a una escala mayor: se entrenó con 44 millones de grabaciones musicales (aproximadamente 370.000 horas) junto con textos asociados de forma débil: descripciones libres, metadatos, comentarios. El resultado fue un espacio vectorial musical que permitió funcionalidades zero-shot: etiquetar género, estado de ánimo o instrumentos, buscar música mediante texto o entender indicaciones complejas sin haber sido entrenado específicamente para cada tarea. MuLan sustituyó las taxonomías fijas de etiquetas musicales por una representación flexible en lenguaje natural, y sus embeddings sirvieron como base semántica para MusicLM, el modelo generativo de Google. Pero esas mismas representaciones son valiosas por sí solas para tareas de comprensión.
El detector de Deezer (2025) es el primer sistema de etiquetado de música IA desplegado a escala en una plataforma de streaming. Su método, documentado en un paper presentado en IEEE ICASSP 2025 y con código abierto en GitHub, entrena clasificadores sobre audio real frente a reconstrucciones artificiales generadas por auto-encoders, logrando una precisión del 99,8% en condiciones controladas. Deezer ha solicitado dos patentes sobre la tecnología.
Más allá de estos casos, las grandes plataformas de IA multimodal están incorporando audio en sus modelos. OpenAI habilitó capacidades de reconocimiento de audio en GPT-4, Google trabaja en comprensión audiovisual avanzada con Gemini, y laboratorios independientes han explorado modelos como MERT (Music Embedding Representation and Transfer) para evaluar embeddings musicales universales. Comunidades open source experimentan con combinaciones de Whisper (el modelo de transcripción de OpenAI) con LLMs, siguiendo un esquema similar al de Flamingo pero con modelos más pequeños.
No se trata solo de NVIDIA. Estamos ante el inicio de una categoría más amplia de modelos de lenguaje de audio capaces de entender la música desde distintos ángulos.
Qué implica esto para artistas y gestores de derechos
Si se comprueba que estos modelos funcionan bien
Si los modelos de comprensión alcanzan un desempeño sólido y fiable, podrían optimizar procesos que hoy son manuales, lentos o imprecisos. La identificación de canciones en cualquier contexto (streaming, radio, redes sociales, contenido generado por usuarios) sería casi instantánea y exhaustiva, asegurando que el uso de música quede registrado para su monetización. La documentación de metadatos (intérpretes, compositores, letras, samples) podría automatizarse, reduciendo errores y trabajo administrativo.
Para los artistas, estos modelos abren posibilidades de conexión con el público que van más allá de las playlists algorítmicas: experiencias donde fans puedan explorar el significado, la composición o la historia de una canción a través de una IA que la ha analizado en profundidad. La visión de UMG y NVIDIA apunta a que un «catálogo musical pueda explorarse como un universo inteligente: conversacional, contextual e interactivo».
Los riesgos que no se pueden ignorar
El primero es la concentración de poder tecnológico. Desarrollar y operar estos modelos requiere recursos computacionales y datos que solo unos pocos actores pueden reunir. Si las herramientas clave para la gestión musical global quedan en manos de grandes tecnológicas o de grandes discográficas asociadas a ellas, las organizaciones más pequeñas o independientes podrían volverse dependientes de herramientas privadas, con los costes y limitaciones de acceso que eso implica. Esto plantea una pregunta de soberanía tecnológica para la industria: ¿deberían las entidades de gestión confiar exclusivamente en modelos de terceros, o impulsar desarrollos abiertos o propios?
El segundo riesgo es el de los errores automatizados. Una IA podría etiquetar erróneamente una canción como «generada por IA» y dañar la reputación de un artista, o pasar por alto un sample sutil y no detectar una infracción. La calidad no perfecta del modelo puede generar disputas si se toma como autoridad. El criterio humano sigue siendo necesario como última instancia en decisiones complejas.
El tercero es el sesgo cultural. Un modelo entrenado mayoritariamente con música occidental será menos preciso al analizar tradiciones musicales no occidentales, lo que podría afectar la visibilidad de ciertos repertorios. Music Flamingo trató de mitigar esto equilibrando géneros y culturas en sus datos de entrenamiento, pero el sesgo en los datos es un problema sistémico que ningún modelo resuelve completamente.
Oportunidades para las entidades de gestión
Para organizaciones cuya misión es rastrear y remunerar el uso de interpretaciones musicales, como AIE, los modelos de comprensión ofrecen herramientas concretas: monitorización continua en múltiples medios para detectar cada aparición de una grabación del repertorio (incluso en fragmentos cortos o mezclados), documentación automatizada de las contribuciones de cada intérprete en una grabación y la capacidad de diferenciar obras humanas de sintéticas, lo que podría fundamentar un trato diferenciado en plataformas.
Iniciativas como la incubadora de artistas anunciada en el acuerdo UMG–NVIDIA sugieren que involucrar a los creadores en el desarrollo de estas herramientas resulta productivo. Las entidades de gestión podrían impulsar colaboraciones similares, donde artistas y tecnólogos diseñen juntos usos de la IA que potencien la gestión de derechos sin comprometer la autoría.
El equilibrio entre aprovechar estas herramientas y no depender excesivamente de ellas será una de las decisiones estratégicas más importantes para la industria musical en los próximos años. Los modelos de comprensión no van a resolver por sí solos los problemas de gestión de derechos en la era de la IA, pero ofrecen capacidades técnicas que, bien aplicadas, pueden hacer que la música sea más fácil de descubrir por su contenido, más fácil de gestionar por su trazabilidad y más difícil de explotar sin atribución.

