Autoría de música generada por IA: ¿Por qué un prompt no te convierte en autor?

ETIQUETAS: derechos de autor, IA generativa, música IA
Análisis, Tecnología

mayo 29, 2026

La autoría de música generada por IA no se produce automáticamente cuando un usuario utiliza un modelo generativo para crear una canción. El prompt que escribe es una instrucción, no una partitura. El modelo resuelve dentro de ese espacio las decisiones musicalmente más densas: progresión armónica, timbre, fraseo, microestructura sonora. Y el corpus con el que fue entrenado no desaparece del resultado aunque la salida no reproduzca ninguna obra concreta. La genealogía estadística del modelo es parte de lo que está en la canción.

Gestionar derechos en música generativa requiere entender esa cadena de contribuciones. No basta con preguntar quién firmó o quién usó la herramienta. La pregunta técnicamente útil es qué parte del flujo puede probarse como humana, a qué nivel musical opera esa intervención y cómo se documenta.
Una función con muchas variables

Desde una perspectiva técnica, el output de un sistema de generación musical puede describirse como la salida de una función con varios inputs simultáneos: los pesos del modelo, los datos con los que fue entrenado, el prompt del usuario, los condicionamientos adicionales (melodía de referencia, letras, seed, parámetros de estilo), la interfaz del producto y las decisiones posteriores de selección y edición.

Esto no es una metáfora. Los papers fundacionales de texto a música lo reflejan con precisión: MusicLM (Google) condiciona la generación sobre descripciones textuales y también sobre melodía. MusicGen (Meta) genera a partir de texto o de rasgos melódicos. AudioLDM opera en un espacio latente de audio, usando embeddings de texto como condición durante el muestreo. En todos los casos, el usuario aporta restricciones semánticas o musicales, y el modelo resuelve la mayor parte de la microestructura sonora: la articulación de los ataques, la evolución tímbrica, la coherencia armónica a lo largo del tiempo.

El resultado no es «la música de la máquina» ni «la música del usuario». Es una cadena de contribuciones en la que cada eslabón aporta algo distinto. Quién diseñó el modelo, qué corpus lo entrenó, quién definió la interfaz, qué instrucciones dio el usuario, qué material aportó, qué versiones seleccionó y qué ediciones hizo en posproducción: todo eso forma parte del proceso, y cada factor deja huella en el resultado.

Formular la autoría como un binario borra esa cadena. Y borrarla convierte en irresoluble un problema que, con mayor precisión técnica, sí admite análisis.

El prompt como instrucción, no como partitura

El elemento más visible de la contribución del usuario es el prompt: la descripción textual o el conjunto de instrucciones que activa la generación. Conviene describir su función con exactitud, sin inflarla.

Los marcos jurídicos para la autoría de música contenido generadoa conpor IA varían de forma significativa entre jurisdicciones, y el debate está abierto. En el contexto europeo, la autoría exige una «creación intelectual propia del autor» según la doctrina consolidada del Tribunal de Justicia de la UE, criterio que los prompts de texto difícilmente satisfacen por sí solos. El análisis técnico del Parlamento Europeo (Brando, PE 776.529, julio 2025) apunta en la misma dirección. La U.S. Copyright Office ha alcanzado una conclusión equivalente para el sistema estadounidense: los prompts por sí solos no aportan control humano suficiente para convertir al usuario en autor del output. La razón, en ambos casos, es más técnica que jurídica: un prompt funciona como instrucción o condicionante, no como partitura detallada del resultado. Cuando alguien escribe «canción de pop melancólico con guitarra acústica y voz femenina», está describiendo un espacio de posibilidades muy amplio. El modelo elige, dentro de ese espacio, una realización concreta: qué progresión armónica, qué timbre de guitarra, qué fraseo vocal, qué micro-articulaciones.

Hay además una dimensión que se suele ignorar: la estocástica. Los sistemas generativos no producen siempre el mismo resultado ante el mismo prompt. Responden al prompt, claro, pero sumado al entrenamiento del modelo y a un proceso de muestreo con una parte aleatoria. Udio hace visible esta realidad al contarnos la lógica de la semilla que usan para generar una canción, lo que en argot se llama seed: con un prompt, ajustes y semilla idénticos, se puede reproducir un resultado concreto, aunque la plataforma advierte de que esa reproducibilidad puede no mantenerse para siempre. El detalle no es menor: una parte de la «decisión» creativa está desplazada al estado interno del sistema y al régimen de inferencia, no a la voluntad expresada en lenguaje natural por el usuario.

La pregunta técnicamente relevante, entonces, no es «¿se usó o no se usó IA?». Es “¿qué nivel de resolución creativa sobre variables musicalmente significativas conserva o recupera la persona a lo largo del proceso?”.

Del texto a la señal: el gradiente del control humano

La respuesta a esa pregunta varía mucho según el flujo de trabajo. Hay una diferencia técnica sustancial entre un prompt de texto y la aportación de letras propias, melodía guía, interpretación vocal o stems grabados previamente.

Suno v5.5 introduce tres funciones que ilustran este desplazamiento. Voices captura la esencia de la voz del usuario para que aparezca en las canciones generadas. Custom Models permite afinar el modelo con pistas propias. My Taste usa el historial de preferencias para personalizar los resultados.

Udio, por su parte, permite subir audio propio para extend, inpaint, remix o style, y exige que el usuario tenga derechos sobre ese material. En estos casos, la contribución ya no es solo simbólica: el usuario está aportando señal, timbre, fraseo y estilo empírico, elementos musicalmente mucho más densos que una descripción textual.

Cuando el usuario aporta letras propias, melodía guía o grabaciones previas, el sistema no está rellenando una intención verbal genérica. Está reexpresando, extendiendo o estilizando material humano anterior. . El análisis jurídico predominante en Europa y EE. UU. distingue estos casos de los prompts desnudos: cuando hay contenido expresivo humano perceptible en el resultado, o cuando la edición posterior controla la selección y colocación de elementos creativos, la evaluación cambia.

Esta gradación es más informativa para el sector musical que la discusión abstracta sobre si «la IA crea», y permite hacer preguntas concretas. ¿Hay letras humanas en el resultado? ¿Hay interpretación vocal fijada? ¿Hay melodía guía verificable? ¿Se editaron secciones específicas?

Las respuestas a esas preguntas no resuelven automáticamente la atribución jurídica, pero sí permiten describir con rigor la contribución humana.

Lo que los datos de entrenamiento dejan en el output

Hay un aspecto del proceso que los debates públicos sobre autoría suelen pasar por alto: la relación entre el output y el corpus de entrenamiento del modelo.

La afirmación más frecuente en comunicados de plataformas es que la IA «sintetiza» a partir de lo aprendido, produciendo algo nuevo que no reproduce ninguna obra concreta. Como descripción general del funcionamiento de estos sistemas es correcta. Como garantía de que el output no lleva huella del corpus de entrenamiento, es una afirmación demasiado fuerte.

La investigación técnica más reciente da forma a esa huella con mayor precisión. El trabajo de Pasado et al. (2024), Influence attribution in generative music models, mostró que la influencia estadística de ciertas obras del corpus de entrenamiento sobre los fragmentos generados superaba a la del propio prompt textual del usuario en el caso estudiado. Otro estudio reciente, Training data attribution for large-scale generative music models via unlearning (2025) extiende ese enfoque a gran escala, cuantificando la influencia de obras específicas del corpus de entrenamiento sobre el output. En paralelo, investigaciones sobre watermarking y mitigación de replicación en difusión de audio (técnicas para limitar la memorización del corpus de entrenamiento en modelos generativos) parten de la premisa de que los modelos pueden dejar rastros detectables o regenerar fragmentos demasiado próximos a sus datos de origen.

A esto se añade un fenómeno que el Parlamento Europeo, en un documento técnico de Axel Brando (PE 776.529, julio 2025), denomina derivación no visible: el modelo genera contenidos que incorporan elementos de sus datos de entrenamiento incluso cuando esos datos han sido eliminados del corpus de entrenamiento. La capacidad de regenerar resultados específicos demuestra que el valor reside en la estructura funcional aprendida del repertorio original, no en la presencia física del dato. Esta persistencia de la influencia está además oculta por una decisión de diseño. El XXII Seminario AIE (abril 2026) lo señala con precisión: los modelos actuales no incorporan trazabilidad por diseño, lo que impide establecer linajes fiables entre el output y las grabaciones originales utilizadas en el entrenamiento. Esa opacidad no es un límite técnico inevitable, es una elección de arquitectura.

La conclusión de esta evidencia acumulada no es la de una copia, es algo más preciso: la originalidad del output debe entenderse como una función de influencia probabilística sobre el corpus de entrenamiento. El documento de Brando lo formula así: las posibles infracciones no residen únicamente en el resultado final, sino en la relación estadística que el sistema mantiene con sus datos de origen, una relación que persiste incluso cuando esos datos ya no están físicamente en el sistema.

Este punto desplaza el marco de análisis para cualquier actor del sector.

Para los titulares de derechos en general, la pregunta deja de ser únicamente «¿copió o no copió?» y se convierte en algo más sofisticado: qué influencia tienen las obras del corpus de entrenamiento en el output y qué mecanismos de atribución y reparto de valor resultan adecuados a esa realidad.

Además, en el caso concreto de los sellos y distribuidoras, implica revisar qué garantías pueden ofrecer sobre la originalidad de un catálogo generado con IA.

Para las plataformas, plantea hasta qué punto sus sistemas de detección atacan la superficie del problema y no su genealogía.

Y para las y los artistas, productores y compositores, sitúa la documentación del proceso creativo como una forma de defensa ante cualquiera de esos interlocutores.

Narrativas de plataforma y lo que revelan

Las plataformas de generación musical han construido narrativas de autoría que merecen leerse con cuidado.

Suno afirma a la vez que «the best music starts with a human» (“la mejor música empieza con una persona”), que v5.5 «fully reflects the person making it» (“refleja plenamente a la persona que hay detrás”) y que escribir el prompt no constituye la creación de la canción.

En sus términos de servicio, Suno se reserva licencias amplias sobre el contenido y asigna los outputs al usuario solo en determinados planes de pago, añadiendo que no garantiza que exista copyright sobre esos outputs. El propio contrato incluye, además, una cláusula que desarma cualquier pretensión de unicidad:

“Debido a la naturaleza del aprendizaje automático, el Output podría no ser único entre usuarios y el Servicio podría generar el mismo resultado o un resultado similar para un tercero. Otros usuarios pueden enviar solicitudes similares y recibir el mismo Output. El Output que sea solicitado por y generado para otros usuarios no es tu Contenido.”

La plataforma construye una narrativa de autoría para incentivar la adopción, pero en el contrato que el usuario firma reconoce explícitamente que lo que genera puede ser idéntico a lo que genera otro. Esa combinación es técnicamente reveladora: la narrativa no equivale a una teoría consistente de creación.

ElevenLabs Music Marketplace ofrece un modelo distinto pero igualmente instructivo. Su arquitectura define el servicio como una biblioteca de canciones generadas por usuarios, donde otros usuarios compran licencias de uso, remezcla y descarga. El comprador no adquiere la obra «en propiedad»: adquiere un derecho de uso, las obras derivadas quedan sujetas a la misma clase de licencia y las licencias previas sobreviven aunque el creador elimine el tema del mercado. El «creator» cobra un porcentaje del precio como payout, a partir del 25%. Lo que la plataforma modela no es la figura del autor soberano sobre una obra singular, es la figura del publicador o licenciante dentro de una infraestructura cerrada de reutilización, una lógica mucho más cercana al stock music que a la canción como obra estable vinculada a una autoría fuerte.

Aterrizándolo sobre casos concretos ya existentes en el mercado, es posible ver que hay diferencias importantes. Por ejemplo, el caso de Xania Monet ilustra algo diferente: cómo responde el mercado cuando el audio está altamente mediado por IA. En 2025, Xania Monet fue descrita como la primera artista generada por IA en entrar en un chart de radio de Billboard (Billboard, 2025). Telisha «Nikki» Jones escribía las letras y usaba Suno para convertirlas en canciones. El proyecto firmó un acuerdo millonario con Hallwood Media (CBS News, 2025). La reacción de artistas como Kehlani y SZA no apuntó tanto a un detalle jurídico concreto como a una intuición de fondo: el mercado estaba reconociendo, promoviendo y monetizando un «artista» sin el tipo de trabajo performativo, corporal y profesional que se exige a los músicos humanos.

Lo que el caso muestra desde un punto de vista técnico no es que Jones sea la única autora del proceso generativo. Es que las infraestructuras culturales y económicas actuales siguen necesitando un sujeto humano o un proyecto gestionable al que imputar intención, responsabilidad, estrategia y monetización. El contrato, la notoriedad mediática y la defensa pública del proyecto se articularon alrededor de Jones y de la marca Xania Monet, no alrededor de Suno.

Las plataformas negocian la autoría en al menos tres capas que no siempre dicen lo mismo: el marketing, el contrato y el control técnico real. Leerlas por separado es condición necesaria para entender qué posición ocupa realmente el usuario.

Implicaciones para registro y gestión de derechos

La posición de AIE en este debate merece una aclaración técnica, porque AIE no es una entidad de autores sino de artistas intérpretes o ejecutantes. Sus criterios de admisión giran en torno a la participación en una interpretación o ejecución fijada: voz, instrumento, ejecución grabada. Si una pista ha sido generada sin participación de ningún intérprete humano, la arquitectura actual de AIE no ofrece una categoría evidente a la que adscribirla. Si, en cambio, hay voz o ejecución humana fijada, aunque luego haya mediación con IA, ese intérprete sí encaja en su lógica. La distinción no es cosmética: marca la diferencia entre una pista vocal humana procesada con herramientas de IA y una canción generada desde cero por el modelo.

La consecuencia práctica más directa para cualquier artista o productor que trabaje con estas herramientas es que cuanto más rica sea la documentación del flujo humano, más defendible será su aportación. Eso significa conservar borradores de letras, melodías guía, audios subidos, stems editados, historial de versiones, capturas de semillas y ajustes, y pruebas de interpretación vocal o instrumental. No existe todavía una métrica estándar para convertir esa documentación en un «porcentaje objetivo» de autoría, pero hay un consenso emergente en que la procedencia y el control granular importan. Los propios productos empiezan a exponer esos vectores: Udio documenta la semilla de generación (seed) y la edición sobre audio propio, Suno ofrece separación en stems y edición de secciones.

Una pregunta más precisa

El estado del arte no ofrece un medidor universal de contribución creativa en sistemas generativos. Pero sí ofrece las piezas de un sistema de atribución más serio: registro de procedencia, exposición de seed y parámetros, trazabilidad de ediciones, atribución de datos de entrenamiento y separación entre insumos humanos perceptibles y material generado autónomamente.

Lo que la investigación técnica más reciente propone, a través de trabajos sobre collective-centered creation y sobre cocreatividad humano-IA, no es la defensa de «la máquina como autora». Es el abandono del esquema de autor único. El resultado de un sistema generativo no tiene un creador en el sentido clásico del término: tiene una cadena de contribuciones en la que importan el diseño del modelo, la curación del corpus, la definición de la interfaz, los insumos del usuario y las decisiones posteriores de selección y edición.

Esa asimetría entre cómo funciona técnicamente la creación generativa y cómo está construido jurídicamente el sistema de autoría es probablemente el punto de mayor fricción para el sector musical en los próximos años. No está resuelta, y decirlo con claridad es más útil que fingir que la respuesta ya existe.

Esa formulación es técnicamente más honesta, más compatible con la forma en que trabajan los sistemas actuales y más útil para cualquier profesional que necesite defender la aportación de un artista ante una entidad de gestión, un sello o un tribunal.