MusicLM: La inteligencia artificial capaz de generar música

MusicLM es el nuevo proyecto de Google, que fue publicado recientemente. Este modelo de lenguaje propone generar música por medio de texto ingresado por el usuario. Aunque esta idea no es nueva, pues existen proyectos similares desde hace varios años, los desarrolladores de Google afirman que MusicLM se caracteriza por brindar composiciones de alta calidad fieles a las instrucciones solicitadas (cabe aclarar que mientras más extenso sea el texto ingresado en esta herramienta, mejores resultados se podrán obtener).

Un punto a favor de MusicLM es su capacidad de generar melodías de larga duración. Cuando interactúas con una inteligencia artificial notarás que en una conversación larga, la herramienta es incapaz de recordar el inicio de la interacción. Este es un gran inconveniente para el proyecto, porque una canción debe tener coherencia desde el inicio hasta el final de la misma, los desarrolladores de Google tomaron esta debilidad en cuenta y crearon un modelo capaz de generar tokens semánticos y acústicos que mantienen la estructura de la melodia a corto y largo plazo.


Imagen extraída de aquí


Al ver los sorprendentes resultados del modelo, puedes pensar que un proyecto así de prometedor debería de haber sido creado desde hace bastante tiempo, técnicamente eso es correcto, pues la base utilizada para crear este modelo fue AudioLM, otra tecnología de Google. El objetivo de AudioLM es utilizar la inteligencia artificial para generar una continuación del habla que mantenga una consistencia prácticamente perfecta, en otras palabras, en lugar de generar música por medio de texto se generan enunciados coherentes a partir de un audio original, no hace falta la intervención del usuario, el modelo por sí mismo escoge los conectores textuales correctos para crear discursos coherentes.


Debemos admitir que el funcionamiento y los resultados de MusicLM son impresionantes, sin embargo Google proporciona muchas otras opciones diferentes al texto para generar música, por ejemplo: 


Modo historia

Se puede definir una secuencia de indicaciones para que una canción tenga diferentes etapas, es decir, el usuario indica al modelo que desde el segundo 20 al segundo 45 debe mantenerse un ritmo tranquilo y que justo en el segundo 45 al 60 se incremente el ritmo al cien por ciento.




Imagen extraída de aquí

Acondicionamiento por texto y melodía

El modelo genera música desde una melodía agregada por el usuario y la adapta según el texto ingresado, la combinación de dichas instrucciones provoca resultados cautivadores.



Imagen extraida de aquí


Acondicionamiento por texto y pintura 

Esta opción es bastante parecida a la anterior, el modelo utiliza la descripción de un cuadro famoso y la imagen del mismo para crear un fragmento musical inspirado en ello.



Imagen extraida de aquí


Además este modelo puede generar música utilizando géneros musicales, instrumentos, lugares, épocas, entre otras opciones. Sin lugar a dudas, es bastante interesante escuchar cada una de las creaciones de esta IA. Hay que aceptar que muchas veces la música generada no es perfecta, en especial cuando se pide recrear una voz humana, pero los resultados actuales serán cruciales para el perfeccionamiento de futuras melodías.


En conclusión, este proyecto tiene un gran potencial y de seguro veremos mejoras a lo largo de este año, si deseas escuchar por ti mismo las creaciones de MusicLM, abajo se encuentra toda la documentación de este proyecto.


Consultas:


https://google-research.github.io/seanet/musiclm/examples/

https://github.com/lucidrains/musiclm-pytorch

https://arxiv.org/pdf/2301.11325.pdf

https://google-research.github.io/seanet/audiolm/examples/


No hay comentarios:

Con la tecnología de Blogger.