Análisis de datos multimodales y su aplicación en tareas de recuperación de información musical

Ponente(s): Victor Muñiz Sánchez, Marco Tulio Pérez Ortega
Recuperación de información musical (MIR), es un área de investigación multidisciplinaria que busca extraer información importante de colecciones musicales. Sus aplicaciones son vastas, entre ellas, clasificación de género musical, transcripción automática, sistemas de recomendación, análisis de armonía, entre otros. Actualmente, la información digital que se genera es multimodal, es decir, se compone de distintas modalidades de información, y un ejemplo de ello son las colecciones musicales, donde podemos distinguir tres modalidades: acústica, editorial y cultural. En éste trabajo, se propone un modelo multimodal con fusión intermedia usando redes neuronales profundas que procesan información de audio a partir de espectrogramas de MEL e indicadores acústicos, información editorial mediante imágenes de portadas y tags editoriales, e información cultural mediante etiquetas de usuarios. El modelo propuesto incorpora redes neuronales convolucionales, word embeddings y filtros colaborativos. Abordamos dos tareas de MIR, clasificación de género y recuperación de tracks similares. Nuestros resultados son competitivos con algunos modelos de referencia en conjuntos de datos similares.