Optical Music Recognition (OMR) tool based on machine learning and computer vision techniques

Loading...
Thumbnail Image

Identifiers

Publication date

Authors

Sanjurjo Rodríguez, Antonio

Other responsabilities

Journal Title

Bibliographic citation

Type of academic work

Abstract

[Abstract]: Optical Music Recognition (OMR) is a technology derived from Optical Character Recognition (OCR) that enables the interpretation and digitization of sheet music from images. This project focuses on developing an OMR system specifically designed for piano scores, capable of automatically identifying musical symbols and converting them into a structured digital format suitable for reproduction. The system will combine image processing and machine learning techniques to recognize various musical elements such as staves, notes, rests, accidentals, articulations, and other notational symbols. These elements will then be logically organized to reconstruct the score in a coherent digital representation, taking into account their positions, relationships, and musical context. Three annotated image datasets were created for the recognition of musical symbols in sheet music, one consisting of 30 complete scores, another of 66 score fragments, and a last containing 688 labeled images of individual music symbols. Unlike the datasets commonly used in OMR research projects, these will be focused on usability, prioritizing standard sheet music over complex orchestral scores with a high density of symbols. A key challenge lies in ensuring the structural and rhythmic accuracy of the transcription, especially given the complexity and precision required in musical notation. The system will address this by analyzing the spatial and semantic relationships between symbols to maintain the proper metric and harmonic structure of the music. In addition to recognition and transcription, the project will include a audio playback engine to interpret and perform the generated digital score. This component will ensure accurate timing and synchronization, especially for sections where multiple notes are played simultaneously. Finally, an intuitive application will be developed to integrate all components into a userfriendly interface. This tool will serve as both a demonstration platform and a foundation for future improvements and extensions. All the source code, from the model training, to image processing and the usability tools in this project will be available as open source via GitHub, enabling other users to implement new features, and conduct experiments in other projects.
[Resumen]: El Reconocimiento Ópctico de Música (OMR) es una technología derivada del Reconocimiento Óptico de Caracteres (OCR) que permite la interpretación y digitalización de partituras de música a partir de imágenes. Este proyecto se centra en desarrollar un sistema OMR específicamente diseñado para partituras de piano, capaz de identificar automáticamente símbolos musicales and y convirtiéndoles en un formato digital apto para su reproducción. El sistema combinará el procesamiento de imágenes y técnicas de aprendizaje automático para reconocer los diferentes elementos musicales, como pentagramas, notas, silencios, alteraciones, articulaciones y otros símbolos de notación. Estos elementos se organizarán lógicamente para reconstruir la partitura en una representación digital estructurada, teniendo en cuenta sus posiciones, relaciones y su contexto musical. Tres datasets de imágenes fueron creadas para el reconocimiento de símbolos musicales en partituras, uno compuesto por 30 partituras completas, otro por 66 fragmentos de partituras, y un último formado por imágenes etiquetadas de símbolos individuales. A diferencia de los conjuntos de datos utilizados en proyectos de investigación en el área de OMR, estos estarán orientados a la usabilidad, priorizando partituras estándar en lugar de partituras orquestales complejas con alta cantidad de símbolos. Un desafío clave radica en asegurarar la precisión estructural y rítmica de la transcripción, debido especialmente a la complejidad y exactitud que requiere la notación musical. El sistema abordará este problema analizando las relaciones espaciales y semánticas entre los símbolos para mantener la estructura métrica y armónica adecuada de la música. Además del reconocimiento y la transcripción, el proyecto incluirá un motor de reproducción de audio para interpretar y ejecutar la partitura digital generada. Este componente garantizará una sincronización y temporización precisas, especialmente en secciones donde se tocan varias notas simultáneamente. Finalmente, se desarrollará una aplicación intuitiva para integrar todos los componentes en una interfaz amigable para el usuario. Esta herramienta servirá tanto como plataforma de demostración como base para futuras mejoras y ampliaciones. Todo el código fuente, desde el entrenamiento del modelo al procesamiento de imágenes y las herramientas de usabilidad desarrolladas en este proyecto estarán disponibles como código libre en GitHub, permitiendo a otros usuario llevar a cabo experimentos o implementar funciones adicionales.

Description

Editor version

Rights

Attribution-NonCommercial-ShareAlike 4.0 International
Attribution-NonCommercial-ShareAlike 4.0 International

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-ShareAlike 4.0 International