Applying Language Technology in ErrorDetection for Optical Music Recognition

Lier, Joakim Omberg

dc.contributor.advisor	Nytrø, Øystein
dc.contributor.author	Lier, Joakim Omberg
dc.date.accessioned	2023-05-15T17:27:34Z
dc.date.available	2023-05-15T17:27:34Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:23359673
dc.identifier.uri	https://hdl.handle.net/11250/3068087
dc.description.abstract	Etter fremveksten av teknikker som benytter dyp læring har Optical Music Recognition-løsninger som forsøker å lese og forstå noter sett store fremskritt. Teknikker som benytter dyp læring er ofte vanskelig å validere, noe som er et viktig skritt for å sikre korrektheten til en løsning. Det er vanlig å validere slike løsninger ved å sammenligne resultatene med håndlagde eller datagenererte fasiter. Dette krever at datasettene er av høy kvalitet, og at alle fasitene er korrekte. Ved å benytte veletablert teknologi som språkteori og kompilatorkonstruksjon kan en tilnærming som modellerer problemet være mer nøyaktig og mindre arbeidskrevenede enn den vanlig tilnærmingen innen dyp læring. Ved å modellere resultatdomenet kan man oppnå både lett og effektiv bekreftelse. Dette fjerner behovet for å skape fasiter for ethvert tilfelle. En ekstra fordel med dette er at det fjerner feilkilder, for eksempel feiltrykk i notene eller at testene ikke dekker alle tilfeller. En eksisterende grammatikk fra tidligere arbeider ble gjort om og en kompilator front-end ble implementert. I tillegg ble det også utført en studie av formelle språk for å finne nye og elegante måter å utvide grammatikken på. Dette ga gode resultater. Kompilatoren ble testet på datasettet PRiMuS og viste en feilrate på bare 0,14%, som betyr at det er en god representasjon av det resultatdomenet. Noen av disse feilene viste seg å være tidligere urapporterte feil i datasettet som nå kan fjernes eller fikses.
dc.description.abstract	With the rise of deep learning techniques, Optical Music Recognition software that aims to read and understand musical notation has seen great progress. However, deep learning techniques are often difficult to validate, which is a crucial step in order to ensure the correctness of a solution. It is common to validate deep learning solutions by comparing results to hand crafted or computer generated ground truth representations. This requires the quality of the data sets to be very high, as well as every ground truth representation to be correct. By utilizing well established technology like language theory and compiler construction, a modelling approach can prove to be more accurate and less labour intensive than the common practice in deep learning today. Creating a model of the result domain may lead to both easy and efficient verification. This eliminates the need for creating ground truth representations to cover every scenario. An added benefit of this is that it removes many sources of errors, such as misprints and lack of coverage in the tests. An existing grammar was reworked and a compiler front-end was implemented. Additionally, a study of formal languages was also conducted in order to find new and elegant ways of extending the grammar. This yielded good results. The compiler front-end was tested on the PRiMuS dataset and exhibited an error rate of only 0.14%, which indicates a good representation of the intended language. Some of these errors turned out to be previously unreported errors in the data set, which can now be removed or fixed.
dc.language	eng
dc.publisher	NTNU
dc.title	Applying Language Technology in ErrorDetection for Optical Music Recognition
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:57320302:23359 ...
Størrelse:: 6.780Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6558]

Vis enkel innførsel