Deep learning solution for automatic audio copy move forgery detection
Abstract
Autentisiteten til lydopptak er viktig i kriminaltekniske undersøkelser ettersom digitale medier blir stadig mer utbredt. Denne masteroppgaven utforsker utviklingen av automatiserte løsninger for Audio Authenticity Analysis (AAA), med fokus på å identifisere copy-move forfalskninger (CMF) i lydfiler. Oppgaven bruker en maskinlæringsteknikk, spesifikt et Convolutional Neural Network (CNN). Ved å konvertere lydfiler til Mel-spektrogrammer, og bruke de som input til CNNmodellen, kan systemet lære seg å gjenkjenne mønstre som indikerer manipulasjoner som CMF.
Et nytt datasett ble laget for denne oppgaven, basert på lydfiler fra NB-tale datasettet. Datasettet består av forfalskninger og originalfiler. Dette datasettet ble brukt til å trene og teste modellen. Resultatene viser at CNN-modellen effektivt kan oppdage forfalskninger i korte lydklipp. Betydlige utfordringer gjenstår fortsatt knyttet til å oppdage forfalskninger i lengre lydfiler der de kopierte og limte segmentene potensielt ligger langt fra hverandre i lydfilen.
Masteroppgaven bidrar til utviklingen innen digital etterforskning ved å utvikle et system for å oppdage CMF og et Noksk CMF-datasett. Funnene legger grunnlaget for fremtidige fremskritt innen automatisk analyse av lydautentisitet, og fremhever behovet for ytterligere forskning for å forbedre modellens robusthet og anvendelse i kriminalteknisk praksis. The authenticity of audio recordings is becoming more important in forensic investigations as digital media becomes increasingly prevalent. This masters thesis explores the development of automated solutions for Audio Authenticity Analysis (AAA), focusing on identifying and distinguishing between original audio files and audio copy-move forgeries. The study applies a Convolutional Neural Network (CNN) to the field of audio forensics. By converting audio signals into visual representations, such as Mel spectrograms, and providing them as input to the CNN model, the system can be trained to effectively recognise patterns indicative of manipulations such as copy-move forgeries.
A novel dataset was created for this study, derived from the NB Tale speech database, consisting of both copy-move forgeries and original files. This was used to train and test the performance of the model. The results demonstrate that the CNN model, enhanced with dynamic data augmentation and regularisation techniques, can effectively detect forgeries in short audio clips. However, challenges remain in detecting forgeries in longer audio files where copied and pasted segments are temporally distant.
This research contributes to the evolving field of digital forensics by, developing a system for copy-move forgery detection and providing a Norwegian copymove forgery dataset. The findings lay the groundwork for future advancements in the automatic analysis of audio authenticity, highlighting the need for further research to improve the model’s robustness and applicability in real-world forensic scenarios.