Blind Location Identification using Speech Recordings from Reverberant Rooms
Abstract
Dette studiet utforsker en metodikk for blind romidentifikasjon ved å analysere taleopptak fra etterklangsfylte miljøer. Den foreslåtte modellen sammenligner to taleopptak for å støtte etterforskere i å avgjøre om de stammer fra samme rommiljø. Dette forbedrer beslutningstaking og reduserer avhengigheten av subjektive vurderinger i en etterforskningskontekst. Logaritmiske Mel-spektrogrammer ble brukt som signalrepresentasjon på grunn av deres evne til å fremheve lydstyrke i lavere frekvensbånd, noe som speiler menneskelig hørselspersepsjon. Disse logaritmiske spektrogrammene ble videre input i et Siamese Convolutional Neural Network hvor to input behandles av gangen. Dataene ble representert gjennom triplet-generering, bestående av et anker, en positiv og en negativ prøve, hvor målet er å maksimere avstanden mellom ankeret og den negative prøven og minimere avstanden mellom ankeret og den positive prøven.Studiet utforsket to metoder for preprocessing av dataene: Baseline metoden brukte vanlig tale, mens den andre metoden brukte disse taleprøvene med etterklangforsterkning.Evalueringen av de eksperimentelle resultatene viste at tilnærmingen med etterklangsforsterkning ga høyere presisjon og generaliserbarhet, med over 60% nøyaktighet i å korrekt bestemme de mest like prøvene blant de top 5 nærmeste med en tilfeldig sjanse på 1:27 i å nøyaktig velge den riktige prøven. Dette understreker viktigheten av etterklangsforsterking for oppgaver som krever detaljert akustisk karakterisering. Data-augmentation teknikker, inkludert Gaussian og pink støy, forbedret modellens robusthet og generalisering. Studiet avslørte også at uniform normalisering av spektrogrammet med standard mean normalisering gjorde kritiske akustiske egenskaper mindre synlig, noe som understreker behovet for å bevare opptakenes naturlige skala for oppgaver innenfor domenet Acoustic Environment Identification (AEI). This study explores a methodology for blind room identification by analyzing speech recordings from reverberant room environments. The proposed model provides a similarity metric between two speech samples to support investigators in determining whether they originate from the same room environment. This enhances decision-making and reduces reliance on subjective judgments in an investigational context. Logarithmic Mel spectrograms were used as the signal representation due to their ability to emphasize loudness in lower frequency bands, mirroring human auditory perception.These Logaritimic spectrograms were processedusing a Siamese structures Convolutional neural network (CNN), where two inputs are processed simultaneously. The data was presented in a triplet formation, consisting of an anchor, a positive, and a negative sample, where the goal is to maximize the distance between the anchor and the negative sample and minimize the distance between the anchor and the positive sample. The study explored two preprocessing approaches: the baseline used regular speech, while the second approach used these speech samples with reverberant enhancement. Evaluation of the experimental results illustrated that the reverberant-enhanced approach provided higher precision and generalizability, with over 60% accuracy in correctly determining the most similar sample as the top 5 similar samples, with a random chance of 1:27.This underscores the importance of reverberant processing for tasks requiring detailed acoustic characterization. Data augmentation techniques, including Gaussian and pink noise, improved the model's robustness and generalization, while the study also revealed that uniformly normalizing the spectrogram with standard mean normalization obscured critical acoustic properties, highlighting the need to preserve the recordings' at their natural scale for tasks in the domain of Acoustic Environment identification (AEI).