Vis enkel innførsel

dc.contributor.advisorSvensson, Peter Solvang, Audun
dc.contributor.authorJaworski, Mikolaj
dc.date.accessioned2021-09-15T17:04:50Z
dc.date.available2021-09-15T17:04:50Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:54579301:26325085
dc.identifier.urihttps://hdl.handle.net/11250/2778148
dc.description.abstractMed den stadig økende populariteten knyttet til lydinnspilling i medier som podcast og livestreaming av konserter, er det av interesse å studere metoder som kan forbedre lytteopplevelsen, samt automatiseringen av postprosesseringen for disse bruksområdene. En spesielt interessant forbedring er full automatisert lydmiksing. En slik forbedring vil potensielt eliminere behovet for en lydtekniker, og kan føre til en løsning som automatisk genererer lyd i stereo eller mer komplekse 3D-lydformater i sanntid. For å muliggjøre dette er det imidlertid nødvendig med informasjon om mikrofonplassering, hvilket resulterer i behovet for et posisjoneringssystem. Det er rimelig å studere et lydbasert posisjoneringssystem som benytter seg av denne allerede eksisterende infrastrukturen bestående av kommersielle hyllevare (COTS) mikrofoner. Dette prosjektet tok sikte på å studere målesignaler i det hørbare frekvensområdet. Det ble utført estimeringer av: kilde-til-mottaker avstand mellom én høyttaler og én mikrofon i faste posisjoner, mikrofonplassering i forhold til et "høyttaler-array" på faste posisjoner i 3D, og azimuth avgangsvinkel (AoD). For estimering av kilde-til-mottaker distanse ble resultater innhentet fra både simuleringer og målinger, hvor målesignalene brukt til denne estimeringen var forskjellige sekvenslengder av Maximum Length Sequence (MLS) som er en av Pseudo Noise (PN) sekvensene. I simuleringene ble en simpel Rom Impulsrespons (RIR)-simulator benyttet som den akustiske målekanalen. Ulike distanser mellom kilde og mottaker, samt forskjellige etterklangstider ble undersøkt. Et glidende gjennomsnittsfilter med ulikt antall periodegjennomsnitt ble studert for å bestemme et antall periodegjennomsnitt som var nødvendig for å oppdage korrekt kilde-til-mottaker distanse. I målinger ble også antall periodegjennomsnitt og signallengder studert i ett rom. For posisjons-, og AoD-estimering ble resultater innhentet fra simuleringer med en detaljert RIR som ble generert med simuleringsprogrammet CATT-acoustics. I disse simuleringene ble et utvalg av PN-sveip og PN-sekvenser med ulik lengde studert som målesignaler. Kasami-, og Gold-sekvenser ble benyttet på bakgrunn av deres lave krysskorrelasjonsegenskaper som muliggjorde kontinuerlig estimering. For disse estimeringene ble et utvalg av periodegjennomsnitt, signallengder, AoD og kilde-til-mottaker distanser studert. En studie av tidsvarians forårsaket av bevegelige mikrofoner ble gjennomført. I disse målingene ble kontinuerlig kilde-til-mottaker estimering utført av en mikrofon plassert på et roterende bord. Disse estimatene ble utført for en rekke ulike sekvenstyper og -lengder. Resultater fra målinger og simuleringer for én høyttaler og én mikrofon i faste posisjoner presenterte at distanser opp til 5 m kunne estimeres korrekt med 2047 punktprøver lange MLS uten bruk av et glidende gjennomsnittsfilter, så lenge en riktig deteksjonsterskel ble benyttet. I resultatene fra AoD-estimatene ble det presentert at estimater der et glidende gjennomsnittsfilter bestående av gjennomsnittet av 5 perioder av signalet, resulterte i en estimert vinkel som i gjennomsnitt avviket med <1° fra korrekt vinkel. Når det bevegelige gjennomsnittsfilteret bestod av < 4 perioder, ble avvik på ~2.5° fra korrekt vinkel observert. PN-sveip var langt mindre påvirket av tidsvarians enn MLS, men for begge signaltypene resulterte implementeringen av glidende gjennomsnittsfilter i en høy prosentandel av tapt deteksjon. Estimering av kilde-til-mottaker distanse der ikke-kodede sveipsignaler og glidende gjennomsnittsfilter ble brukt, gav gode resultater. Det samme gjaldt for PN-sveip kodet med korte sekvenser (< 255). Det kan derfor konkluderes at PN-sveip kodet med korte sekvenser burde benyttes dersom mikrofoner ikke skal være i stasjonære posisjoner. Hovedårsaken til å bruke målesignaler i det hørbare frekvensområdet var å benytte den allerede eksisterende infrastrukturen med COTS mikrofoner. På grunn av faktorer som det dynamiske området, og selvstøyen til mikrofoner, kan det imidlertid ikke konkluderes med at et system som er presentert i denne oppgaven vil være brukenes med alle COTS mikrofoner.
dc.description.abstractWith the rise in popularity of media like podcasts and live streaming of concerts, it is of interest to study ways to improve the listening experience and automate audio post-processing. One particularly interesting enhancement is that of fully automated audio mixing. Such an enhancement would eliminate the need of an audio engineer and possibly lead to a solution that automatically generates audio in stereo or even more complex 3D-sound formats in real-time. However, to make this possible, information about the microphone position is necessary, thus resulting in the need for a positioning system. It is reasonable to study a sound-based positioning system that considers this already existing infrastructure consisting of Commercial-Off-The-Shelf (COTS) microphones. This thesis aimed to study a range of measurement signals in the audible frequency range. Estimation of single source-to-receiver distances at fixed positions was studied. Furthermore, estimation of the position of microphones relative to a loudspeaker-array at fixed positions in 3D, and the azimuth Angle of Departure (AoD) was conducted. For the single source-to-receiver distance estimations, results were obtained both from simulations and measurements. The measurement signals were different sequence lengths of the Maximum Length Sequence (MLS), which is one of the Pseudo Noise (PN) sequences. In the simulations, a simple Room Impulse Response (RIR) simulator was used as the acoustic measurement channel. Different source-to-receiver distances and reverberation times were studied. A moving average filter with a different number of signal averages was studied to determine the number of averages required to detect correct source-to-receiver distance. In measurements, the number of signal averages, and signal lengths were studied. For position and AoD estimations, results were obtained through simulations with a detailed RIR obtained from CATT-acoustics simulation software. In the simulations, a range of PN-sweeps and PN-sequences with different lengths were studied as measurement signals. Kasami and Gold sequences were used for their low cross-correlation properties, leading to continuous estimations from all loudspeakers in the loudspeaker-array. For these estimations, a range of signal averages, signal lengths, AoDs, and source-to-receiver distances were studied. A study of moving microphones was conducted through source-to-receiver distance measurements. In the measurements, a microphone was placed on a turntable, and continuous source-to-receiver distance estimates were conducted by utilizing different measurement signals with different lengths. In estimations of single source-to-receiver distances in fixed positions, both measurements and simulations presented that distances up to 5 m could be correctly estimated with 2047 samples long MLS without the use of a moving average filter, as long as a correct threshold of detection was utilized. In results obtained from AoD estimations, it was presented that estimates where a moving average filter averaging five periods of the measured signal resulted in an AoD estimate that, on average, deviated with <1° from the correct angle. However, when the moving average filter consisted of <4 periods/cycles, deviations of ~2.5° from the correct angle were observed. PN-sweeps were far less prone to time variance caused by movement than MLS, but for both signal types, the implementation of moving average filter resulted in many estimates outside the window of interest (minimum and maximum source-to-receiver length). Source-to-receiver distance estimates where uncoded sweep signals and moving average filter was used, yielded good results, and all estimates where within the window of interest. The same was true for PN-sweeps coded with short sequences (< 255). Therefore, it can be concluded that PN-sweeps coded with short sequences should be utilized if the microphones are non-stationary. The primary motivation for utilizing measurement signals in the audible frequency range was to use the already existing infrastructure with COTS microphones. However, because of factors like the dynamic range and self-noise, it can be concluded that a system like the one presented in this thesis would not work with all COTS microphones.
dc.languageeng
dc.publisherNTNU
dc.titleLydbasert lokalisering med målesignaler i det hørbare frekvensområde
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel