VOICE CONVERSION
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3002171Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
Stemmekonvertering (VC) er prosessen med å endre en høyttalers ord til å se ut som om en annen person snakker dem. Talesignalet fra den første taleren, kjent som kildetaleren, skal beholde sitt språklige innhold i sin endelige konverterte form, kjent som den resulterende stemmen. Likevel bør den også endres maksimalt når det gjelder vokal klang, rekkevidde, bøyning og så videre for å matche stemmen til den andre høyttaleren, kjent som målhøyttaleren. Denne aktiviteten kan syntetisere stemmer på forskjellige måter, og den kan være en viktig komponent for å lage menneskelignende kunstige stemmer for roboter.Ved å bruke en form for et generativt adversarialt nettverk (GAN) kalt StarGANv2 opprinnelig utviklet av Yinghao Li et al.., gir dette prosjektet en tilnærming som tillater ikke-parallell mange til mange og stemmekonvertering på tvers av kjønn (VC). Modellen som brukes heter StarGANv2-VC. Det er unikt ved at det (1) ikke krever parallelle ytringer, transkripsjoner eller tidsmessige tilpasningsprosesser for talegeneratortrening, og (2) lærer mange-til-mange kartlegginger over flere attributtdomener ved å bruke et enkelt generatornettverk. Vår tilnærming overgår i stor grad tidligere VC-modeller ved å bruke en kombinasjon av kontradiktorisk kildeklassifiseringstap og perseptuellt tap. Dette paradigmet gjelder for et bredt spekter av talekonverteringsjobber, inkludert mange-til-mange, tverrspråklig og sangstemmekonvertering. Voice conversion (VC) is the process of altering one speaker's words to appear as though a different person is speaking them. The speech signal from the first speaker, known as the source speaker, should retain its linguistic content in its final converted form, known as the resulting voice. Still, it should also be maximally altered in terms of vocal timbre, range, inflection, and so on to match the voice of the second speaker, known as the target speaker. This activity can synthesize voices in various ways, and it could be a vital component in creating human-sounding artificial voices for robots. Using a form of a generative adversarial network (GAN) called StarGANv2 originally developed by Yinghao Li et al.., this project provides an approach that permits non-parallel many to many and cross-gender voice conversion (VC). The model used is called StarGANv2-VC. It is unique in that it (1) does not require parallel utterances, transcriptions, or temporal alignment processes for speech generator training, and (2) learns many-to-many mappings across several attribute domains using a single generator network. Our approach greatly outperforms earlier VC models using a combination of adversarial source classifier loss and perceptual loss. This paradigm applies to a wide range of speech conversion jobs, including many-to-many, cross-lingual, and singing voice conversion.