Vis enkel innførsel

dc.contributor.advisorRaja, Kiran
dc.contributor.authorNess, Håkon
dc.date.accessioned2022-07-07T17:21:09Z
dc.date.available2022-07-07T17:21:09Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:106263327:47069241
dc.identifier.urihttps://hdl.handle.net/11250/3003649
dc.descriptionFull text not available
dc.description.abstractInnenfor tale generasjon har det vært en økende interesse av Deep Learning- og Machine Learning algoritmer for å prøve å generere syntetisk menneskelig tale som konkurrerer med naturlig tale. Etter den beryktede DeepFake-algoritmen for bilder, har en ny bølge av forskning blitt utviklet for å prøve å tilpasse en lignende kloningsfunksjon, der syntetisk lyd genereres for å ligne en høyttalers egenskaper som hentet fra en prøve av stemmen deres. På samme måte har vi sett at etterspørselen etter kreative applikasjoner av tale generasjon blir møtt med tekst-til-tale-modeller som kan etterligne menneskelige følelser i tonen. Vi har imidlertid sett en mangel på applikasjoner som kombinerer begge disse faktorene til en enkel modell designet for å både etterligne et eksisterende menneskes stemme som aldri ble sett før under trening av Machine Learning algoritmen, og produsere tale som uttrykker en angitt følelse. Forfatteren av denne oppgaven hevder at dette er til skade for feltet som helhet, fordi de mener at å bare gi en av disse egenskapene er utilstrekkelig. Skulle tale generasjons feltet modnes på en måte som gjør det mulig å gi tilstrekkelig kreativ kontroll for å være levedyktig for kreative applikasjoner; så må begge disse utviklingstrendene slås sammen til en enkelt modell som presterer på nivå med den nyeste teknologien. I denne oppgaven vil forfatteren forsøke å bevise dette ved å bruke moderne modellarkitekturer som genererer tale av en fremmed talers karakteristikkene modifisert til også fremheve av de valgte emosjonelle aspektene.
dc.description.abstractWithin the field of speech synthesis, there’s been a growing application of deep learning and machine learning algorithms to try and generate synthetic human speech that rivals natural speech. With the advent of the infamous DeepFake algorithms for images, a new wave of research has been developed to try and adapt a similar cloning feature, in which synthetic audio is generated with a conditioned bias to resemble a speaker’s characteristics as obtained from an encoded sample of their voice. Similarly, we've seen demand for creative applications of speech synthesizers being met with text to speech models that can be mimic human emotions in their tone. However, we've seen a lack of applications that combine both of these factors into a singular model designed to both mimic an existing human's voice that was never seen before during training, and produce speech that expresses a given emotion. The author of this thesis asserts that this is to a detriment to the field as a whole, as only providing a one of these qualities is insufficient. Should the field of audio synthesize mature in a way that would enable it to provide sufficient creative control so as to be viable for creative applications; both of these developing trends have to be merged into a single model that performs on par with the state of the art. In this thesis, the author will attempt to prove this statement by utilizing state of the art model architectures that generate speech conditioned on the speaker characteristics modified to also be conditioned on the emotive aspects.
dc.languageeng
dc.publisherNTNU
dc.titleText-to-speech Synthesis Conditioned on Speaker Characteristic and Emotional Profile
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel