Vis enkel innførsel

dc.contributor.advisorGeradts, Zeno
dc.contributor.advisorFranke, Katrin
dc.contributor.authorAbrahamsen, Simen Ege
dc.date.accessioned2021-09-23T19:14:29Z
dc.date.available2021-09-23T19:14:29Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:77286691:46697246
dc.identifier.urihttps://hdl.handle.net/11250/2781212
dc.descriptionFull text not available
dc.description.abstractÅ generere ansiktssyntetiserte videoer er ikke en ny teknologi. Dette er noe som er gjort i flere år ved bruk av visuelle effekter og dataanimasjon. Hittil har dette krevd avansert kunnskap innen videoredigering for å oppnå tilfredsstillende resultat.I løpet av den ekspolsive veksten innenfor dyp læring, har syntetisk genert media, i form av video, lyd og bilde har sitt framspring, og blitt lett tilgjengelig for en gjennomsnittsperson. Dette har gjort det enkelt å lage sofistikerte videoer tidligere kun vært utført av dyktige VFX- og CGI-artister, uten mye kompetanse eller datakraft. Disse manipulerte videoene kan brukes til å spre desinformasjon, utpressing eller forårsake politisk forstyrrelse og sette politiske prosesser i fare. I denne masteroppgaven presenterer vi en metode basert på dyp læring som kan skille mellom ekte og falske videoer. Vår metode tar i bruk konvolusjonelle nevrale nettverk (CNNs, fra engelsk convolutional neural networks) forhåndstrent på munnavlesing. Informasjonen vi får hentet ut av dette nettverket representerer romlige og tidsmessige karakteristikker. Disse karakteristikkene er relatert til naturlig leppebevegelse som vi så bruker til å finjusteringer et tidsmessig konvolusjonelt nettverk (TCN, fra engelsk temporal convolutional network), også forhåndstrent på munnavlesning. Vi tester vår model på offentlig tilgjengelige datasett, og evaluerer robusthet og generaliserbarhet. Vi viser hvordan vår model kan oppnå state of the art med en nøyaktighet på 99.324%
dc.description.abstractGenerating face synthesized videos is not a new technology. It has been done for several years using computer-generated imagery and visual effects, but so far it has required advanced video editing skills. With the explosive growth of deep learning, synthetic media (or deepfake) have emerged and become easily accessible for the average person, allowing someone to create sophisticated videos previously only done by skilled VFX and CGI artists, now without much expertise or computational resources. These manipulated videos may be used to disseminate disinformation, blackmailing, or cause political disruption and endanger political processes. In this master's thesis, we present a deep learning-based method that can distinguish synthesized videos. Our method uses a covolutional neural network (CNN) pretrained on lipreading to extract features related to natural lip movement. These features are then fed to a temporal convolutional network (TCN) pretrained on lipreading, which we finetune to classify whether a video has been manipulated or not. We evaluate our model on multiple publicly available datasets and measure the robustness and generalizability. We show how our model can achieve near state-of-the-art results with an accuracy of accuracy of 99.324%.
dc.languageeng
dc.publisherNTNU
dc.titleDetection of Synthetic Videos using Temporal Convolutional Networks
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel