Detection of Synthetic Videos using Temporal Convolutional Networks

Abrahamsen, Simen Ege

dc.contributor.advisor	Geradts, Zeno
dc.contributor.advisor	Franke, Katrin
dc.contributor.author	Abrahamsen, Simen Ege
dc.date.accessioned	2021-09-23T19:14:29Z
dc.date.available	2021-09-23T19:14:29Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:77286691:46697246
dc.identifier.uri	https://hdl.handle.net/11250/2781212
dc.description	Full text not available
dc.description.abstract	Å generere ansiktssyntetiserte videoer er ikke en ny teknologi. Dette er noe som er gjort i flere år ved bruk av visuelle effekter og dataanimasjon. Hittil har dette krevd avansert kunnskap innen videoredigering for å oppnå tilfredsstillende resultat.I løpet av den ekspolsive veksten innenfor dyp læring, har syntetisk genert media, i form av video, lyd og bilde har sitt framspring, og blitt lett tilgjengelig for en gjennomsnittsperson. Dette har gjort det enkelt å lage sofistikerte videoer tidligere kun vært utført av dyktige VFX- og CGI-artister, uten mye kompetanse eller datakraft. Disse manipulerte videoene kan brukes til å spre desinformasjon, utpressing eller forårsake politisk forstyrrelse og sette politiske prosesser i fare. I denne masteroppgaven presenterer vi en metode basert på dyp læring som kan skille mellom ekte og falske videoer. Vår metode tar i bruk konvolusjonelle nevrale nettverk (CNNs, fra engelsk convolutional neural networks) forhåndstrent på munnavlesing. Informasjonen vi får hentet ut av dette nettverket representerer romlige og tidsmessige karakteristikker. Disse karakteristikkene er relatert til naturlig leppebevegelse som vi så bruker til å finjusteringer et tidsmessig konvolusjonelt nettverk (TCN, fra engelsk temporal convolutional network), også forhåndstrent på munnavlesning. Vi tester vår model på offentlig tilgjengelige datasett, og evaluerer robusthet og generaliserbarhet. Vi viser hvordan vår model kan oppnå state of the art med en nøyaktighet på 99.324%
dc.description.abstract	Generating face synthesized videos is not a new technology. It has been done for several years using computer-generated imagery and visual effects, but so far it has required advanced video editing skills. With the explosive growth of deep learning, synthetic media (or deepfake) have emerged and become easily accessible for the average person, allowing someone to create sophisticated videos previously only done by skilled VFX and CGI artists, now without much expertise or computational resources. These manipulated videos may be used to disseminate disinformation, blackmailing, or cause political disruption and endanger political processes. In this master's thesis, we present a deep learning-based method that can distinguish synthesized videos. Our method uses a covolutional neural network (CNN) pretrained on lipreading to extract features related to natural lip movement. These features are then fed to a temporal convolutional network (TCN) pretrained on lipreading, which we finetune to classify whether a video has been manipulated or not. We evaluate our model on multiple publicly available datasets and measure the robustness and generalizability. We show how our model can achieve near state-of-the-art results with an accuracy of accuracy of 99.324%.
dc.language	eng
dc.publisher	NTNU
dc.title	Detection of Synthetic Videos using Temporal Convolutional Networks
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2521]

Vis enkel innførsel