DSTT-MARB: Multi-scale Attention Based Spatio-Temporal Transformers for Old
Film Restoration

Ahmed, Tawsin Uddin

Ahmed, Tawsin Uddin

Master thesis

Åpne

no.ntnu:inspera:118516831:64411262.pdf (18.20Mb)

Permanent lenke

https://hdl.handle.net/11250/3023083

Utgivelsesdato

2022

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6828]

Sammendrag

Innenfor rammen av denne innsatsen er målet vårt å integrere alle aspekter ved kino

restaurering til et enhetlig konseptuelt rammeverk, innenfor hvilket vi vil utføre

Spatio-temporal restaurering. Den viktigste erkjennelsen er at flertallet av

nedbrytninger i eldre filmer, spesielt strukturerte defekter, er tidsmessige varianter.

Dette betyr at strukturerte artefakter som dekket over informasjon i en region i ett

frame kan avsløre innholdet i påfølgende frames selv om de ble tildekket

i forrige ramme. Derfor, i stedet for å være avhengig av illusjonen, foreslår vi

reparere skaden ved å bruke Spatio-temporal miljøet i stedet for

stole på det. Vi presenterer en Multi-scale Attention Residual Block basert frakoblet

Spatio-Temporal Transformer (DSTT-MARB) med det formål å restaurere gammel film

mens du løser typiske gamle filmartefakter. DSTT-MARB er delt opp i to

deloppgave: Den første deloppgaven innebærer å ivareta temporal innholdsflyt på flere

rammer på de samme romlige stedene. Dette oppnås ved å bruke en temporal

transformatorblokk som er ansvarlig for tidsinformasjonsanalyse. Den andre

deloppgave innebærer flyt av innhold på rammen ved alle romlige posisjoner. Dette

oppnås ved å bruke en annen romlig transformatorblokk som analyserer romlig

funksjoner. Lagdelingen av de to transformatorblokkene som samhandler med hverandre

gjør det mulig for vår foreslåtte modell å være mer oppmerksom på både bevegelig innhold og

teksturinformasjon, og som et resultat det overbevisende, så vel som midlertidig plausible

innhold som er deltatt kan formidles for å rekonstruere defektområdet. Også en

hierarkisk koder brukes før de romlige og tidsmessige transformatorblokkene til

oppdage hierarkiske funksjoner som bevarer romlige mønstre på flere nivåer, noe som fører

til flere delegerte tokens for transformatorene. Når disse to nye designene er satt

sammen gjør de en fremtredende romlig-tidsmessig oppmerksomhetsmodul. Enkoderen

delen inkluderer også en Multi-scale Attention Residual Block (MARB) som trekker ut

funksjoner i flere skalaer og kombinerer dem for å få mer robuste funksjoner som

mates inn i den hierarkiske koderen.

Den foreslåtte DSTT-MARB-modellen trenes på to forskjellige måter: video

maling og video-denoising. Hovedmålet er å finne ut hvilken som er

en mer pålitelig tilnærming å følge i den gamle filmrestaureringsoppgaven. Begge videoer

inpainting og denoising tilnærminger blir evaluert i både referanse og ikke-referanse

bildekvalitetsvurderingsmatriser PSNR, SSIM, LPIPS og BRISQUE.

Sammen med den kvantitative analysen gjennomføres det også en kvalitativ evaluering på

gammel film, som validerer effektiviteten til den foreslåtte metodikken i den virkelige verden

scenario. Aktuelle toppmoderne modeller er også gjenstand for evaluering

prosess for en kvantitativ og visuell sammenligning med den foreslåtte DSTT-MARB

modell.

Within the scope of this effort, our goal is to integrate all aspects of cinema

restoration into a unified conceptual framework, within which we will carry out the

Spatio-temporal restoration. The most important realization is that the majority of

degradations in older films, particularly structured defects, are temporally variant.

This means that structured artifacts that covered up information in a region in one

frame may disclose their content in subsequent frames even if they were covered up

in the previous frame. Therefore, rather than depending on the illusion, we suggest

repairing the damage by utilizing the Spatio-temporal environment instead of

relying on it. We present a Multi-scale Attention Residual Block based Decoupled

Spatio-Temporal Transformer (DSTT-MARB) for the purpose of restoring old film

while resolving typical old film artifacts. The DSTT-MARB is split up into two

sub-task: The first sub-task involves attending to temporal content flow on multiple

frames at the same spatial locations. This is accomplished by using a temporal

transformer block that is responsible for temporal information analysis. The second

sub-task involves the flow of content on the frame at all spatial positions. This

is accomplished by using another spatial transformer block that analyses spatial

features. The layering of the two transformer blocks interacting with one another

enables our proposed model to pay closer attention to both moving content and

texture information, and as a result, the convincing, as well as temporarily plausible

content that is attended can be conveyed to reconstruct the defect region. Also, a

hierarchical encoder is used prior to the spatial and temporal transformer blocks to

discover hierarchical features that preserve multi-level spatial patterns, which leads

to more delegate tokens for the transformers. When these two new designs are put

together, they do a prominent spatial-temporal attention module. The encoder

part also includes a Multi-scale Attention Residual Block (MARB) that extracts

features in multiple scales and combines them to obtain more robust features that

are fed into the hierarchical encoder.

The proposed DSTT-MARB model is trained in two different manners: video

inpainting and video denoising. The main objective is to figure out which one is

a more reliable approach to follow in the old film restoration task. Both video

inpainting and denoising approaches are evaluated in both reference and non-reference

image quality assessment matrices PSNR, SSIM, LPIPS and BRISQUE.

Along with the quantitative analysis, a qualitative evaluation is also conducted on

old film, which validates the effectiveness of the proposed methodology in the real-world

scenario. Current state-of-the-art models are also subject to the evaluation

process for a quantitative and visual comparison with the proposed DSTT-MARB

model.

Utgiver

NTNU