DSTT-MARB: Multi-scale Attention Based Spatio-Temporal Transformers for Old
Film Restoration

Ahmed, Tawsin Uddin

dc.contributor.advisor	Pedersen, Marius
dc.contributor.advisor	Sebastian, Waaseth Kjartan
dc.contributor.author	Ahmed, Tawsin Uddin
dc.date.accessioned	2022-10-01T17:24:18Z
dc.date.available	2022-10-01T17:24:18Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:118516831:64411262
dc.identifier.uri	https://hdl.handle.net/11250/3023083
dc.description.abstract	Innenfor rammen av denne innsatsen er målet vårt å integrere alle aspekter ved kino restaurering til et enhetlig konseptuelt rammeverk, innenfor hvilket vi vil utføre Spatio-temporal restaurering. Den viktigste erkjennelsen er at flertallet av nedbrytninger i eldre filmer, spesielt strukturerte defekter, er tidsmessige varianter. Dette betyr at strukturerte artefakter som dekket over informasjon i en region i ett frame kan avsløre innholdet i påfølgende frames selv om de ble tildekket i forrige ramme. Derfor, i stedet for å være avhengig av illusjonen, foreslår vi reparere skaden ved å bruke Spatio-temporal miljøet i stedet for stole på det. Vi presenterer en Multi-scale Attention Residual Block basert frakoblet Spatio-Temporal Transformer (DSTT-MARB) med det formål å restaurere gammel film mens du løser typiske gamle filmartefakter. DSTT-MARB er delt opp i to deloppgave: Den første deloppgaven innebærer å ivareta temporal innholdsflyt på flere rammer på de samme romlige stedene. Dette oppnås ved å bruke en temporal transformatorblokk som er ansvarlig for tidsinformasjonsanalyse. Den andre deloppgave innebærer flyt av innhold på rammen ved alle romlige posisjoner. Dette oppnås ved å bruke en annen romlig transformatorblokk som analyserer romlig funksjoner. Lagdelingen av de to transformatorblokkene som samhandler med hverandre gjør det mulig for vår foreslåtte modell å være mer oppmerksom på både bevegelig innhold og teksturinformasjon, og som et resultat det overbevisende, så vel som midlertidig plausible innhold som er deltatt kan formidles for å rekonstruere defektområdet. Også en hierarkisk koder brukes før de romlige og tidsmessige transformatorblokkene til oppdage hierarkiske funksjoner som bevarer romlige mønstre på flere nivåer, noe som fører til flere delegerte tokens for transformatorene. Når disse to nye designene er satt sammen gjør de en fremtredende romlig-tidsmessig oppmerksomhetsmodul. Enkoderen delen inkluderer også en Multi-scale Attention Residual Block (MARB) som trekker ut funksjoner i flere skalaer og kombinerer dem for å få mer robuste funksjoner som mates inn i den hierarkiske koderen. Den foreslåtte DSTT-MARB-modellen trenes på to forskjellige måter: video maling og video-denoising. Hovedmålet er å finne ut hvilken som er en mer pålitelig tilnærming å følge i den gamle filmrestaureringsoppgaven. Begge videoer inpainting og denoising tilnærminger blir evaluert i både referanse og ikke-referanse bildekvalitetsvurderingsmatriser PSNR, SSIM, LPIPS og BRISQUE. Sammen med den kvantitative analysen gjennomføres det også en kvalitativ evaluering på gammel film, som validerer effektiviteten til den foreslåtte metodikken i den virkelige verden scenario. Aktuelle toppmoderne modeller er også gjenstand for evaluering prosess for en kvantitativ og visuell sammenligning med den foreslåtte DSTT-MARB modell.
dc.description.abstract	Within the scope of this effort, our goal is to integrate all aspects of cinema restoration into a unified conceptual framework, within which we will carry out the Spatio-temporal restoration. The most important realization is that the majority of degradations in older films, particularly structured defects, are temporally variant. This means that structured artifacts that covered up information in a region in one frame may disclose their content in subsequent frames even if they were covered up in the previous frame. Therefore, rather than depending on the illusion, we suggest repairing the damage by utilizing the Spatio-temporal environment instead of relying on it. We present a Multi-scale Attention Residual Block based Decoupled Spatio-Temporal Transformer (DSTT-MARB) for the purpose of restoring old film while resolving typical old film artifacts. The DSTT-MARB is split up into two sub-task: The first sub-task involves attending to temporal content flow on multiple frames at the same spatial locations. This is accomplished by using a temporal transformer block that is responsible for temporal information analysis. The second sub-task involves the flow of content on the frame at all spatial positions. This is accomplished by using another spatial transformer block that analyses spatial features. The layering of the two transformer blocks interacting with one another enables our proposed model to pay closer attention to both moving content and texture information, and as a result, the convincing, as well as temporarily plausible content that is attended can be conveyed to reconstruct the defect region. Also, a hierarchical encoder is used prior to the spatial and temporal transformer blocks to discover hierarchical features that preserve multi-level spatial patterns, which leads to more delegate tokens for the transformers. When these two new designs are put together, they do a prominent spatial-temporal attention module. The encoder part also includes a Multi-scale Attention Residual Block (MARB) that extracts features in multiple scales and combines them to obtain more robust features that are fed into the hierarchical encoder. The proposed DSTT-MARB model is trained in two different manners: video inpainting and video denoising. The main objective is to figure out which one is a more reliable approach to follow in the old film restoration task. Both video inpainting and denoising approaches are evaluated in both reference and non-reference image quality assessment matrices PSNR, SSIM, LPIPS and BRISQUE. Along with the quantitative analysis, a qualitative evaluation is also conducted on old film, which validates the effectiveness of the proposed methodology in the real-world scenario. Current state-of-the-art models are also subject to the evaluation process for a quantitative and visual comparison with the proposed DSTT-MARB model.
dc.language	eng
dc.publisher	NTNU
dc.title	DSTT-MARB: Multi-scale Attention Based Spatio-Temporal Transformers for Old Film Restoration
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:118516831:6441 ...
Størrelse:: 18.20Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6765]

Vis enkel innførsel

DSTT-MARB: Multi-scale Attention Based Spatio-Temporal Transformers for Old Film Restoration

Tilhørende fil(er)

Denne innførselen finnes i følgende samling(er)