DSTT-MARB: Multi-scale Attention Based Spatio-Temporal Transformers for Old Film Restoration
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3023083Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
Innenfor rammen av denne innsatsen er målet vårt å integrere alle aspekter ved kinorestaurering til et enhetlig konseptuelt rammeverk, innenfor hvilket vi vil utføreSpatio-temporal restaurering. Den viktigste erkjennelsen er at flertallet avnedbrytninger i eldre filmer, spesielt strukturerte defekter, er tidsmessige varianter.Dette betyr at strukturerte artefakter som dekket over informasjon i en region i ettframe kan avsløre innholdet i påfølgende frames selv om de ble tildekketi forrige ramme. Derfor, i stedet for å være avhengig av illusjonen, foreslår vireparere skaden ved å bruke Spatio-temporal miljøet i stedet forstole på det. Vi presenterer en Multi-scale Attention Residual Block basert frakobletSpatio-Temporal Transformer (DSTT-MARB) med det formål å restaurere gammel filmmens du løser typiske gamle filmartefakter. DSTT-MARB er delt opp i todeloppgave: Den første deloppgaven innebærer å ivareta temporal innholdsflyt på flererammer på de samme romlige stedene. Dette oppnås ved å bruke en temporaltransformatorblokk som er ansvarlig for tidsinformasjonsanalyse. Den andredeloppgave innebærer flyt av innhold på rammen ved alle romlige posisjoner. Detteoppnås ved å bruke en annen romlig transformatorblokk som analyserer romligfunksjoner. Lagdelingen av de to transformatorblokkene som samhandler med hverandregjør det mulig for vår foreslåtte modell å være mer oppmerksom på både bevegelig innhold ogteksturinformasjon, og som et resultat det overbevisende, så vel som midlertidig plausibleinnhold som er deltatt kan formidles for å rekonstruere defektområdet. Også enhierarkisk koder brukes før de romlige og tidsmessige transformatorblokkene tiloppdage hierarkiske funksjoner som bevarer romlige mønstre på flere nivåer, noe som førertil flere delegerte tokens for transformatorene. Når disse to nye designene er sattsammen gjør de en fremtredende romlig-tidsmessig oppmerksomhetsmodul. Enkoderendelen inkluderer også en Multi-scale Attention Residual Block (MARB) som trekker utfunksjoner i flere skalaer og kombinerer dem for å få mer robuste funksjoner sommates inn i den hierarkiske koderen.
Den foreslåtte DSTT-MARB-modellen trenes på to forskjellige måter: videomaling og video-denoising. Hovedmålet er å finne ut hvilken som eren mer pålitelig tilnærming å følge i den gamle filmrestaureringsoppgaven. Begge videoerinpainting og denoising tilnærminger blir evaluert i både referanse og ikke-referansebildekvalitetsvurderingsmatriser PSNR, SSIM, LPIPS og BRISQUE.Sammen med den kvantitative analysen gjennomføres det også en kvalitativ evaluering pågammel film, som validerer effektiviteten til den foreslåtte metodikken i den virkelige verdenscenario. Aktuelle toppmoderne modeller er også gjenstand for evalueringprosess for en kvantitativ og visuell sammenligning med den foreslåtte DSTT-MARBmodell. Within the scope of this effort, our goal is to integrate all aspects of cinemarestoration into a unified conceptual framework, within which we will carry out theSpatio-temporal restoration. The most important realization is that the majority ofdegradations in older films, particularly structured defects, are temporally variant.This means that structured artifacts that covered up information in a region in oneframe may disclose their content in subsequent frames even if they were covered upin the previous frame. Therefore, rather than depending on the illusion, we suggestrepairing the damage by utilizing the Spatio-temporal environment instead ofrelying on it. We present a Multi-scale Attention Residual Block based DecoupledSpatio-Temporal Transformer (DSTT-MARB) for the purpose of restoring old filmwhile resolving typical old film artifacts. The DSTT-MARB is split up into twosub-task: The first sub-task involves attending to temporal content flow on multipleframes at the same spatial locations. This is accomplished by using a temporaltransformer block that is responsible for temporal information analysis. The secondsub-task involves the flow of content on the frame at all spatial positions. Thisis accomplished by using another spatial transformer block that analyses spatialfeatures. The layering of the two transformer blocks interacting with one anotherenables our proposed model to pay closer attention to both moving content andtexture information, and as a result, the convincing, as well as temporarily plausiblecontent that is attended can be conveyed to reconstruct the defect region. Also, ahierarchical encoder is used prior to the spatial and temporal transformer blocks todiscover hierarchical features that preserve multi-level spatial patterns, which leadsto more delegate tokens for the transformers. When these two new designs are puttogether, they do a prominent spatial-temporal attention module. The encoderpart also includes a Multi-scale Attention Residual Block (MARB) that extractsfeatures in multiple scales and combines them to obtain more robust features thatare fed into the hierarchical encoder.
The proposed DSTT-MARB model is trained in two different manners: videoinpainting and video denoising. The main objective is to figure out which one isa more reliable approach to follow in the old film restoration task. Both videoinpainting and denoising approaches are evaluated in both reference and non-referenceimage quality assessment matrices PSNR, SSIM, LPIPS and BRISQUE.Along with the quantitative analysis, a qualitative evaluation is also conducted onold film, which validates the effectiveness of the proposed methodology in the real-worldscenario. Current state-of-the-art models are also subject to the evaluationprocess for a quantitative and visual comparison with the proposed DSTT-MARBmodel.