dc.contributor.advisor | Pedersen, Marius | |
dc.contributor.advisor | Sebastian, Waaseth Kjartan | |
dc.contributor.author | Ahmed, Tawsin Uddin | |
dc.date.accessioned | 2022-10-01T17:24:18Z | |
dc.date.available | 2022-10-01T17:24:18Z | |
dc.date.issued | 2022 | |
dc.identifier | no.ntnu:inspera:118516831:64411262 | |
dc.identifier.uri | https://hdl.handle.net/11250/3023083 | |
dc.description.abstract | Innenfor rammen av denne innsatsen er målet vårt å integrere alle aspekter ved kino
restaurering til et enhetlig konseptuelt rammeverk, innenfor hvilket vi vil utføre
Spatio-temporal restaurering. Den viktigste erkjennelsen er at flertallet av
nedbrytninger i eldre filmer, spesielt strukturerte defekter, er tidsmessige varianter.
Dette betyr at strukturerte artefakter som dekket over informasjon i en region i ett
frame kan avsløre innholdet i påfølgende frames selv om de ble tildekket
i forrige ramme. Derfor, i stedet for å være avhengig av illusjonen, foreslår vi
reparere skaden ved å bruke Spatio-temporal miljøet i stedet for
stole på det. Vi presenterer en Multi-scale Attention Residual Block basert frakoblet
Spatio-Temporal Transformer (DSTT-MARB) med det formål å restaurere gammel film
mens du løser typiske gamle filmartefakter. DSTT-MARB er delt opp i to
deloppgave: Den første deloppgaven innebærer å ivareta temporal innholdsflyt på flere
rammer på de samme romlige stedene. Dette oppnås ved å bruke en temporal
transformatorblokk som er ansvarlig for tidsinformasjonsanalyse. Den andre
deloppgave innebærer flyt av innhold på rammen ved alle romlige posisjoner. Dette
oppnås ved å bruke en annen romlig transformatorblokk som analyserer romlig
funksjoner. Lagdelingen av de to transformatorblokkene som samhandler med hverandre
gjør det mulig for vår foreslåtte modell å være mer oppmerksom på både bevegelig innhold og
teksturinformasjon, og som et resultat det overbevisende, så vel som midlertidig plausible
innhold som er deltatt kan formidles for å rekonstruere defektområdet. Også en
hierarkisk koder brukes før de romlige og tidsmessige transformatorblokkene til
oppdage hierarkiske funksjoner som bevarer romlige mønstre på flere nivåer, noe som fører
til flere delegerte tokens for transformatorene. Når disse to nye designene er satt
sammen gjør de en fremtredende romlig-tidsmessig oppmerksomhetsmodul. Enkoderen
delen inkluderer også en Multi-scale Attention Residual Block (MARB) som trekker ut
funksjoner i flere skalaer og kombinerer dem for å få mer robuste funksjoner som
mates inn i den hierarkiske koderen.
Den foreslåtte DSTT-MARB-modellen trenes på to forskjellige måter: video
maling og video-denoising. Hovedmålet er å finne ut hvilken som er
en mer pålitelig tilnærming å følge i den gamle filmrestaureringsoppgaven. Begge videoer
inpainting og denoising tilnærminger blir evaluert i både referanse og ikke-referanse
bildekvalitetsvurderingsmatriser PSNR, SSIM, LPIPS og BRISQUE.
Sammen med den kvantitative analysen gjennomføres det også en kvalitativ evaluering på
gammel film, som validerer effektiviteten til den foreslåtte metodikken i den virkelige verden
scenario. Aktuelle toppmoderne modeller er også gjenstand for evaluering
prosess for en kvantitativ og visuell sammenligning med den foreslåtte DSTT-MARB
modell. | |
dc.description.abstract | Within the scope of this effort, our goal is to integrate all aspects of cinema
restoration into a unified conceptual framework, within which we will carry out the
Spatio-temporal restoration. The most important realization is that the majority of
degradations in older films, particularly structured defects, are temporally variant.
This means that structured artifacts that covered up information in a region in one
frame may disclose their content in subsequent frames even if they were covered up
in the previous frame. Therefore, rather than depending on the illusion, we suggest
repairing the damage by utilizing the Spatio-temporal environment instead of
relying on it. We present a Multi-scale Attention Residual Block based Decoupled
Spatio-Temporal Transformer (DSTT-MARB) for the purpose of restoring old film
while resolving typical old film artifacts. The DSTT-MARB is split up into two
sub-task: The first sub-task involves attending to temporal content flow on multiple
frames at the same spatial locations. This is accomplished by using a temporal
transformer block that is responsible for temporal information analysis. The second
sub-task involves the flow of content on the frame at all spatial positions. This
is accomplished by using another spatial transformer block that analyses spatial
features. The layering of the two transformer blocks interacting with one another
enables our proposed model to pay closer attention to both moving content and
texture information, and as a result, the convincing, as well as temporarily plausible
content that is attended can be conveyed to reconstruct the defect region. Also, a
hierarchical encoder is used prior to the spatial and temporal transformer blocks to
discover hierarchical features that preserve multi-level spatial patterns, which leads
to more delegate tokens for the transformers. When these two new designs are put
together, they do a prominent spatial-temporal attention module. The encoder
part also includes a Multi-scale Attention Residual Block (MARB) that extracts
features in multiple scales and combines them to obtain more robust features that
are fed into the hierarchical encoder.
The proposed DSTT-MARB model is trained in two different manners: video
inpainting and video denoising. The main objective is to figure out which one is
a more reliable approach to follow in the old film restoration task. Both video
inpainting and denoising approaches are evaluated in both reference and non-reference
image quality assessment matrices PSNR, SSIM, LPIPS and BRISQUE.
Along with the quantitative analysis, a qualitative evaluation is also conducted on
old film, which validates the effectiveness of the proposed methodology in the real-world
scenario. Current state-of-the-art models are also subject to the evaluation
process for a quantitative and visual comparison with the proposed DSTT-MARB
model. | |
dc.language | eng | |
dc.publisher | NTNU | |
dc.title | DSTT-MARB: Multi-scale Attention Based Spatio-Temporal Transformers for Old
Film Restoration | |
dc.type | Master thesis | |