Show simple item record

dc.contributor.advisorDunn, Benjamin Adric
dc.contributor.advisorGaukstad, Sigurd
dc.contributor.advisorRangamani, Akshay
dc.contributor.authorLindegaard, Marius
dc.date.accessioned2024-01-18T18:19:43Z
dc.date.available2024-01-18T18:19:43Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:140649151:35331298
dc.identifier.urihttps://hdl.handle.net/11250/3112624
dc.description.abstractVi har identifisert Neural Collapse i de indre, skjulte lagene i flere typer dype nevralnett. Vi har vist at fenomenet oppstår i både fullstendig koblede nevralnett, konvolusjonsnett og residual-nett for flere datasett, spesifikt MNIST, FashionMNIST, SVHN, og CIFAR10. Denne oppdagelsen, tidligere publisert i (Rangamani & Lindegaard et. al., Feature learning in deep classifiers through Intermediate Neural Collapse, ICML 2023), gir innsikt i hvordan dype nevralnett fundamentalt fungerer. I denne oppgaven finner vi at hvor dypt kollapsen først opptrer har betydning for nevralnettets evne til å generalisere. Det er tydelig at det ikke er en klar monoton relasjon mellom de to, og at optimumet opptrer et sted mellom ekstremene. Dette har også implicasjoner for hvilke kretser som kan oppstå i nettverket, der grunnere kollaps krever grunnere kretser. Vår analyse avdekker distinkte mønstre i aktiveringene post-kollaps (dypere) i netverket. Disse mønstrene er glisne og viser innretting mot nevron-aksene. På den andre siden finner vi at aktiveringene pre-kollaps (grunnere) i netverket er symmetriske og dekker hele rommet uten en tydelig separasjon eller innretting mot nevron-aksene. Vi finner kvalitativ visuall struktur som oppstår gjennom nettverket etter ikke-lineær projeksjon med UMAP. Til tross for dette kan vi kun delvis forklare aktiveringene med klyngeanalyse, og grundigere analyse kreves for å forklare mønstrene som oppstår pre-kollaps. Til slutt diskuteres at mønstrene i de indre sjulte lagene kan stå som en motsetning til enkelte teorier for funksjonene til dype nevralnett. Vi bemerker særlig at nevrale nett som har indre nevral-kollaps kan fungere som moteksempler til loddhypotesen ("Lottery Ticket Hypotesis") for optimeringsprosedyren til nevrale nett. Resultatene stemmer bedre overens med superposisjon- og krets-hypotesene for nevrale nett. Våre nettverk er et mer komplekst eksempel enn netverk som tidligere er analysert, men er betydlig enklere å analysere med disse metodene enn tilsvarende nettverk. Dette er grunnet den forenklede strukturen som oppstår under indre nevral-kollaps. Observasjonene åpner for fremtidige analyser som kan drive feltet framover, og ved å analysere disse netverkene kan man få dypere innsikt i optimeringen og beregningene som foregår i dype nevralnett generelt.
dc.description.abstractWe have identified the phenomenon of Neural Collapse in intermediate layers across various DNN architectures, including MLPs, Convnets, and Resnets, for the datasets MNIST, FashionMNIST, SVHN, and CIFAR10. This discovery, previously published in (Rangamani & Lindegaard et. al., Feature learning in deep classifiers through Intermediate Neural Collapse, ICML 2023), offers insights into DNN behavior and performance. While the layer of collapse somewhat correlates with DNN generalization, it's not straightforward, suggesting an optimal middle-point for generalization. This phenomenon also influences the circuits that can form in networks, with shallower collapse layers necessitating shallower circuits. Our analysis in revealed distinct activation patterns post-collapse. These patterns in deeper layers show sparsity and alignment with neuron-axes. However, features in pre-collapse layers cover the space without clear separations, exhibiting near symmetry in every principal direction. Despite apparent visual structure emerging through layers when using UMAP for dimensionality reduction, our clustering attempts yielded only partially accurate results, indicating that discernible patterns in pre-collapse layers remain elusive with our current methods. Lastly, the patterns in intermediate layers could be at odds with prevalent DNN theories. Notably, networks exhibiting intermediate Neural Collapse might not align with the pruned networks of the Lottery Ticket Hypothesis, suggesting a divergence from pure SGD optimization and LTH theory. While our findings align with the superposition and circuits theory, the network with intermediate NC provides a more intricate example than previously analyzed networks in this domain, but significantly simpler than full networks for similar classification tasks. Analyzing these networks present an exciting avenue for future research, potentially allowing for new insights into the optimization and inference in deep neural networks.
dc.languageeng
dc.publisherNTNU
dc.titleFeature Learning in the Neural Collapse regime of Deep Classifiers
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record