Feature Learning in the Neural Collapse regime of Deep Classifiers

Lindegaard, Marius

dc.contributor.advisor	Dunn, Benjamin Adric
dc.contributor.advisor	Gaukstad, Sigurd
dc.contributor.advisor	Rangamani, Akshay
dc.contributor.author	Lindegaard, Marius
dc.date.accessioned	2024-01-18T18:19:43Z
dc.date.available	2024-01-18T18:19:43Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:140649151:35331298
dc.identifier.uri	https://hdl.handle.net/11250/3112624
dc.description.abstract	Vi har identifisert Neural Collapse i de indre, skjulte lagene i flere typer dype nevralnett. Vi har vist at fenomenet oppstår i både fullstendig koblede nevralnett, konvolusjonsnett og residual-nett for flere datasett, spesifikt MNIST, FashionMNIST, SVHN, og CIFAR10. Denne oppdagelsen, tidligere publisert i (Rangamani & Lindegaard et. al., Feature learning in deep classifiers through Intermediate Neural Collapse, ICML 2023), gir innsikt i hvordan dype nevralnett fundamentalt fungerer. I denne oppgaven finner vi at hvor dypt kollapsen først opptrer har betydning for nevralnettets evne til å generalisere. Det er tydelig at det ikke er en klar monoton relasjon mellom de to, og at optimumet opptrer et sted mellom ekstremene. Dette har også implicasjoner for hvilke kretser som kan oppstå i nettverket, der grunnere kollaps krever grunnere kretser. Vår analyse avdekker distinkte mønstre i aktiveringene post-kollaps (dypere) i netverket. Disse mønstrene er glisne og viser innretting mot nevron-aksene. På den andre siden finner vi at aktiveringene pre-kollaps (grunnere) i netverket er symmetriske og dekker hele rommet uten en tydelig separasjon eller innretting mot nevron-aksene. Vi finner kvalitativ visuall struktur som oppstår gjennom nettverket etter ikke-lineær projeksjon med UMAP. Til tross for dette kan vi kun delvis forklare aktiveringene med klyngeanalyse, og grundigere analyse kreves for å forklare mønstrene som oppstår pre-kollaps. Til slutt diskuteres at mønstrene i de indre sjulte lagene kan stå som en motsetning til enkelte teorier for funksjonene til dype nevralnett. Vi bemerker særlig at nevrale nett som har indre nevral-kollaps kan fungere som moteksempler til loddhypotesen ("Lottery Ticket Hypotesis") for optimeringsprosedyren til nevrale nett. Resultatene stemmer bedre overens med superposisjon- og krets-hypotesene for nevrale nett. Våre nettverk er et mer komplekst eksempel enn netverk som tidligere er analysert, men er betydlig enklere å analysere med disse metodene enn tilsvarende nettverk. Dette er grunnet den forenklede strukturen som oppstår under indre nevral-kollaps. Observasjonene åpner for fremtidige analyser som kan drive feltet framover, og ved å analysere disse netverkene kan man få dypere innsikt i optimeringen og beregningene som foregår i dype nevralnett generelt.
dc.description.abstract	We have identified the phenomenon of Neural Collapse in intermediate layers across various DNN architectures, including MLPs, Convnets, and Resnets, for the datasets MNIST, FashionMNIST, SVHN, and CIFAR10. This discovery, previously published in (Rangamani & Lindegaard et. al., Feature learning in deep classifiers through Intermediate Neural Collapse, ICML 2023), offers insights into DNN behavior and performance. While the layer of collapse somewhat correlates with DNN generalization, it's not straightforward, suggesting an optimal middle-point for generalization. This phenomenon also influences the circuits that can form in networks, with shallower collapse layers necessitating shallower circuits. Our analysis in revealed distinct activation patterns post-collapse. These patterns in deeper layers show sparsity and alignment with neuron-axes. However, features in pre-collapse layers cover the space without clear separations, exhibiting near symmetry in every principal direction. Despite apparent visual structure emerging through layers when using UMAP for dimensionality reduction, our clustering attempts yielded only partially accurate results, indicating that discernible patterns in pre-collapse layers remain elusive with our current methods. Lastly, the patterns in intermediate layers could be at odds with prevalent DNN theories. Notably, networks exhibiting intermediate Neural Collapse might not align with the pruned networks of the Lottery Ticket Hypothesis, suggesting a divergence from pure SGD optimization and LTH theory. While our findings align with the superposition and circuits theory, the network with intermediate NC provides a more intricate example than previously analyzed networks in this domain, but significantly simpler than full networks for similar classification tasks. Analyzing these networks present an exciting avenue for future research, potentially allowing for new insights into the optimization and inference in deep neural networks.
dc.language	eng
dc.publisher	NTNU
dc.title	Feature Learning in the Neural Collapse regime of Deep Classifiers
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:140649151:3533 ...
Størrelse:: 97.08Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for matematiske fag [2531]

Vis enkel innførsel