Mitigating Hidden Technical Debt in Machine Learning Systems
Abstract
Artikkelen Sculley et al. [2015] er anerkjent som et av de mest innflytelsesrike arbeidene innen maskinlæringsdriftssamfunnet. Identifisering av teknisk gjeld har ført til betydelige forbedringer i produksjonsetting av ML-systemer, spesielt når det gjelder versjonskontroll av ML artifakter, reproduserbarhet, og infrastruktur. Men, eksisterende verktøy har for det meste fokusert på modellen og den tilknyttede programvaren. Dermed har skjult datagjeld i stor grad ikke blitt adressert, noe som har blitt bekreftet gjennom gjennomførte intervjuer.
Dette prosjektet introduserer en ny metode spesifikt rettet mot datarelateret gjeld. Denne tilnærmingen resulterer i forbedret ML-produkter og reduserer tiden brukt på å forstå systemets dataflyt. Dette oppnås ved å tilby en metadatakompilator som automatisk fanger opp dataavhengigheter, beskriver dataschemas, standardiserer data prossesering, og forenkler forståelsen av modelllogikk. Innsamlingen av avhengighetsmetadata ville ellers være for upraktisk å definere manuelt. Metadataene kan deretter brukes av en implementeringskompilator som optimaliser systemet og redusere utviklingskostnadene ved å generere vanlige komponenter som er essensielle for maskinlæringsdrift (MLOps). The paper Sculley et al. [2015] is recognized as one of the most influential works within the Machine Learning Operations community. The technical debts identified therein have led to significant improvements in the deployment of ML systems, particularly concerning artifact version control, reproducibility, and infrastructure. However, existing tools have predominantly focused on the model and the associated software, leaving data related debts largely unaddressed, as evidenced by conducted interviews.
This project introduces a novel method specifically targeting data-related debt. This approach results in improved ML products and reduces the time spent understanding the system's data flow. This is achieved by offering a metadata compiler that automatically captures data dependencies, describes data schemas, standardise feature engineering, and simplifies the understanding of model logic. The collection of dependency metadata would otherwise be too inconvenient to manually define. The obtained metadata can then be empowered by an implementation compiler that optimize the system and decrease development costs by generating common components essential for Machine Learning Operations (MLOps).