Utilizing machine learning for lead time prediction in the MTO fenestration industry
Abstract
Vindu- og dørindustrien opplever økende etterspørsel etter kundetilpassede produkter, skiftende markedstrender og strengere forskrifter for energieffektive vinduer. For å imøtekomme disse kravene er selskapene avhengige av realistiske og fleksible produksjonsplaner og produksjonskontroll. En viktig parameter for å oppnå dette er ledetiden. De fleste vindu- og dørbedrifter opererer i et kundetilpasset miljø, “make to order” (MTO), som er en planleggingsstrategi som starter produksjonen etter at en kundeordre er plassert. Uforutsigbar etterspørsel og høy produktvariasjon i vindu- og dørindustrien gjør det vanskelig å estimere ledetider, og øker behovet for ledetidsprediksjon. Bruken av maskinlæring (ML) for ledetidsprediksjon har fått økt oppmerksomhet i litteraturen. I tillegg blir teknologier for datainnsamling, som Radio-Frequency Identification (RFID) systemer, mer utbredt i produksjonsprosesser, noe som øker muligheten for å anvende maskinlæring til ledetidspredikering.
Denne masteroppgaven har som mål å bidra til økt forståelse for hvordan ML-basert ledetidsprediksjon kan utvikles og integreres for å støtte produksjonsplanlegging og kontroll (PPC) i den kundetilpassede vindu- og dørindustrien. En industriuavhengig prosessmodell kalt CRISP-DM ble brukt for å oppnå dette målet. Denne prosessen består av seks trinn: bedriftsforståelse, dataforståelse, dataprosessering, datamodellering, dataevaluering og integrering.
For å oppnå oppgavens mål ble det presentert tre forskningsspørsmål (RQ): 1) I hvilke områder av produksjonsplanlegging og -kontroll kan ledetidsprediksjon brukes i kundetilpassede vindu- og dørbedrifter? 2) Hva kan være årsakene til datakvalitetsproblemer i anvendt data for ledetidsprediksjon? 3) Hvordan kan CRISP-DM brukes til å predikere ledetider i den kundetilpassede vindu- og dørindustrien?
Metodene som ble brukt for å besvare RQene inkluderte litteraturstudier, intervjuer med tre forskjellige vindu- og dørbedrifter, case-studie, dataanalyse og datamodellering. RQ1 ble besvart ved bruk av litteraturstudie, case-selskapet og bedriftsintervjuene. RQ2 ble adressert gjennom litteraturen, samt dataanalyse og innsikt fra case-selskapet. RQ3 ble oppnådd gjennom datamodellering basert på innsamlet data fra case-selskapet, og ved å kombinere svarene fra RQ1 og RQ2.
Fem bruksområder for ledetidsprediksjon ble identifisert i litteraturen. Disse inkluderer kapasitetsplanlegging, fastsettelse av leveringsdato, operasjonsplanlegging, produksjonsanalyse og produksjonsovervåking. Bedriftsintervjuene avslørte varierende interesse for å implementere ledetidsprediksjon for disse bruksområdene. De to større selskapene fremhevet kapasitetsplanlegging, produksjonsanalyse og produksjonsovervåking som de mest relevante områdene for ledetidsprediksjon innenfor PPC. Det mindre selskapet viste lav interesse for alle områdene som ble identifisert i litteraturen. Størrelsen og digitaliseringsnivået til selskapene ble fremhevet som mulige årsaker til de forskjellige svarene.
En vurdering av datakvalitet ble utført for å undersøke problemer i den innsamlede dataen. Vurderingen avdekket 40\% inkonsistente RFID skanninger på fabrikkgulvet og motstridende verdier mellom datakildene. Årsakene ble identifisert gjennom litteraturen og fra case-selskapet, som inkluderte flere feil relatert til RFID-skannere og tagger, i tillegg til operatørenes uvitenhet og uaktsomhet. De oppdagede feilene ble senere fjernet under dataprosesseringen, slik at dataen kunne brukes som input til ML-modellene.
En prosessmodell som inkluderte alle seks faser av CRISP-DM-modellen ble utviklet for ledetidsprediksjon i kundetilpassede vindu- og dørbedrifter. Case-studiet og bedriftsintervjuene dannet grunnlaget for bedriftsforståelse. Dataforståelsen ble oppnådd gjennom vurderingen av datakvalitet fra RQ2, der de oppdagede feilene ble fjernet under dataprosesseringen. To ML-modeller ble utviklet for modellering, nemlig Random Forest (RF) og en multi-layer perceptron (MLP)-modell. Evalueringen viste at RF-modellen presterte bedre enn MLP-modellen i alle ytelsesmålene. Integrering av resultatene ble ikke satt ut i praksis, men de potensielle bruksområdene i PPC som ble identifisert i RQ1, ble adressert og undersøkt.
Det teoretiske hovedbidraget til masteroppgaven er en utvidelse av det eksisterende CRISP-DM-rammeverket ved å utvikle en bransjespesifikk prosessmodell for ML-basert ledetidsprediksjon i den kundetilpassede vindu- og dørindustrien. Bidraget til praksis er retningslinjer som kan skape en felles forståelse mellom dataforskere og produksjonsledere. Dette kan hjelpe selskaper med å integrere ledetidsprediksjon på en effektiv måte i deres PPC-prosesser, og dermed forbedre operativ planlegging og beslutningstaking. Den største begrensningen i studiet er at datagrunnlaget for prosessmodellen bare ble samlet inn fra ett vinudsselskap. Fremtidig forskning bør derfor anvende prosessmodellen på andre vindu- og dørbedrifter for å teste dens robusthet og generaliserbarhet. The fenestration industry experience increasing demand for customized products, shifting market trends, and stricter regulations for energy-efficient windows. In order to meet these requirements the companies are dependent on realistic and flexible production plans and production control. A key parameter to achieve this is the lead time. Most fenestration companies operate in a make to order (MTO) environment, which is a planning strategy that begins production after a customer order is placed. The demand uncertainty and high product variety in MTO fenestration industry makes the task of estimating lead times difficult, and increases the necessity of lead time prediction. The utilization of machine learning (ML) for lead time prediction has received increased attention in the literature. In addition, increasing regularity of implementing technology for data collection, such as Radio-Frequency Identification (RFID) systems, in manufactures enhances the availability of utilizing ML for lead time prediction.
This thesis aims to contribute to increased understanding of how ML-based lead time prediction can be developed and integrated to support production planning and control (PPC) in the MTO fenestration industry. An industry independent process model called CRISP-DM was applied to achieve this goal. This process consists of six steps; business understanding, data understanding, data preparation, data modelling, data evaluation and deployment.
To achieve the thesis goal three research questions (RQs) were presented: 1) In what areas of production planning and control can lead time prediction be applied in MTO fenestration companies? 2) What can be the causes for data quality issues in data applied for lead time prediction? 3) How can CRISP-DM be applied to predict lead times in the MTO fenestration industry?
The methods applied to answer the RQs included literature reviews, interviews with three different fenestration companies, case study, data analysis and data modelling. RQ1 was answered in terms of literature, case company and multi-company interviews. RQ2 was addressed through the literature, as well as data analysis and insight from the case company. RQ3 was achieved through data modelling on the collected data from the case company, and by combining the answers from RQ1 and RQ2.
Five application areas for lead time prediction were identified in the literature. These include capacity planning, due date setting, production scheduling, production analysis, and production monitoring. The multi-company interviews revealed varying levels of interest in adopting lead time prediction for the application areas. The two larger companies highlighted capacity planning, production analysis and production monitoring as the most relevant areas for LTP within PPC. The smaller company showed low interest across all areas identified in the literature. The size and digitization level of the companies were highlighted as possible causes for the dispersed answers.
A data quality assessment was performed in order to detect data quality issues in the collected data. The assessment's primary finding was 40\% inconsistent RFID shop floor scannings, and contradictory values between data sources. Causes were detected from the literature and from the case company, which included several errors regarding the RFID scanners and tags, in addition to operators ignorance and negligence. The detected errors were later removed during data preparation, in order for the data to be utilized as the input dataset for the ML models.
A process model was developed in order to address all six phases of the CRISP-DM model for lead time prediction in MTO fenestration companies. The case study and multi-company interviews gave the foundation for business understanding. Data understanding was achieved through the data quality assessment from RQ2, where the detected errors were removed during data preparation. Two ML models were developed for modelling, namely Random forest (RF) and a multi-layer perceptron (MLP) model. The evaluation showed that the RF model outperformed the MLP model in all performance metrics. Lastly, the deployment was not put in practice, but the potential application areas in PPC, detected in RQ1, were addressed and examined.
The thesis main contribution to theory is an extension of the existing CRISP-DM framework by developing an industry specific process model for ML-based lead time prediction in the MTO fenestration industry. The contribution to practice is a guide for which develops a shared understanding between data scientists and production managers. This can assist companies in effectively integrating lead time prediction into their PPC processes, thereby enhancing operational planning and decision-making. The main limitation to the study is that the data foundation for the process model was only collected from one MTO fenestration company. Future research should therefore apply the process model to other fenestration companies to test it's robustness and generalizability.