dc.description.abstract | Sikkerhet i bygg- og anleggsprosjekter er en bekymring for bransjen. En rekke studier har blitt gjennomført for å adressere dette problemet. Maskinlærings-modeller har blitt utviklet for å forutsi utrygge hendelser og ulykker. På denne måten kan modellene legge til rette for å iverksette proaktive tiltak som kan bidra til å øke sikkerheten i et prosjekt. Denne oppgaven undersøker hvordan data fra et norsk byggefirma kan brukes til å gjøre periodiske forutsigelser av sikkerhetsytelse. Det første forskningsspørsmålet handler om hvordan sikkerhetsytelse kan måles for å gi verdi til ledelsen i et prosjekt og til anvendelse av maskinlæring. Et mål for sikkerhetsytelse er konstruert og består av tre ulike sikkerhetsnivåer. Nivåene bestemmes av hvorvidt en ulykke, nestenulykke eller ingen utrygg hendelse inntreffer i en periode. Det andre forskningsspørsmålet handler om hvordan den tilgjengelige dataen kan bearbeides og struktureres for å lage et datasett som er passende for periodiske forutsigelser av ulykker. Gjennom omfattende analyse og preprosessering er dataen blitt kombinert til ett datasett med ukentlige, og ett med månedlige data. Datasettene kan beskrives som ledende siden de kun inneholder data som er generert før prediksjonen gjøres. Datasettene inneholder variabler tilknyttet sikkerhet, kvalitetsavvik, arbeidere og generell prosjektinformasjon. Utvelgelse av variabler er gjort gjennom Boruta-algoritmen, og en resampling-strategi er anvendt ved bruk av SMOTE. Videre er optimalisering av hyperparametre utført ved bruk av tilfeldig søk. Det tredje forskningsspørsmålet handler om i hvilken grad modellene kan hjelpe med å forutsi sikkerhetsytelse. Denne studien anvender fem trebaserte modeller på hvert datasett: Decision Tree, Random Forest, AdaBoost, Gradient Boosting, og XGBoost. Evalueringen av modellene viser at XGBoost oppnår de beste resultatene for begge datasettene. Månedlig nøyaktig er 60.7\% og F1-scoren er 0.572, mens ukentlig nøyaktig er 77.7\% og F1-scoren er 0.513. Resultatene indikerer at dataen brukt i denne studien ikke er tilstrekkelig for å gjøre nøyaktige prediksjoner. Likevel viser denne oppgaven at de tilgjengelige dataene kan uttrykkes som ledende indikatorer på en måte som gir verdi i periodiske prediksjoner. Videre argumenteres det for at inkluderingen av nestenulykker i målet på sikkerhetsytelse kan tilføre verdi ved å utvide forståelsen av sikkerhet utover kun ulykker. I videre forskning anbefales det å inkludere variabler som omfatter mer informasjon om prosjektkarakteristikker. Det foreslås også at ekskludering av mindre alvorlige nestenulykker fra målet på sikkerhetsytelse kan sikre at forekomst av nestenulykker gjenspeiler et prosjekt med lavere sikkerhet enn de uten. | |
dc.description.abstract | Safety in construction projects is a concern for the industry. Accordingly, numerous studies have been conducted to address the issue. Machine learning models have been developed to predict incidents and accidents in construction. The models can thus facilitate proactive measures that can increase the safety of a project. This thesis examines how data from a Norwegian construction company can be used to make periodical predictions on safety performance. The first research question asks how safety performance can be measured to provide value for managers and machine learning applications. A safety performance measure is constructed and consists of three safety levels. The levels are determined by whether an accident, near miss, or no unsafe event has occurred. The second research question asks how the available data can be processed and structured to create a meaningful dataset for periodically predicting accidents. Through extensive analysis and preprocessing, the data is combined into one dataset with weekly and one with monthly data. They are kept leading by using data that is generated before the prediction is made. The datasets hold features related to safety, quality deviations, worker information, and general project information. Feature selection is made using Boruta, and a resampling strategy is applied using SMOTE. Furthermore, hyperparameter optimization is conducted using random search. The third research question asks to what degree the models can help predict safety performance. This study applies five tree-based models to each dataset: decision tree, random forest, AdaBoost, gradient boosting, and XGBoost. The evaluation of models shows that the best performance is achieved with XGBoost for both datasets. Monthly, the accuracy is 60.7\% and the F1 score is 0.572, while weekly accuracy is 77.7\% and the F1 score is 0.513. The results indicate that the data is not sufficient to make accurate predictions. Nevertheless, this thesis shows that the available data can be expressed as leading indicators in a way that is valuable for periodical predictions. Furthermore, it argues that incorporating near misses into the safety performance metric can add value by expanding the understanding of safety beyond just accidents. For future research, it is recommended to incorporate features that encompass more comprehensive information about project characteristics. Additionally, it is suggested that excluding the least severe near misses from the safety performance metric can help ensure that the occurrence of near misses reflects a more unsafe project than those without. | |