Competence mining for better cross-organization communication and cooperation at Bouvet ASA: A feasibility study
Abstract
Denne avhandlingen er en mulighetsstudie som prøver å kartlegge mulighetene og umulighetene for en funksjonalitet for kompetanseutvinning. Prosjektet er motivert av en idé fra Bouvet ASA - et norsk IT-konsulentselskap med distribuert, mangfoldig og kunnskapsrik arbeidsstyrke. Den overordnede ideen er en funksjonalitet for intern søking på Bouvet sine ansattes kompetanser basert på hva de har gjort og produsert, i stedet for hva de selv sier de kan gjennom prosjekt-CVer. Målet med denne studien er å gjøre en kvalitativ vurdering av mulighetene for å utvinne de ansattes kompetanser fra naturlige språkdokumenter skrevet av de ansatte ved Bouvet, ved å bruke språkbehandling (NLP) og maskinlæring. Rapporten beskriver først en undersøkende analyse av forskjellige teknologier vurdert som tekstanalysesystem, som ender med Google Cloud Platform AutoML Natural Language. Resten av studien undersøker, vurderer og tester muligheten for å hente ut kompetanser basert på den dataen som er tilgjengelig hos Bouvet og den valgte teknologien. Dette gjøres ved å først klassifisere dokumenter og trene en ML-modell for filtrering av relevante tekster, og deretter evaluere kvaliteten på modellen. Resultatene viser at kvaliteten på modellene øker med antall klassifiserte dokumenter, selv om det er en relativt begrenset mengde relevante tekster tilgjengelig. Oppgaven konkluderer med at kompetanseutvinning er mulig, men det er store utfordringer, spesielt når det gjelder kvaliteten på dataen som er tilgjengelig. This thesis is a feasibility study that attempts to map the opportunities and impossibilities of a competence mining functionality. The project is motivated by an idea at Bouvet ASA - a Norwegian IT consultancy firm with a distributed, diverse and knowledgeable workforce. The overall idea is a functionality for internally searching for Bouvet's employees’ competences based on what they have done and produced, instead of what they themselves say they know through project CVs. The objective of this study is to do a qualitative assessment of the possibilities of mining the employees' competences from natural language documents written by the employees at Bouvet, utilizing natural language processing and machine learning. The study first describes an investigative analysis of different technologies considered as the text mining system, before landing on Google Cloud Platform AutoML Natural Language. The remainder of the study researches, assesses and tests the feasibility of mining competences based on the data available at Bouvet and the technology chosen. This is done by first annotating documents and training a ML model for filtering out relevant texts, and then evaluating the quality of the model. The results show that the quality of the models increases with the number of annotated documents, although there are a relatively limited amount of relevant texts available. The thesis concludes that competence mining is possible, however there are substantial challenges, especially concerning the quality of the data available.