To be FAIR - Conceptions of purity and pollution in research data management practices
Abstract
In this thesis, I have focused on the problem raised by members of the life sciences community over the existing state of the research data ecosystem. The ecosystem is messy and disordered. This is because scientists have adopted different practices to manage data. This makes it difficult to navigate the ecosystem via computational means and find, as well as process what is needed. Thus, to declutter this ecosystem and bring order to it, scientists are being asked to collaborate and standardise how they manage their research data. Yet, prior efforts to standardise indicate that scientists still differ in how they manage data. The general assumption as to why they do so is that data management is a resource intensive task and scientists prefer to direct their resources towards doing research.
I argue that there is another reason for different practices to manage data: scientists have different definitions of ‘purity’ and ‘pollution’. Here, the concepts of purity and pollution are the difference between order and disorder. While order maintains the purity of data, disorder pollutes the data. Differences in how data is managed indicates a difference in what one values as order. To standardise their research data management practices, scientists may have to adjust their local distinctions between order and disorder. That is, they may have to accept what, to them, is polluted or reject what, to them, is pure. As this entails accepting some clutter and disorder in their neatly ordered data, this compromise also serves as a legitimate reason for non-compliance with standards. Thus, amongst other recommendations, I propose that in their efforts to standardise these practices, scientists should collectively engage in a dialogue to unpack the different conceptions of purity and pollution. Sammendrag
I denne avhandlingen har jeg fokusert på et problem fremmet av det livsvitenskapelige forskningsfellesskapet, nemlig den nåværende tilstanden til forskningsdataøkosystemet. Dette økosystemet er uoversiktlig og rotete. Årsaken til dette er at forskere har tilpasset seg forskjellige måter å håndtere data på, noe som gjør det vanskelig å navigere dette økosystemet, hente ut og prosessere de ønskede dataene maskinelt. For å gjøre tilgjengeligheten bedre, blir forskere bedt om å samarbeide og standardisere måten de håndterer og organiserer forskningsdata på. Dette har ikke fungert godt nok tidligere, siden mange forskere fortsatt bruker forskjellige metoder for å håndtere sine egne data. Den generelle forklaringen på dette, er at datahåndtering er en ressurskrevende oppgave, og forskere ønsker å bruke sine ressurser på forskning.
Jeg argumenterer for at det er en annen årsak til ulikhetene i håndteringen av forskningsdata: forskere har forskjellig oppfatning av “renhet” og “forurensning”. I denne sammenhengen er konseptet “renhet” og “forurensning” ansett som forskjellen mellom “orden” og “uorden”. Mens orden opprettholder renheten til dataene, vil uorden forurense dataene. Forskjellene i hvordan data håndteres, indikerer forskjellene i hva den enkelte anser som “orden”. For å kunne standardisere sine datahåndteringspraksiser, risikerer forskere å måtte justere sine vedtatte skiller mellom orden og uorden De må kanskje akseptere at det som for dem er “uorden”, faktisk er “orden”, eller at det som er “orden” for dem, må forkastes som “uorden”. Dette innebærer å akseptere noe rot i allerede velorganiserte data. Samtidig fungerer kompromisset også som en legitim grunn til manglende etterlevelse av standarder. Derfor, blant andre anbefalinger, foreslår jeg at i deres felles anstrengelser for å standardisere datahåndtering, bør forskere kollektivt engasjere seg i dialog for å avdekke de forskjellige oppfatningene av “renhet” og “forurensning”.
Has parts
Article 1: Chatterjee, A. (2020, September 13). Pure for me or impure for us: Pollution in the Gene Regulation Knowledge Commons. preprint: https://doi.org/10.31235/osf.io/yjhsa This is an open access article under the CC BY license (http://creativecommons.org/licenses/by/4.0/).Article 2: Chatterjee, Anamika; Swierstra, Tsjalling; Kuiper, Martin. Dealing with different conceptions of pollution in the Gene Regulation Knowledge Commons. Biochimica et Biophysica Acta. Gene Regulatory Mechanisms 2022 ;Volum 1865.(1) https://doi.org/10.1016/j.bbagrm.2021.194779 . This is an open access article under the CC BY license (http://creativecommons.org/licenses/by/4.0/).
Article 3: Chatterjee, A., & Swierstra, T. (2021, May 2). Making FAIR trustworthy. preprint: https://doi.org/10.31235/osf.io/x4csm This is an open access article under the CC BY-NC-ND (https://creativecommons.org/licenses/by-nc-nd/4.0/deed.en)