Improving the citizen science data corpus for science and management
Doctoral thesis
View/ Open
Date
2022Metadata
Show full item recordCollections
- Institutt for biologi [2614]
Abstract
Summary of thesis:
Citizen science, in which amateur volunteers report their observations, is becoming an increasingly important source of biodiversity data. To understand and properly manage natural resources, we need large amounts of observational data, and contributions from citizens are crucial in obtaining that. All observational data, but especially from citizen scientists, come with a number of challenges that we need to be aware of, and where possible, address. These include the need for open access to existing data, and the fact that some species are more popular and/or easier to recognize so that they are reported more, especially when it comes to pictures which are important for image recognition models. Additionally, correctly identifying species requires expert knowledge which citizens do not always have access to and which is becoming more rare in general, so such knowledge needs to be stored in a systematic way.
In this thesis, the aim is to investigate how widespread these issues are in data from citizen science, and what we can do to minimize them at the data collection stage.
To do so, I have: reviewed how researchers that use open data also openly share the data they add evaluated how pictures taken by citizen scientists help improve AI image recognition, and how this relates to how popular the different species groups are investigated how AI image recognition and the number of pictures that are available relate to both the quality of pictures and how easy the species are to recognize proposed a new data format for identification keys, so that experts can store their knowledge and citizens (among others) can better identify species
A lot of effort goes into methods for how to deal with issues in citizen science data in terms of coverage, quality and biases. Meanwhile, we should not be complacent, and keep aiming for better collection methods that minimize these issues to begin with, and look for other ways to improve the biodiversity data needed for research and management.
Sammendrag
Folkeforskning, hvor frivillige amatører rapporterer sine observasjoner, er en stadig viktigere kilde for biodiversitetsdata. For å kunne forstå og forvalte naturressurser trenger vi store mengder observasjonsdata, og bidrag fra folkeforskere er avgjørende for å få tak i det. Alle observasjonsdata, men særlig fra folkeforskning, medfører en del utfordringer som man må være oppmerksom på, og hvor mulig gjøre noe med. Disse er blant annet behovet for åpen tilgang til eksisterende data, og faktumet at noen arter er mer populære og/eller lettere å gjenkjenne slik at de blir rapportert oftere, særlig når det gjelder bilder, som er viktige for automatisk gjenkjenning av arter. I tillegg krever riktig artsbestemmelse ekspertkunnskap som folkeforskere ikke alltid har tilgang til og som i utgangspunktet blir mer sjelden, så slik kunnskap må lagres på en systematisk måte.
I denne avhandlingen er målet å undersøke hvor utbredt disse utfordringer er i dataene vi får inn fra folkeforskning, og hva vi kan gjøre for å minimalisere de i datainnsamlingsfasen.
For å gjøre det har jeg: kartlagt hvordan forskere som bruker åpne data også gjør dataene de legger til åpent tilgjengelig evaluert hvordan bilder tatt av folkeforskere hjelper i å forbedre bildegjenkjenning ved hjelp av kunstig intelligens, og hvordan dette forholder seg til hvor populære de ulike artsgruppene er undersøkt hvordan bildegjenkjenning ved hjelp av kunstig intelligens, samt hvor mange bilder som er tilgjengelige forholder seg til bildekvalitet og hvor lett det er å gjenkjenne artene foreslått et nytt dataformat for bestemmelsesnøkler, slik at eksperter kan lagre sin kunnskap og (blant annet) folkeforskere kan bli bedre til å bestemme arter
Mye energi brukes på metoder for hvordan vi kan håndtere utfordringer i folkeforskningsdata når det gjelder dekning, kvalitet og skjevhet i datagrunnlaget. Samtidig bør vi ikke ta disse problemene for gitt, og fortsette å prøve å få til bedre innsamlingsmetoder som minimaliserer disse utfordringer i utgangspunktet, samt se etter andre måter for å forbedre biodiveritetsdataene som vi trenger for forskning og forvaltning.
Has parts
Paper 1: Mandeville, Caitlin; Koch, Wouter; Nilsen, Erlend Birkeland; Finstad, Anders Gravbrøt. Open Data Practices among Users of Primary Biodiversity Data. BioScience 2021 ;Volum 71.(11) s. 1128-1147 https://doi.org/10.1093/biosci/biab072 This is an Open Access article distributed under the terms of the Creative Commons Attribution-NonCommercial License (https://creativecommons.org/licenses/by-nc/4.0/)Paper 2: Koch, Wouter; Hogeweg, Laurens; Nilsen, Erlend Birkeland; Finstad, Anders Gravbrøt. Maximizing citizen scientists’ contribution to automated species recognition. Scientific Reports 2022 ;Volum 12.(1) https://doi.org/10.1038/s41598-022-11257-x This article is licensed under a Creative Commons Attribution 4.0 International License (CC BY 4.0)
Paper 3: Koch, Wouter; Hogeweg, Laurens; Nilsen, Erlend Birkeland; O'Hara, Robert B.; Finstad, Anders Gravbrøt. Recognizability bias in citizen science photographs. Preprint on bioRχiv: doi:10.1101/2022.06.25.497604 Abstract Citizen
Paper 4: Koch, Wouter; Elven,Hallvard; Finstad, Anders Gravbrøt. Clavis: an open and versatile identification key format. Preprint on bioRχiv: doi:10.1101/2022.05.26.493630