Vis enkel innførsel

dc.contributor.advisorBratsberg, Svein Erik
dc.contributor.advisorEdvard Sandal Rolfsen, Valdemar
dc.contributor.authorMørkrid, Hermann
dc.date.accessioned2024-03-16T18:19:44Z
dc.date.available2024-03-16T18:19:44Z
dc.date.issued2024
dc.identifierno.ntnu:inspera:182778801:35303646
dc.identifier.urihttps://hdl.handle.net/11250/3122754
dc.description.abstractDenne avhandlingen sammenligner to analytiske databaser, Elasticsearch og ClickHouse, til formålet av å bygge en generisk plattform for dataanalyse. Vi gjør et dypdykk i hvordan Elasticsearch er designet, og hvordan databasen brukes i Ignite, en plattform for å analysere innkjøpsdata. Avhandlingen presenterer et sett med utfordringer som Ignite har støtt på i deres erfaring med Elasticsearch, og utforsker potensielle alternativer. ClickHouse velges som database til å sammenligne videre. Vi setter så opp et eksperiment for å sammenligne de to databasene, og implementerer en generisk HTTP-tjeneste som et abstraksjonslag for å sammenligne dem likt. Et sett med ytelsesmålinger blir så utført for denne tjenesten, og finner at ClickHouse-databasen utpresterer Elasticsearch i datainntak, men at den yter verre i utføring av vår spesifikke spørring. I tillegg presenteres et sett med kvalitative funn, som beskriver utfordringen med å oppnå nøyaktighet i resultater fra Elasticsearch, og utfordringen med å forene objekt-orienterte modeller med den kolonne-orienterte strukturen til ClickHouse. Avhandlingen konkluderer med at ClickHouse er et levedyktig alternativ til Elasticsearch for en generisk dataanalyse-plattform, men at de blandede resultatene og begrensningene i eksperimentet gjør det til et ikke åpenbart valg.
dc.description.abstractThis thesis compares two analytical databases, Elasticsearch and ClickHouse, for the use case of building a generic data analytics platform. We delve into the design of Elasticsearch, and how it is used in the case of Ignite, a platform for analyzing procurement data. The thesis presents a set of challenges faced by Ignite in their use of Elasticsearch, and then explore potential alternatives to it, choosing ClickHouse as the database to compare further. We then set up an experiment to compare the two databases, implementing a generic HTTP service as an abstraction layer to compare them equally. A set of benchmarks are performed for this service, finding that ClickHouse outperforms Elasticsearch in data ingestion, but that it performs worse at our specific query execution, though this finding has its limitations. In addition, a set of qualitative findings are presented, describing the challenge of achieving correctness in results from Elasticsearch, and the issue of "object-columnar impedance mismatch" for ClickHouse. The thesis concludes that ClickHouse is a viable alternative to Elasticsearch for the use case of a generic data analytics platform, but that the mixed results and limitations of the experiment make it not the obvious choice.
dc.languageeng
dc.publisherNTNU
dc.titleReplacing Elasticsearch in a Data Analytics Platform
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel