Achieving scalability in analytical databases used in big data pipelines

Bø, Halvor Fladsrud; Iversen, Anders Hallem; Øverland, Sveinung

dc.contributor.advisor	Tesdal, Nils
dc.contributor.author	Bø, Halvor Fladsrud
dc.contributor.author	Iversen, Anders Hallem
dc.contributor.author	Øverland, Sveinung
dc.date.accessioned	2020-08-16T16:01:56Z
dc.date.available	2020-08-16T16:01:56Z
dc.date.issued	2020
dc.identifier.uri	https://hdl.handle.net/11250/2672160
dc.description.abstract	I dag er mange organisasjoner avhengig av programvare og applikasjoner for å holde liv i deres virksomheter, og derfor er det et økende behov for å observere sine egne systemer og sluttbrukere for å sikre at de utfører den neste riktige forretningsavgjørelsen. Ved dette går man inn i dataanalysen sin verden, oppdagelsen og tolkningen av betydelige mønstre i data. Organisasjoner bruker dataanalyse for å finne svar på forretningsspørsmål, finne ut hvordan brukerne bruker organisasjonen sine tjenester, og henter ut annen meningsfull informasjon fra sine systemer, som brukeratferd og system målinger. For å oppnå dette kan man for eksempel spore aktivitetsdata fra brukerne, som for eksempel påloggingsforsøk, nett klikk, forekomster av feil og andre typer nettaktiviteter. For at en organisasjon skal utnytte fordelene ved dataanalyse må man først ta en beslutning om hvilke data man skal lagre, hvordan man skal lagre den, og finn ut hvordan man bruker dataene til noe nyttig, som er det første utfordringen. Fra et teknisk perspektiv har kravene for dataanalyse endret seg de siste årene. I dag er det mange systemer som håndterer flere tusen brukere samtidig, og sporer og lagrer deres aktivitet blant flere applikasjoner, noe som resulterer i gigabytes med data lagret hver eneste ende dag. På denne måten møter IT-verdenen mange utfordringer i forhold til å håndtere og prosessere enorme mengder med hendelsesdata, noe som førte til begrepet big data. I løpet av de siste 10 årene har IT-verden utviklet mange forskjellige typer teknologier og metoder for å gjøre det enklere å håndtere problemene som forekommer av med big data, noe som førte til en økende interesse for både store og små organisasjoner å gå inn i dataanalysen sin verden. Dataanalyse har til og med blitt en egen forretningside, og er nå en norm i nesten alle moderne organisasjoner. Med denne økende interessen for dataanalyse er det også blitt en høyere etterspørsel for at utviklere skal ha kunnskap og erfaring med å få dataanalyse til å komme til live, noe som gjør det enda vanskeligere å være utvikler i disse dager. Dataanalyse handler om å samle forskjellige typer data, ofte fra forskjellige typer kilder, til samme sted for tolkning. For å bruke dataene til noe nyttig prosesserer man normalt dataene før de blir lagret, for eksempel med å konvertere dataene til et riktig format eller legge til ytterligere datapunkter til rådataene. Dette fører til at man ender opp med et samlebånd av trinn før man kommer til oppbevaringen. Dette er den tradisjonelle tankegangen for å håndtere store mengder hendelsesdata, og hver enkelt organisasjon trenger å finne ut hvilke trinn er det behov i deres organisasjon, med tanke på krav og behov. For eksempel for noen organisasjoner er høy ytelse viktig, for noen organisasjoner er sanntids innsikt viktig, og for noen organisasjoner er det å være i stand til håndtere petabytes av data viktig. Dette skaper forskjellige krav til samlebåndet og den analytiske løsningen som helhet. Denne artikkelen vil gå i detalj og beskrive hvordan analytiske databaser skaleres når etterspørselen øker, vil gå dypt inn i arkitekturen til et slikt analytisk system og beskrive en implementering av et samlebånd for big data for å skape en bedre forståelse av dette temaet.
dc.description.abstract	Today, many organizations depend on software and applications to keep their businesses alive, and therefore, there is an increasing need of monitoring their systems and end-users to ensure they make the next right business decision. By this, one enters the world of analytics, the discovery and interpretation of significant patterns in data. Organizations use analytics to find answers to business questions, find out how their users use their services and extract other meaningful information from their systems, like user behavior and system metrics. To achieve this, one may for example find interests in tracking user-activity data, like login attempts, web clicks, error occurrences, and other types of behavior. For an organization to reap the benefits of analytics, one must first decide on what data to store, how to store it, and at the same time, figure out how to make that data into something useful, which is the first challenge. From a technical perspective, the demands of analytics have really changed over the last years. Today, there are many systems that handle several thousands of concurrent users simultaneously, tracking and storing their behavior and activity on multiple applications, resulting in gigabytes of data stored every single day. By this, the world of tech meets many challenges in relation to the processing and managing enormous amounts of event data, resulting in developing the term \textit{big data}. Over the last 10 years, the world of tech has developed a lot of different types of technologies and methodologies for making it easier to deal with the problems of big data, resulting in increased interest for both big and small organizations to get into the world of analytics. Analytics has even become a business-idea on its own and is now a norm in almost every modern organization. With this increasing interest in analytics, there is also a higher demand for developers to have knowledge and experience in making analytics come to life, making it even more difficult to be a developer these days. Analytics is about gathering different types of data, often from different types of sources, to the same place for interpretation. To turn the data into something useful it is normal to process the data before it gets stored, for example converting the data into a correct format or appending additional data to the raw data, resulting in a pipeline of steps before reaching storage. This is the traditional way of thinking when handling the ingestion of analytical events, and each and every organization needs to find out what these steps should be, based on their situation, demands, and needs. For example, for some organizations high performance is important, for some organizations real-time insights are important, and for some organizations being capable of dealing with petabytes of data is important, creating different demands for the different data pipelines and the analytical solution as a whole. This paper will go into detail and describe how analytical databases scale when demand increases, will go deep into the architecture of such a system, and describe an implementation of a big data pipeline to create a greater understanding of this topic.	en
dc.publisher	NTNU
dc.title	Achieving scalability in analytical databases used in big data pipelines
dc.type	Bachelor thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:56687413:57346 ...
Størrelse:: 5.517Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6819]

Vis enkel innførsel