Clustering of AMS-data
Master thesis
Date
2020Metadata
Show full item recordCollections
- Institutt for elkraftteknikk [2497]
Abstract
Utrullingen av AMS (smarte strømmålere) man ser i dag, både i Norge og globalt, gjør store mengder strømdata (AMS-data) tilgjengelig. På disse AMS-dataene kan man bruke Big-Data teknikker, og clustering er en teknikk mye brukt. Clustering er en teknikk som deler et datasett uten ekstern gruppering av dataene inn i forskjellige clustre (grupper) med ulike egenskaper. Denne masteroppgaven undersøker clustering av AMS-data, og presenterer clustering teori, AMS og nyttig tilleggsinformasjon for å kunne bruke resultatene fra clusteringen på en best mulig måte. Masteroppgaven presenterer en grundig analyse av 6 clustering algoritmer og 5 data representasjonsteknikker på fire ulike datasett. Validering av resultatene er gjennomført ved hjelp av tre clustering validerings indekser (CVIs) og manuell analyse for å sikre robuste resultater. En sammenligning med dagens praksis og en analyse av kapasitet i nettet basert på AMS-data er også gjennomført.
Resultatene viser at oppdelingsalgoritmer (engelsk: partitional algorithms) er det beste valget. Den gamle, enkle og robuste algoritmen K-Means presterer bra, og er den raskeste algoritmen. K-Shape presterte omtrent likt som K-Means på CVI'ene, selv om CVI beregningene favoriserer algoritmer som bruker en distansemåler kalt euclidean distance (ED), noe K-Means gjør. Den hierarkiske algoritmen som bruker singel lenke kriterium viser interessante resultater ved at den klarer å isolere data med avvikende verdier. De ulike teknikkene for å representere AMS-dataene viser at det er et potensiale for en betydelig reduksjon i beregningstiden for algoritmene, i tillegg til at man kan endre egenskapene til clusteringen. The worldwide rollout of advanced metering systems (AMS) seen today makes large amounts of AMS-data available. The AMS-data is suitable for Big-Data techniques, and clustering is one technique commonly used. Clustering is a technique to divide a dataset without external labelling information into groups with different characteristics. This master thesis investigates clustering on AMS-data, and presents a solid foundation of clustering theory, AMS and useful background information to use the clustering results most efficiently. The thesis presents a comprehensive clustering analysis on four datasets using 6 different clustering algorithms and 5 data representation techniques. Validation of the results is done with three cluster validation indexes (CVIs) and manual inspection to insure robustness of the results. A comparison with the practice used today and an analysis of capacity in the grid based on AMS-data are also performed.
The results show that the partitional algorithms are the preferred choice. The old, simple and robust K-Means performs well and has a low computational cost. The K-Shape got similar CVI scores as K-Means, despite the CVI scores calculated being biased towards algorithms using the euclidean distance (ED) measure. The hierarchical algorithm using single linkage shows interesting results, being able to isolate outliers. The data representation techniques show potential for a considerable reduction in time, and also clustering with different characteristics.