Uncovering Patterns in Teleconference Call Data: An Analysis using Clustering Method
Description
Full text not available
Abstract
Videokonferanser har blitt en integrert del av vår kommunikasjonslandskap, spesielt i sammenheng med fjernarbeid og virtuelle samarbeid. Behovet for å undersøke lyd- og videokvaliteten i videokonferansesamtaler har blitt stadig viktigere. Denne masteroppgaven undersøker effektiviteten av klyngealgoritmer av virkelige videokonferansesamtaler. Spesifikt utforsker den bruken av hovedkomponentanalyse for dimensjonsreduksjon og klyngealgoritmene K-means og agglomerativ hiearkisk klygeanalyse på data som er hentet fra Cisco Webex endepunkter. Omfattende analyser ble utført på metodene for å oppnå kunnskap om dannete grupper.
Analysen avslørte at de videorelaterte egenskaper i data punktene spiller en betydelig rolle i å skille samtalene basert på datasettet. Dette fordi de videorelaterte egenskapene viste størst varians. Ved evalueringen av det optimale antallet klynger ble det observert at fem klynger var det beste valget. De ulike gruppene ble analysert og man kunne se distikte trekk ved disse.
Imidlertid viste den interne analysen av datasettet at de oppnådde klyngene ikke hadde ønsket nivå av distinkthet. Dette antyder potensialet for ytterligere forbedringer i forbehandlingen, og en anbefaling er å utføre en mer omfattende utvalg av dataens egenskaper. Teleconferencing has become an integral part of our communication landscape, particularly in the context of remote work and virtual collaborations, hence the need to investigate the audio and video quality in teleconference calls has become increasingly important. This thesis investigates the effectiveness of clustering algorithms on real-world teleconference call data. Specifically, it explores the application of the dimentionality reduction method of PCA together with the clustering algorithms K-means and Hierarchical Agglomerative Clustering on data obtained from Cisco Webex collaboration endpoints. Extensive analysis was performed on the methods to obtain knowledge about the groups formed.
The analysis revealed that video-related metrics play a significant role in differentiating the calls based on the dataset. In other words, metrics related to video contribute the most variance. By evaluating the optimal number of clusters, it was observed that five clusters best represent distinct call quality categories.
However, from the internal analysis performed on the dataset, the obtained clusters did not exhibit a desired level of distictiveness. This suggests the potential for further improvement in the preporcessing, a suggestion would be to do a more comprehensive feature selection.