Högskolan i Skövde

his.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • apa-cv
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
A comparative user study of visualization techniques for cluster analysis of multidimensional data sets
University of Skövde, School of Informatics. University of Skövde, Informatics Research Environment. (Skövde Artificial Intelligence Lab (SAIL))ORCID iD: 0000-0002-0864-5247
University of Skövde, School of Informatics. University of Skövde, Informatics Research Environment. School of Engineering, University of Jönköping, Sweden. (Skövde Artificial Intelligence Lab (SAIL))ORCID iD: 0000-0003-2900-9335
2020 (English)In: Information Visualization, ISSN 1473-8716, E-ISSN 1473-8724, Vol. 19, no 4, p. 318-338Article in journal (Refereed) Published
Abstract [en]

This article presents an empirical user study that compares eight multidimensional projection techniques for supporting the estimation of the number of clusters, k, embedded in six multidimensional data sets. The selection of the techniques was based on their intended design, or use, for visually encoding data structures, that is, neighborhood relations between data points or groups of data points in a data set. Concretely, we study: the difference between the estimates of k as given by participants when using different multidimensional projections; the accuracy of user estimations with respect to the number of labels in the data sets; the perceived usability of each multidimensional projection; whether user estimates disagree with k values given by a set of cluster quality measures; and whether there is a difference between experienced and novice users in terms of estimates and perceived usability. The results show that: dendrograms (from Ward's hierarchical clustering) are likely to lead to estimates of k that are different from those given with other multidimensional projections, while Star Coordinates and Radial Visualizations are likely to lead to similar estimates; t-Stochastic Neighbor Embedding is likely to lead to estimates which are closer to the number of labels in a data set; cluster quality measures are likely to produce estimates which are different from those given by users using Ward and t-Stochastic Neighbor Embedding; U-Matrices and reachability plots will likely have a low perceived usability; and there is no statistically significant difference between the answers of experienced and novice users. Moreover, as data dimensionality increases, cluster quality measures are likely to produce estimates which are different from those perceived by users using any of the assessed multidimensional projections. It is also apparent that the inherent complexity of a data set, as well as the capability of each visual technique to disclose such complexity, has an influence on the perceived usability.

Place, publisher, year, edition, pages
Sage Publications, 2020. Vol. 19, no 4, p. 318-338
Keywords [en]
Cluster patterns, visualization, data structure, user study, multidimensional data
National Category
Computer Sciences
Research subject
Skövde Artificial Intelligence Lab (SAIL); VF-KDO
Identifiers
URN: urn:nbn:se:his:diva-18851DOI: 10.1177/1473871620922166ISI: 000545375800001Scopus ID: 2-s2.0-85087437127OAI: oai:DiVA.org:his-18851DiVA, id: diva2:1454692
Part of project
Virtual factories with knowledge-driven optimization (VF-KDO), Knowledge Foundation
Note

CC BY

Available from: 2020-07-20 Created: 2020-07-20 Last updated: 2024-06-19Bibliographically approved
In thesis
1. Visualizing Cluster Patterns at Scale: A Model and a Library
Open this publication in new window or tab >>Visualizing Cluster Patterns at Scale: A Model and a Library
2021 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

Large quantities of data are being collected and analyzed by companies and institutions, with the aim of extracting knowledge and value. When little is known about the data at hand, analysts engage in exploratory data analysis to achieve a better understanding. One approach in doing so is through the modeling and visualization of a dataset's structure, i.e., the neighborhood relations among its data points, and their distribution in the multidimensional space. Such a process allows users to disclose and discover neighborhoods, outliers and cluster patterns - insights that enable more informed subsequent analytical decisions.

Visualizing the structure of multidimensional data (i.e., with four or more dimensions or features) is generally done via two steps: modeling distance or neighborhood relations among data points, and visually encoding those modeled relations. As datasets grow in size (number of data points) and dimensionality (number of features), different scalability challenges arise. High-dimensional datasets, on the one hand, are more sparse in the multidimensional space, making it more difficult to make meaningful assessments about distances during the modeling, which, in turn, hinders the meaningfulness of the visual representations. Large datasets, on the other hand, make it more difficult to maintain the usability of a system in terms of the effectiveness of the visual representation (due to clutter or overplotting), or the efficiency of the solution (time and memory-wise). Different approaches have been proposed to overcome these challenges, but they apply to a particular combination of modeling and visual encoding, and their usability still degrades when dealing with very large, potentially distributed, multidimensional datasets.

Moreover, the availability or format of existing Visual Analytics solutions (i.e., solutions that aid data analysis through Machine Learning, visual and interactive techniques) for visualizing data structure - and, hence, cluster patterns - presents an accessibility challenge to the data science community. Namely, many solutions are either unavailable for use, thus requiring their re-implementation, or come as domain-dependent or standalone applications which are too rigid to use in other scenarios, or to integrate with other data analysis tools. 

This thesis addresses these challenges and makes two contributions: a process model, describing a generic approach for the effective and efficient visualization of cluster patterns in large and multidimensional datasets; and an open source library for the interactive visualization of cluster patterns, even in distributed datasets, packaged in an accessible format that allows its integration with other tools within a data analysis environment. The process model suggests sampling and vector quantization to avoid cluttering and overplotting, as well as to improve the efficiency of the system in terms of memory and latency (i.e., times taken to produce visual feedback from the modeling process and from user interactions). The library instantiates one of the possible configurations of the model, using Apache Spark for distributed computations, the Growing Neural Gas for vector quantization, and Force-directed Placement for constructing the two-dimensional layout. Seven research publications provide empirical and theoretical groundings to the validity of both the model and the library.

Abstract [sv]

Stora datamängder samlas (idag) in och analyseras för att skapa ny kunskap och bidra med värde i akademiska och industriella tillämpningar. För att skapa en större förståelse om vad datan innehåller, speciellt i fall där kunskapen om innehållet i datan är bristfällig, använder analytiker Visual Analytics (VA). Ett typiskt angreppssätt inom VA är att modellera och sedan visualisera den underliggande strukturen på datan. Det kan, till exempel, göras genom att visualisera datapunkternas lokala relationer i en multidimensionell rymd. Genom en sådan analys så kan analytiker upptäcka intressanta områden, (uteliggare check if this is the correct term for outlier), och kluster av datapunkter. Med dessa insikter kan efterliggande analyser utföras på ett bättre sätt (och då ge ett än större mervärde).

Visualisering av högdimensionell data, det vill säga data med fler än fyra dimensioner, är oftast en tvåstegsprocess. I det första steget modelleras relationerna mellan datapunkterna. I det andra steget så visualisera datapunkterna i en lågdimensionell rymd, där så mycket som möjligt av relationerna mellan datapunkterna behålls. Det uppstår dock skalbarhetsproblem när dataseten växer i storlek, som innefattar antalet datadimensioner och antalet datapunkter. Högdimensionell data är ofta gles och utspridd i den högdimensionella rymden, vilket gör den svår att modellera relationerna mellan de olika datapunkterna. Detta gör is sin tur det svår att tolka ut meningsfulla och informativa visualiseringar. Dataset med många datapunkter är också svåra att visualisera och kräver mycket beräkningstid och mycket datorminne för att få fram bra representationer och det finns en stor risk att dessa representationer blir röriga och svårtolkade. Detta gör att nyttan med VA minskar när storleken på datan växer. Det har gjorts en hel del forskning inom detta område och lösningar har presenterats för specifika problem men än så länge finns inga generella lösningar för stora - och mångdimensionella - dataset.

Många av de lösningar som tagits fram är dessutom inte publikt tillgängliga eller bara finns tillgängliga för att användas i specifika domäner. Det gör att dessa lösningar ofta måste återskapas om de ska användas för andra domäner eller integreras i standardiserade mjukvaror. Det gör att hela "data science" fältet står inför en stor utmaning om vilka format som kan användas när data klustras och hur lättillgängliga och publika mjukvaror kan skapas.

Avhandlingen gör två bidrag till detta. Dels så beskrivs ett effektivt och och generellt tillvägagångssätt för att processa och visualisera högdimensionell data. Ett programvarubibliotek som möjliggör interaktiv analys av data, även när datan är högdimensionell, har dessutom publicerats och finns tillgänglig som öppen källkod. Genom att programvaran finnas som öppen källkod så är det möjligt att integrera den i andra analys-mjukvaror. Tillvägagångsättet för att modellera datan använder sig av stickprovsurval och vektorkvantifiering för att undvika att de visuliseringarna innehåller för många punkter och därmed blir klottriga. Dessa metoder gör också att modelleringen och visualliseringen kräver en mindre mängd datorminne och att det är möjligt för modellen att ingå i en process där modellen producerar visuella representationer och en analytiker ger återkoppling som modellen reagerar på.

Programbiblioteket som publicerats innehåller en av alla möjliga konfigurationer av den framtagna modellen och är implementerat för köras på Apache Spark. I denna implementation så används en GNG för att utföra vektorkvantifieringen och en fdp används sedan för att konstruera en tvådimensionell representation som kan visualiseras För att fastställa validiteten och ge empiriska och teoretiska belägg för modellen så har sju vetenskapliga publikationer publicerats.

Place, publisher, year, edition, pages
Skövde: University of Skövde, 2021
Series
Dissertation Series ; 36 (2021)
Keywords
Visual analytics, cluster patterns, big data, unsupervised learning, multidimensional projections, vector quantization, progressive visual analytics
National Category
Computer Systems
Research subject
Skövde Artificial Intelligence Lab (SAIL)
Identifiers
urn:nbn:se:his:diva-19458 (URN)978-91-984919-0-6 (ISBN)
Public defence
2021-03-12, Insikten, Kanikegränd 3a, 541 34, Skövde, 13:15 (English)
Opponent
Supervisors
Available from: 2021-02-16 Created: 2021-02-10 Last updated: 2021-02-18Bibliographically approved

Open Access in DiVA

fulltext(2439 kB)595 downloads
File information
File name FULLTEXT02.pdfFile size 2439 kBChecksum SHA-512
b474c22d3022a2a72ec1ffd159d8286a93967819a0312f66d787762a16893348207b201713e86a9245158d99c63adb4cf040e9c1f58b5fa953a2d70a3d96e3a7
Type fulltextMimetype application/pdf

Other links

Publisher's full textScopus

Authority records

Ventocilla, ElioRiveiro, Maria

Search in DiVA

By author/editor
Ventocilla, ElioRiveiro, Maria
By organisation
School of InformaticsInformatics Research Environment
In the same journal
Information Visualization
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 596 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

doi
urn-nbn

Altmetric score

doi
urn-nbn
Total: 354 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • apa-cv
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf