Big Data Arkitekturer: En studie om tekniska och organisatoriska för- och nackdelar vid val av Big Data arkitektur.
2015 (Swedish)Independent thesis Basic level (degree of Bachelor), 15 credits / 22,5 HE credits
Student thesisAlternative title
Big Data Architectures : A study concerning technological and organizational pros and cons when choosing a Big Data Architecture. (English)
Abstract [sv]
Explosionen av sociala medier, användandet av smartphones och den ständiga uppkopplingen till internet gör att mängden tillgänglig data idag hela tiden ökar. Det rör sig dock inte bara om stora mängder data utan också om data som har en hög inflödeshastighet samt är av varierade datatyp. Kombinationen av dessa egenskaper gör att det blir svårt att hantera datan med konventionella metoder t ex relationsdatabaser (RDBMS) och denna data har fått namnet Big Data.
Det finns flera verktyg (lösningar) för att hantera Big Data på marknaden idag. Ett av dessa är Apache Hadoop, ett Distribuerat Fil System (DFS) som använder sig av en programmeringsmodell som heter MapReduce. Sedan finns det även lösningar baserade på klassiska databassystem som den populära relationsmodellen t ex Postgres-XL som är en Big Data lösning baserad på PostgreSQL.
Denna studie ämnar undersöka vilka för- och nackdelar det finns för företag som redan använder sig av relationsmodellen att hålla sig till liknande teknologi, t ex Postgres-XL eller om de ska byta till en nyare teknologi, t ex Apache Hadoop. För att undersöka detta har ett antal tekniska och organisatoriska aspekter identifierats och sedan har en främst teoretisk studie genomförts som består av en litteraturstudie samt en fallstudie.
Resultatet från studien visar på att det ur ett organisatorisk perspektiv finns flera fördelar för ett företag eller en organisation att hålla sig till relationsmodellen (Postgres-XL) medan det ur ett tekniskt perspektiv finns flera fördelar med att byta till en nyare teknologi (Apache Hadoop). De tekniska och organisatoriska aspekterna tar i många fall ut varandra och frågan för ett företag blir då om de tekniska aspekterna har en högre prioritet än organisatoriska aspekter.
Abstract [en]
The explosion of social media, the use of smartphones and the fact that people are always online today leads to a constant increase in data-production. This data is not just large but it also has a high velocity and variety, which makes it hard for conventional systems, like relational databases, to handle. This data, that cannot be handle with conventional methods, is called Big Data and the study in this report is looking into different ways to handle Big Data and more specific:
What pros and cons are there, concerning technological and organizational aspects, for a company or organization to change from a relational database to a Big Data solution based on the same technology (the relational model) or to change to an implementation of MapReduce?
There are several technologies that can handle Big Data on the market today. One of these are Apache Hadoop, which is a distributed files system (DFS) that uses a programming model called MapReduce. There are also other systems based on classic database systems, like relational database systems (RDBMS), for example Postgres-XL, a Big Data solution based on PostgreSQL.
The study in this report will explore pros and cons for a company which is already using relational database systems to make the change to a similar technology like Postgres-XL or if they should make the change to a newer technology like an implementation of MapReduce, for example Apache Hadoop. To look into this a number of organizational and technological aspects have been identified and then used to evaluate an implementation of Mapreduce and a parallell database based on the relational model in a case study and a literature-study.
From an organizational point-of-view this study shows that it in many ways is better för a company or organization to keep using the relational model and therefore make the change to for example Postgres-XL, while it from a technological perspektiv is better to make the change to an implementation of MapReduce like Apache Hadoop. However the technological and organizational pros and cons do often cancel each other out and therefore the question of which technology is preferable depends on whether the company or organization think that the organizational or technological aspect are more important.
Place, publisher, year, edition, pages
2015. , p. 59
Keywords [sv]
Big Data arkitekturer databaser apache hadoop postgres-xl
National Category
Information Systems, Social aspects
Identifiers
URN: urn:nbn:se:his:diva-11314OAI: oai:DiVA.org:his-11314DiVA, id: diva2:843703
Subject / course
Information Systems Development
Educational program
Information Systems - Enterpise Information Management
Supervisors
Examiners
2015-08-102015-07-302015-08-10Bibliographically approved