Högskolan i Skövde

his.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • apa-cv
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
A comparative study for classification algorithms on imblanced datasets: An investigation into the performance of RF, GBDT and MLP
Högskolan i Skövde, Institutionen för informationsteknologi.
2020 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
Abstract [en]

In the field of machine learning classification is one of the most common types to be deployed in society, with a wide amount of possible applications. However, a well-known problem in the field is classification is that of imbalanced datasets. Where many algorithms tend to favor the majority class and in some cases completely ignore the minority class. And in many cases the minority class is the most valuable one, leading to underperforming and undeployable implementations.There are many proposed solutions for this problem, they range from different algorithms, modifications of existing algorithms and data manipulation methods. This study tries to contribute to the field by benchmarking three commonly applied algorithms (Random forest, gradient boosted decision trees and multi-layer perceptron), in combination with three different data-manipulation methods (oversampling, undersampling and no data manipulation). This was done through experiments over three differently shaped datasets.The results point towards random forest being the best overall performing algorithm. But when it comes to data with a lot of categorical dimensions the multi-layer perceptron was the top performer. And when it comes to data-manipulation, undersampling was the best approach for all the datasets and algorithms.

Ort, förlag, år, upplaga, sidor
2020. , s. 28
Nationell ämneskategori
Systemvetenskap, informationssystem och informatik med samhällsvetenskaplig inriktning
Identifikatorer
URN: urn:nbn:se:his:diva-18660OAI: oai:DiVA.org:his-18660DiVA, id: diva2:1448074
Ämne / kurs
Informationsteknologi
Utbildningsprogram
Systemvetenskap
Handledare
Examinatorer
Tillgänglig från: 2020-06-26 Skapad: 2020-06-26 Senast uppdaterad: 2020-06-26Bibliografiskt granskad

Open Access i DiVA

fulltext(880 kB)1393 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 880 kBChecksumma SHA-512
ab800f4d6d81616bc0f96781943530347f9f8f73339f913be46fac6bd6dac760584e28846eecb6c25ec62d29276280a8560eff4b5d6b06ba2d9e9b7df9e95279
Typ fulltextMimetyp application/pdf

Av organisationen
Institutionen för informationsteknologi
Systemvetenskap, informationssystem och informatik med samhällsvetenskaplig inriktning

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 1393 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 419 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • apa-cv
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf