Denna rapport har använt sig av Unity-verktyget ML-Agents till att bygga upp en spelmiljö där agenter tränats med hjälp av neurala nätverk och reinforcement learning. Miljön har utmanat agenterna med labyrintliknande banor där vissa även har enkla pusselmekaniker. Agenterna har sedan använts för att göra en undersökning om hur belöningssystemet Curiosity påverkar agentens förmåga att efter träning klara av för dem nya banor. Denna undersökning gjordes genom att träna 5 olika agenter under samma förhållanden där enbart styrkan på Curiosity-incitamentet skiljde dem åt. De olika Curiosity-styrkor som undersöktes var styrkorna: 0, 0.002, 0.033, 0.067 och 0.1. Dessa agenter utvärderades genom att spela igenom 8 utvärderingsbanor med varierande svårighetsgrad för att se vilken av agenterna som klarade av flest banor. Varje bana spelades igenom 50 gånger och antalet avklarade försök och tiden det tog för agenten att klara av varje bana antecknades.
Resultatet visade att samtliga agenter som tränats med Curiosity presterade betydligt bättre än agenten som tränats utan Curiosity. Antalet avklarade försök på utvärderingsbanorna ökade med 121%-231% då agenter tränades med Curiosity. Agenterna som tränats med Curiosity visade viss variation i hur bra de klarade av spelets banor. Den agent som presterade bäst var den med Curiosity-styrkan 0.002. Agenter som tränats med Curiosity visade sig mer benägna att undersöka banorna, vilket gjorde att de inte körde fast lika ofta som agenten som tränats utan Curiosity. Agenterna med Curiosity-styrkorna 0.033, 0.067 och 0.1 anses dock ha ett för högt värde på sin Curiosity-styrka då de uppvisat ett sämre resultat, samt ett rörelsemönster som anses icke-optimalt då de jämförs med agenten med Curiosity-styrkan 0.002. Överlag visade samtliga agenter en hög standardavvikelse, vilket innebär att det förekom hög varians försöken emellan.