In onze post op de blog van vorige week onderzochten we een aantal mogelijke filosofische kwesties als het gaat om de ontwikkeling van veilige kunstmatige intelligentie. En hoewel deze kwesties belangrijk zijn om aan te pakken, voelen ze nog wat abstract en lijken onhandelbaar – althans voor nu. Deze week gaan we in op een aantal meer concrete onderwerpen in hedendaags AI-onderzoek met veiligheidsimplicaties voor zowel de huidige als toekomstige AI-systemen.

Veel van de hier gepresenteerde problemen zijn ingekaderd in relatie tot het machine learning-paradigma van versterkend leren. Bij versterkingsleren leert een AI-agent hoe hij moet omgaan met zijn omgeving door een beloning te ontvangen voor zijn acties, zoals bepaald door een beloningsfunctie die is gedefinieerd door de ontwikkelaars. Het doel van de agent is om zoveel mogelijk beloning te ontvangen. Stel dat we een schoonmaakrobot (de agent) hebben die de keuken moet schoonmaken (de omgeving). Het is logisch om een ​​beloningsfunctie te implementeren die de robot beloont als de keuken schoon is, en mogelijk de robot straft (geef hem een ​​’negatieve beloning’) als deze vuil is. Op deze manier is het in het belang van de robot om de keuken zo schoon mogelijk te houden, omdat hij zo de beloning die hij ontvangt maximaal zal maken. Omdat de beloningsfunctie geen informatie bevat over hoe de keuken schoon moet worden gehouden, moet de robot tijdens de training zelf bedenken dat het waarschijnlijk een goed idee is om de vloeren te dweilen, en om niet de prullenbakken op tafel te zetten.

Met dit basisbegrip van de werking van veel huidige AI-systemen, kunnen we nu enkele van de problemen te onderzoeken die zich bij hun implementatie kunnen voordoen.

Voor diepgaande besprekingen van deze kwesties en meer, zie Amodei et al. 2016. ‘Concrete Problems in AI Safety’, en de uitstekende grafische online bron van het Future of Life Institute https://futureoflife.org/landscape/

Negatieve gevolgen vermijden

Het is belangrijk om ervoor te zorgen dat een AI-agent, terwijl hij zijn doel met succes voltooit, geen acties onderneemt die de omgeving op onbedoelde negatieve manieren beïnvloeden als gevolg van onoplettendheid. Vanwege de complexiteit van omgevingen waarin agents waarschijnlijk zullen opereren, is het onhaalbaar om het potentieel oneindige aantal ongewenste manieren te specificeren waarop de omgeving kan worden verstoord, en daarom moet een elegantere oplossing worden gevonden.

Beloningshacking vermijden

In verband met het bovenstaande moeten we ervoor kunnen zorgen dat een agent zijn beloningsfunctie niet ‘speelt’, wat inhoudt dat de agent het gewenste doel met succes zou behalen, maar op een manier die afwijkt van wat het ontwerpteam had bedoeld. Terugkerend naar het voorbeeld van de schoonmaakrobot, als we besluiten hem te belonen voor de schoonmaakactie, kan hij leren om de keuken in eerste instantie vuiler te maken om meer te kunnen schoonmaken in ruil voor meer beloning.

Schaalbaar toezicht

Hoe kunnen we ervoor zorgen dat de agent het doel op de gewenste manier voltooit, terwijl de reeks taken die aan AI-systemen worden gegeven steeds complexer wordt, zonder een groot aantal potentieel tijdrovende observaties van de acties van de agent te hoeven maken?

Veilige verkenning

Een centraal begrip van versterkend leren is dat van exploratie. Dit houdt in dat de agent tijdens het trainingsproces acties onderneemt die misschien niet de beste keuze lijken, met de kans dat ze beter worden beloond dan de agent had verwacht. Het is echter belangrijk om te garanderen dat de agent tijdens het verkennen geen acties onderneemt met schadelijke gevolgen.

Robuustheid voor distributieverschuiving

Het is mogelijk, ja zelfs zeer waarschijnlijk, dat de omgeving waarin een AI-agent wordt ingezet anders zal zijn dan die waarin hij is opgeleid. Hoe weten we zeker dat de agent deze verschillen herkent en er adequaat op reageert?

Transparantie

Aangezien AI-systemen steeds meer worden toegepast in besluitvormingsscenario’s, is het belangrijk om het vermogen van mensen te behouden om te kunnen begrijpen en beoordelen hoe een AI-agent tot de conclusie is gekomen dat het deed. Dit kan zijn door primaire analyse van de onderliggende besluitvormingsmethoden van de agent, of door de agent zijn eigen redenering te laten uitleggen aan een menselijke supervisor. De eerste optie zal waarschijnlijk onhaalbaar worden naarmate AI-systemen steeds complexer worden, terwijl de laatste mogelijk het blik op de weg zou kunnen schoppen als de redeneringsmethode van de agent zelf niet transparant is.

Corrigeerbaarheid

Hoewel het misschien niet zo’n punt van zorg is voor de huidige AI-systemen, is het belangrijk ervoor te zorgen dat toekomstige systemen corrigeerbaar zijn, wat betekent dat ze voldoen aan menselijke tussenkomst die erop gericht is het systeem af te sluiten of te herprogrammeren.

Zoals te zien is, zijn er een aantal belangrijke kenmerken van versterkend leren die moeten worden aangepakt om ervoor te zorgen dat de agent veilig handelt en zoals de ontwerpers het bedoeld hebben. Het bedenken van oplossingen voor deze zorgen zal alleen maar belangrijker worden naarmate de kracht en alomtegenwoordigheid van AI-systemen de komende jaren toeneemt.