Door de Oxford-filosoof Toby Ord geschat op ongeveer één op tien kans op existentieel risico in de volgende eeuw, wordt niet-gebonden kunstmatige intelligentie (AI) door onderzoekers algemeen beschouwd als een van de meest krachtige potentiële oorzaken van voortbestaansbedreigende rampen.

In dit artikel presenteren we een aantal stellingen over deze kansen. Hoewel het nog steeds fel bediscussieerde hypothesen zijn, zouden deze stellingen, als ze waar zijn, suggereren dat een geavanceerd AI-systeem een ​​aanzienlijk risico kan vormen voor het voortbestaan ​​van de mensheid indien we er niet in slagen om dit systeem doelen bij te brengen die de waarden van de mensheid nauwkeurig inkapselen. In het volgende nieuwsbericht zullen we kijken naar een aantal meer tastbare open problemen in het huidige AI-onderzoek die ook een belangrijke rol spelen met betrekking tot hoe AI een existentieel risico kan vormen.

We beginnen met twee stellingen die zijn geformaliseerd door de Zweedse filosoof Nick Bostrom in zijn paper uit 2012, ‘The Superintelligent Will: Motivation and Instrumental Rationality in Advanced Artificial Agents’. Dit paper stelt verbanden voor tussen de intelligentie en de motivaties van geavanceerde AI-agenten. De eerste staat bekend als ‘The Orthogonality Thesis’ en luidt als volgt:

De orthogonaliteitsthesis:

‘Intelligentie en einddoelen zijn orthogonale assen waarlangs mogelijke agenten vrij kunnen variëren. Met andere woorden, min of meer elk niveau van intelligentie zou in principe gecombineerd kunnen worden met min of meer elk einddoel.’

Als deze stelling waar blijkt te zijn, is er, zoals onderzoeker Phil Torres het uitdrukte, ‘geen principiële reden om te vermoeden dat een superintelligente machine waarvan het doelsysteem is geprogrammeerd om de grassprieten op de campus van Harvard te tellen, zou stoppen en denken: “Ik zou mijn enorme capaciteiten kunnen gebruiken om de kosmos te bewonderen, een ’theorie van alles’ te construeren en wereldwijde armoede op te lossen. Dit is een dwaas doel, dus ik ga weigeren het te doen.”‘ Hoewel een grappig voorbeeld, het is niet moeilijk om meer te bedenken over scenario’s waarin een AI-agent een duidelijk kwaadaardige taak krijgt, maar niet stopt met nadenken over de gevolgen van zijn acties.

De tweede stelling van Bostrom staat bekend als de ‘Instrumental Convergence Thesis’ en suggereert dat, ongeacht het uiteindelijke doel, een superintelligente agent noodzakelijkerwijs een aantal potentieel gevaarlijke instrumentale subdoelen zal hebben:

De Instrumentele Convergentie Thesis:

“Er kunnen verschillende instrumentele waarden worden geïdentificeerd die convergeren in die zin dat het bereiken ervan de kans vergroot dat het doel van de agent wordt gerealiseerd voor een breed scala aan einddoelen en een breed scala aan situaties, wat impliceert dat deze instrumentele waarden waarschijnlijk zullen worden nagestreefd door veel intelligente agenten.’

Een voorbeeld van hoe dit een gevaar voor de mensheid zou kunnen zijn, dat vaak door Bostrom zelf wordt gegeven, is dat van een ‘paperclip-maximalisator’. Stel je een voldoende capabele superintelligente AI-agent voor die de taak krijgt om zoveel mogelijk paperclips te produceren. De agent zou uiteindelijk beseffen dat het om een ​​aantal redenen noodzakelijk is om de mensheid uit te roeien om zijn taak zo goed mogelijk te volbrengen. Mensen kunnen de macht hebben om de agent uit te schakelen of op een andere manier zijn voortgang bij het maken van paperclips te belemmeren, en om verstoring te voorkomen, zou het dus beter zijn als mensen ophielden te bestaan. Bovendien bevat de materie waaruit de lichamen van alle mensen bestaan ​​atomen die nuttiger zouden zijn als ze in de vorm van paperclips zouden voorkomen (volgens het uiteindelijke doel van de agent).

Er zijn ook een aantal meta-ethische stellingen over de aard van menselijke waarden. Hoewel schijnbaar abstract, is het, als we ooit een AI-systeem willen doordrenken met ‘menselijke waarden’, natuurlijk belangrijk dat we zeker weten wat ‘menselijke waarden’ zijn. De drie stellingen die hierop ingaan zijn de volgende:

The Perplexity of Value Thesis:

Ondanks eeuwen van filosofisch onderzoek naar wat menselijke waarden zijn of zouden moeten zijn, lijken we nog lang niet in de buurt van een consensus te zijn. Bij gebrek aan universele consensus over wat menselijke waarden zijn, zullen de ontwikkelaars van een geavanceerd AI-systeem de keuze hebben tussen concurrerende ethische kaders, waardoor de deur open blijft voor een AI-systeem dat een niet-representatief beeld overerft van wat mensen waarderen.

The Complexity of Value Thesis:

Het is mogelijk dat, wat menselijke waarden ook blijken te zijn, ze niet in een beknopte, wiskundige en objectieve vorm kunnen worden uitgedrukt. Dit vormt een probleem als het erom gaat deze waarden in een AI-systeem te implementeren.

De fragiliteit van waarde stelling:

Ten slotte is het mogelijk dat waardesystemen kwetsbaar zijn in die zin dat een klein verschil in een van hun componenten tot enorm verschillende uitkomsten leidt. Zelfs als zowel de Perplexity- als Complexity-problemen zijn opgelost en de tijd is gekomen om menselijke waarden in een AI-systeem te ‘laden’, kan elke bug, storing of kleine verkeerde voorstelling van een onderdeel van het framework ertoe leiden dat de AI een heel ander beeld hebben van menselijke waarden dan de bedoeling was.

Het is niet moeilijk om in te zien hoe slechts een paar van deze hypothesen waar moeten zijn om ze te combineren op een manier die een grote reden tot zorg zou zijn in toekomstig AI-onderzoek. Als bijvoorbeeld een van de ‘waardethesen’ waar was, zou het in het beste geval hoogstonwaarschijnlijk zijn dat we een AI-systeem kunnen invoeren met de kennis van zelfs de meest menselijke, “gezond verstand”-waarden. Als dit het geval was, wordt het scenario van de paperclip-maximizer een schijnbaar waarschijnlijk uitvloeisel van de Instrumental Convergence Thesis. De agent zou niet het gezond verstand hebben om te beseffen dat paperclips niet inherent waardevol zijn, en dus is het waarschijnlijk geen goed idee om een ​​wereld tot stand te brengen waarin er geen mensen zijn om gebruik te maken van de paperclips die hij moet produceren. Bovendien, en misschien nog zorgwekkender, zijn de bovenstaande stellingen geenszins een uitgebreide lijst van de filosofische kwesties met betrekking tot het ontwerp en de inzet van geavanceerde AI, en er zijn hoogstwaarschijnlijk veel meer manieren waarop AI de mensheid in gevaar kan brengen die onderzoekers nog moeten overwegen.

Als er voldoende capabele AI mogelijk is, kunnen we maar beter antwoorden vinden op deze, en nog veel meer, verontrustende gedachten.