onsdag den 30. juni 2021

Kunstig intelligens og menneskelige beslutninger mellem Skylla og Charybdis

 

I disse år udbredes anvendelsen af kunstig intelligens med stor hast. Et af de områder, hvor der er størst potentiale, er brugen af kunstig intelligens i forbindelse med beslutninger. Når kunder i en bank søger om et lån, så bliver deres ansøgning ofte vurderet af en algoritme, som beregner risikoen for, at kunden ikke betaler lånet rettidigt tilbage. Er risikoen for høj, så bliver ansøgningen typisk afvist. Og når personer ringer til 112, så lytter en algoritme med, for at forsøge at opdage symptomer på et hjertetilfælde, så den kan slå alarm. Kunstig intelligens – i form af algoritmiske beslutningssystemer – kan bruges på lignende vis i mange, mange forskellige situationer.

Der er imidlertid en afgørende forskel på, om algoritmen så at sige træffer beslutningen selv, eller om den alene giver information til et menneske, som træffer beslutningen. Bliver ansøgningen om et lån for eksempel automatisk godkendt eller afvist på baggrund af algoritmens vurdering? Eller er det en bankrådgiver, som træffer beslutningen blandt andet ved at skele til algoritmens vurdering af risici? Sendes der automatisk en ambulance til patienten, når algoritmen slår alarm om et mistænkt hjertetilfælde? Eller er det sundhedspersonale, som har patienten i røret, der får alarmen og skal træffe beslutningen?

Både blandt forskere, organisationer og på EU-niveau har mange betragter det som udelukket, at vigtige beslutninger træffes af en kunstig intelligens uden menneskelig indblanding. Det er, hævder sådanne kritikere, et ufravigeligt krav, at der altid er en ”human-in-the-loop”. Når det er tilfældet, er der tale om såkaldt algoritmisk beslutningsstøtte.

Synspunktet kan virke tiltalende. Mange vil nok føle en umiddelbar uro ved tanken om, at afgørende beslutninger om deres eget liv skulle træffes helt mekanisk af en algoritme uden menneskelig indblanding. Ikke desto mindre er der grund til at overveje synspunktet lidt mere grundigt. Helt oplagt er der to vigtige spørgsmål man bør rejse.

For det første: bør vi også insistere på ”human-in-the-loop” i de situationer, hvor vi kan se at det fører til dårligere beslutninger, end hvis algoritmen træffer beslutningerne selv?

Og for det andet: hvordan skal vi indrette brugen af algoritmisk beslutningsstøtte, så det fungerer bedst muligt?

De to spørgsmål hænger sammen, blandt andet fordi det viser sig at algoritmisk beslutningsstøtte kan virke på utilsigtede måder. Disse utilsigtede virkninger betyder, at der måske er flere situationer, end vi umiddelbart ville forestille os, hvor algoritmisk beslutningsstøtte kan føre til dårligere beslutninger, end hvis man helt overlod roret til maskinen.

De utilsigtede virkninger skyldes at indretningen af algoritmisk beslutningsstøtte let bliver fanget mellem to typer kognitive bias. Sådanne kognitive bias har alle mennesker, og hvis vi er i en situation, hvor de aktiveres, så påvirker de vores beslutninger hvad enten vi vil det eller ej. Brugen af algoritmisk beslutningsstøtte kan således vise sig at blive en vanskelig sejlads mellem Skylla og Charybdis.

Skylla

Den måske mest oplagte måde at indrette algoritmisk beslutningsstøtte på, er følgende: vi lader algoritmen foretage sin vurdering, og giver denne information sammen med alle de andre typer relevant information til et menneske, som så træffer beslutningen.

Et aktuelt eksempel er de danske Jobcentres brug af kunstig intelligens, til at vurdere nylediges risiko for langtidsledighed. Algoritmen beregner risikoen for, at den enkelte nyledige bliver langtidsledig. Denne information gives sammen med andre relevante informationer til Jobcenterets sagsbehandlere, som på denne baggrund blandt andet beslutter hvilke tilbud den nyledige skal have, og hvilke krav Jobcentret skal stille, for eksempel om aktivering.

Denne måde at indrette beslutningsstøtte på, risikerer imidlertid at føre til automatiseringsbias.

Automatiseringsbias er i denne sammenhæng en ubevidst tendens til at lægge for meget vægt på algoritmens vurdering. Vi kan komme til at lægge for meget vægt på visse forhold, fordi det i almindelighed er meget vanskeligt for os selv at se, hvor meget vægt vi egentlig giver forskellige grunde, når vi træffer beslutninger. Det kan derfor være svært for en selv at se, om algoritmens vurdering har spillet en lille, en stor eller slet ingen rolle.

Men forskning viser, at mennesker i nogle situationer har en tilbøjelighed til at stole næsten blindt på algoritmers vurderinger, selv når de eksplicit bliver bedt om at tage selvstændigt stilling. Det gør sig især gældende, når brugen af algoritmens vurderinger er blevet rutine, og det har vist sig, at den sjældent tager fejl. I en sådan situation kan man godt have en fornemmelse af, at man har foretaget en selvstændig vurdering, selvom man i virkeligheden blot har lagt sig fast på algoritmens vurdering, og konstrueret en forklaring der rationaliserer den.

Automatiseringsbias minder om og hænger måske i nogen grad sammen med den meget studerede anker-effekt. Anker-effekten er en måde, hvorpå personers vurderinger påvirkes markant, alene ved at få dem til at tænke på bestemte forhold umiddelbart inden vurderingen, også selvom disse forhold er helt irrelevante.

I et meget berømt forsøg bad adfærdsforskerne Daniel Kahneman og Amos Tversky forsøgspersoner om at gætte på hvor mange procent af FNs medlemslande, som var afrikanske lande. Umiddelbart inden de skulle give deres bud på dette spørgsmål, drejede forsøgspersonerne et lykkehjul med tallene fra 1 til 100. Hjulet var i al hemmelighed konstrueret således, at det kunne standses ved bestemte tal. Hvis man havde spurgt dem ville forsøgspersonerne antageligt have afvist, at resultatet af lykkehjulet spillede en rolle for deres vurdering. Ikke desto mindre gættede de personer, som oplevede at hjulet standsede ved 10, i gennemsnit på 25%, mens de personer som oplevede at hjulet standsede ved 65, i gennemsnit gættede på 45%.

Automatiseringsbias er en udfordring for algoritmisk beslutningsstøtte, fordi det underminerer de fordele, der skulle være ved at bruge kunstig intelligens og mennesker til at træffe beslutninger. Under indflydelse af automatiseringsbias kommer beslutningen til at minde om en rent automatisk beslutning, uden at vi er klar over det. På den måde risikerer vi at få det værste af begge verdener: fuldt automatiserede beslutninger, med de begrænsninger og risici det indebærer, men uden den bevidsthed om disse risici og de forholdsregler, som vi kunne have truffet, hvis der formelt var tale om en fuldt automatiseret beslutning.

Charybdis

En anden måde at indrette algoritmisk beslutningsstøtte på er følgende: vi lader den menneskelige beslutningstager foretage sin vurdering først, og giver kun bagefter vedkommende information om algoritmens vurdering. Beslutningstageren kan så justere sin vurdering i lyset af den nye information. Derved undgår vi automatiseringsbias.

Hvis vi vender tilbage til eksemplet med de danske Jobcentre, så ville Jobcentrets sagsbehandler først foretage en uafhængig vurdering af, om den nyledige har høj risiko for langtidsledighed. Først efter at have foretaget denne vurdering ville sagsbehandleren modtage algoritmens vurdering. I lyset af den nye information ville sagsbehandleren derpå kunne justere sin første vurdering.

Denne måde at implementere algoritmisk beslutningsstøtte risikerer imidlertid at aktivere personers konfirmationsbias.

Konfirmationsbias er en ubevidst tendens til at vurdere information som vigtigere og mere pålidelig, jo bedre den stemmer med vores fordomme, synspunkter og allerede udførte vurderinger. Det skyldes i hvert fald til dels at det opleves som anstrengende og ubehageligt, at acceptere information som strider mod disse, fordi dette enten skaber såkaldt kognitiv dissonans – irritationen ved at fastholde uforenelige synspunkter – eller kræver at man reviderer sine eksisterende synspunkter.

Konfirmationsbias er et af de mest studerede bias, og har beviseligt en væsentlig effekt i en lang række sammenhænge. Eksempelvis har forskere fra Stanford University i et berømt studie vist hvordan personer kan vurdere et (fiktivt) forsøg som mere eller mindre videnskabeligt velfunderet, alene afhængigt af om konklusionen understøtter eller strider imod deres politiske overbevisninger. Hvis forsøget konkluderede at dødsstraf har en afskrækkende effekt på potentielle forbrydere, så blev det vurderet som troværdigt af studerende, som var tilhængere af dødsstraf, og som utroværdigt, af studerende som var modstandere, og vice versa for den modsatte konklusion. Dette helt uanset, at metoderne og teorien, som rettelig burde bestemme dets pålidelighed, var identisk i begge versioner af det fiktive forsøg.

I sammenhæng med algoritmisk beslutningsstøtte er bekymringen naturligvis, at hvis en menneskelig beslutningstager tager stilling til sagen inden vedkommende får adgang til algoritmens vurdering, så vil opfattelsen af algoritmens vurdering blive farvet deraf. Stemmer den nogenlunde med personens egen vurdering, så kan den blive opfattet som pålidelig. Afviger den fra personens egen vurdering, så kan den blive opfattet som upålidelig, og tillagt ringe vægt.

Pointen med at anvende algoritmisk beslutningsstøtte er imidlertid, at forsøge at træffe bedre beslutninger, end hvis mennesker traf beslutningen alene. Ellers kunne vi jo spare os besværet med at udvikle og implementere den kunstige intelligens. Hvis menneskelige beslutningstagere får tilbøjelighed til at tilsidesætte den algoritmiske vurdering i netop de situationer, hvor den potentielt kunne korrigere deres egen vurdering, så er vi lige vidt.

Den semiautomatiske løsning

Kan man ikke indrette algoritmisk beslutningsstøtte, så den undgår begge disse typer bias? I nogen grad jo, men det er ikke så let, og rejser måske endnu andre udfordringer. Man kan for eksempel træffe beslutningen som en automatisk kombination af den algoritmiske og menneskelige vurdering.

Hvis vi endnu engang vender tilbage til eksemplet med Jobcentre, så kunne man forestille sig, at sagsbehandleren og algoritmen uafhængigt af hinanden vurderede den nylediges risiko for at blive langtidsledig. Efterfølgende kunne disse to vurderinger kombineres, for eksempel ved ganske enkelt at tage gennemsnittet – vurderer algoritmen at risikoen er 83%, og sagsbehandleren at risikoen er 39%, så fastslås risikoen til 61%. Hvis høj risiko for langtidsledighed på forhånd er defineret som mere end 60%, som i den algoritme der faktisk anvendes, så placeres personen i højrisiko-gruppen.

Ulempen ved denne metode er naturligvis at den er så mekanisk, at den nærmer sig den fuldt automatiserede beslutning. Formålet med beslutningsstøtte snarere end kunstig intelligens alene er, at mennesker skal kunne kontrollere algoritmens vurdering, og gribe ind, hvis det er nødvendigt. Denne mulighed findes i meget begrænset form, hvis de to vurderinger blot kombineres. Det er altså ganske svært at finde en god måde at implementere algoritmisk beslutningsstøtte, som ikke sejler faretruende tæt på enten Skylla eller Charybdis.

Den overmenneskelige maskine

Lad os afslutningsvis kort vende tilbage til det første spørgsmål, som jeg indledningsvist nævnte: skal vi insistere på at involvere en menneskelig beslutningstager i de situationer, hvor dette beviseligt vil føre til dårligere beslutninger, end en fuldt automatisk beslutning?

De mange overvejelser ovenfor viser, at det næppe altid er så attraktivt, at anvende algoritmisk beslutningsstøtte, som man kunne have håbet. Kritikere insisterer typisk på, at det er afgørende at have en ”human-in-the-loop”, ved netop de beslutninger som er særligt vigtige. Men det er afgørende at huske på, at netop for disse beslutninger har det ofte store personlige omkostninger for de berørte personer, hvis vi vælger en beslutningsprocedure som er dårligere end tilgængelig alternativer.

Et berømt, nyere studie af den fremtrædende forsker John Kleinberg og hans kollegaer kan illustrere pointen. Kleinberg og kollegaer kiggede på dommere i New York, specifikt på deres beslutninger om at varetægtsfængsle eller løslade anklagede (evt. mod kaution). En sådan beslutning er selvsagt utrolig vigtig for den anklagede. Et amerikansk fængsel er et skræmmende, ubehageligt og frem for alt farligt sted at opholde sig, så det vil typisk være langt bedre for den anklagede at blive sat fri indtil retssagen er afgjort.

Desværre er dommeres vurderinger fejlbarlige. Nogle anklagede som sættes fri stikker af eller begår forbrydelser mens de er på fri fod – ind imellem meget alvorlige forbrydelser. Andre varetægtsfængsles selvom de hverken ville være stukket af eller have begået forbrydelser, hvis de var blevet sluppet fri indtil retssagens afgørelse.

Kleinberg og hans kollegaer trænede en algoritme til at vurdere, om anklagede ville stikke af eller begå nye forbrydelser, hvis de blev sat fri inden retssagen. Det viste sig at algoritmen var klart bedre end de menneskelige dommere, til at vurdere dette spørgsmål. Men det blev værre endnu. Forskerholdet studerede statistisk hvilke faktorer de menneskelige dommere lagde vægt på, og konstaterede at de typisk brugte mange af de samme faktorer, som algoritmen, om end mindre præcist. De menneskelige dommere lagde imidlertid i mange tilfælde også vægt på andre faktorer. Og fælles for disse faktorer var, at de var ubrugelige. Brugen af dem førte til mindre præcise, ikke mere præcise, vurderinger. Eller med forskergruppens ord: menneskelige beslutningstagere var signifikant dårligere end algoritmen, ikke fordi de overså relevante faktorer, men fordi de lagde vægt på en masse uvedkommende støj.

Det er ikke givet, at en algoritme trænet i andre sammenhænge, for eksempel i det danske retsvæsen, ville være tilsvarende overlegen. Men det principielle spørgsmål forbliver aktuelt. Skal vi også i sådanne situationer insistere på at involvere mennesker? Selv hvis vi kan forudsige, at deres eneste bidrag vil være at tilføre ”støj”, som fører til flere fejlbehæftede beslutninger? Og når disse beslutninger har så vital betydning, for eksempel fordi en fejl tillader en forbryder at blive sluppet løs og begå endnu et groft overfald, eller fører til at en harmløs person skal vansmægte i fængsel?

Det forekommer ikke spor indlysende, at svaret på dette spørgsmål må være et klart ja. Hvor urovækkende det end kan føles, så er der måske nok situationer, hvor vi bør lade maskinen tage roret, og sejle os sikkert gennem skærene. Og i de situationer hvor vi alligevel foretrækker en menneskelig kaptajn, må vi omhyggeligt sætte kursen mellem de udfordringer, vores menneskelige natur skaber.