tirsdag den 9. april 2019

Skitser til en dataetik 3: data, reaktioner, transparens og værdier

(Advarsel: *nørdet*. Dette indlæg er, selv efter denne blogs standard, ret abstrakt og teknisk.)

I de to første indlæg (her og her) i denne skitse til en dataetik har jeg diskuteret hvilke fordele som motiverer brugen af algoritmiske agenter, hvilke fejltyper de bør evalueres på, de udfordringer som de rejser i forhold til forskelsbehandling, og nogle komplikationer ved idealet om at algoritmer bør behandle alle lige.

I dette tredje og sidste indlæg handler det om de udfordringer som knytter sig til algoritmers brug af data, de reaktioner de kan afføde, deres transparens (eller mangel på samme), og det måske mest grundlæggende spørgsmål om de værdier de baseres på og vurderes efter.

Garbage in, garbage out
Et af de mest omdiskuterede problemer ved algoritmiske agenter er deres afhængighed af de data, som algoritmen analyserer på. Disse er indlysende relevante for algoritmers almindelige analyser, fordi en analyse af mangelfulde data bliver upålidelig, men de er også, og måske især relevante for algoritmiske agenter som udvikles gennem maskinlæring. En maskinlærende algoritme finder selv de sorteringsmekanismer, som skal hjælpe den med at lave den endelige vurdering, ved at træne på et udvalgt datasæt. Hvis dette datasæt er mangelfuldt, så bliver de resulterende skævheder indkodet i selve algoritmen, så den efterfølgende vil lave mangelfulde analyser, selv hvis den arbejder med gode data.

De data, som algoritmer arbejder med, vil i praksis altid have visse mangler. Der vil være fejl i databasen, for eksempel fordi en person registreres med et andet karakteristika, end vedkommende faktisk besidder, og der vil være huller i databasen, hvor visse karakteristika eller personer mangler. Sådanne mangler er et vilkår ved alt arbejde med data, og i udgangspunktet en udfordring som menneskelige og algoritmiske agenter deler når de skal analysere data.

Brugen af algoritmiske agenter rejser imidlertid to nye udfordringer knyttet til data. For det første, så kan algoritmiske agenter anvendes på områder, hvor man ikke tidligere har analyseret data (eller i hvert fald ikke lavet samme type systematisk analyse og brug af data). Hvis man ikke i den forbindelse er opmærksom på at vurdere kvaliteten af de data, som algoritmen analyserer, så er der risiko for at overse de fejl, som algoritmens analyser er behæftet med, måske især hvis man bliver grebet af den fascination over algoritmens formåen, som ofte ledsager introduktionen af et analytisk stærkt og tilsyneladende upartisk værktøj.

For det andet så kan algoritmers evne til at samkøre meget store datamængder få mindre mangler til at spille en anden og stærkere rolle. I en gruppe af datasæt, som hver især har mindre mangler, kan disse mangler hver for sig have en beskeden effekt. Men ved samkøring af data kan algoritmen komme til at ramme disse mangler på måder hvor de forstærker hinanden, således at effekten på algoritmens vurderinger bliver væsentligt stærkere.

Fejl, fordelinger og Ratchet-effekter 
Data som på denne måde er mangelfulde skaber først og fremmest problemer fordi kvaliteten af de algoritmiske agenters vurderinger falder. Men de kan også, og måske især, skabe problemer fordi de understøtter eller fører til fordelingseffekter af den type som vi behandlede i diskussionen af algoritmisk forskelsbehandling.

Det sidste vil ofte være tilfældet, fordi der er mangler i datasæt som korrellerer med grupper. Der kan for eksempel være bestemte typer mangler som oftest optræder i data i tilknytning til et bestemt køn, en bestemt seksualitet, en bestemt etnicitet, etc. Derved opstår bestemte typer fejl også oftere i tilknytning til disse grupper.

En særlig problematik er at sådanne mangler i data og resulterende fejl kan være selvforstærkende. Et klassisk eksempel analyseret af Bernard Harcourt er politi-profilering som fokuserer på for eksempel en etnisk minoritet, og som kan have en tendens til at skabe øget bevidsthed om denne gruppes kriminalitet, hvilket legitimerer stærkere profilering af gruppen, hvilket øger bevidstheden om gruppens kriminalitet, etc.

Et sådant accellerende fokus - Harcourt kalder det en "ratchet-effect" - kan i sig selv være uhensigtsmæssigt, men er det indlysende og især hvis det hviler på et historisk overfokus, som har skabt en skæv repræsentation af denne gruppe i de data, som motiverer profileringen. I den situation kan man forestille sig, at der ret beset ikke er grund til at fokusere på denne gruppe, men at de data man ligger inde med i stadigt stigende grad kommer til at indikere det modsatte. Det legitimerer og medfører igen en stadigt voksende mængde fejl, og en stadigt mere skæv fordeling af fejl og effekter.

Incitamenter og responseffekter
En anden udfordring ved algoritmiske agenter, som i modsætning til ovenstående næsten ikke har modtaget nogen opmærksomhed, er den måde introduktionen af en algoritmisk agent kan påvirke incitamentstrukturer og skabe responseffekter. 

Vi berørte allerede i første indlæg et enkelt eksempel på en sådan effekt, nemlig risikoen for at menneskelige agenter kan komme til at køre på automatpilot, når de skal arbejde på baggrund af algoritmiske vurderinger. Men der kan dukke responseffekter op utallige steder. 

Mange års forskning i målstyring i offentlig administration har demonstreret, at de personer som styres ofte er meget fleksible, forstået således at de tilpasser deres adfærd til de kontrolmekanismer de underlægges. Imidlertid har sådanne personer ofte deres egne dagsordener, så den måde de tilpasser sig på kan være uhensigtsmæssig. Det er en konstant risiko ved målstyring, at personerne ændrer adfærd for at tilpasse sig styringen, på en måde som umiddelbart tilfredsstiller de definerede mål, men som er værre med hensyn til de egentlige mål. 

Et klassisk eksempel fra forskningsverdenen er introduktionen af målingen af videnskabelige produktioner (konkret typisk videnskabelige artikler). Hensigten med dette er typisk at øge mængden af videnskabeligt arbejde, ved at gøre det synligt for den enkelte forsker, hvor meget de selv producerede sammenlignet med kollegaer, og ved at bruge mængden af arbejde som kriterium for ansættelse og forfremmelser. I praksis har konsekvensen snarere været a) en voksende industri af pseudovidenskabelige tidsskrifter, hvor forskere kan udgive artikler af meget lav kvalitet, b) en forstærkning af nepotistiske netværk, hvor forskere hjælper kollegaer med lettere adgang til publikationskanaler, og c) en reduktion af også store dele af det seriøse videnskabeligt arbejde til det minimum af indsats, som er nødvendigt for at kunne publicere arbejdet.

Dermed ikke sagt, at forskere som hele publicerer overfladisk forskning i pseudovidenskabelige tidsskrifter gennem "old boys"-netværk. Langt det meste forskning er fortsat sobert, grundigt og bedømt af dobbelt-blindede fagfæller. Pointen er den mindre dramatiske, men stadig væsentlige, at i den udstrækning introduktionen af målstyring har haft en effekt, har denne effekt måske fortrinsvis været utilsigtet og negativ.

Som eksemplet ovenfor illustrerer, så findes denne type udfordring også for menneskelige agenter. Alligevel er der grund til at være særligt på vagt, når der er tale om algoritmiske agenter. Det skyldes det forhold, at algoritmers beslutningskriterier i teorien er tilgængelige og rigide, på en anden måde end hos typiske menneskelige agenter. En algoritmisk agent har et særligt sæt af kriterier for sine analyser og vurderinger, og disse kan i nogle tilfælde (se diskussionen af transparens nedenfor) være fuldt tilgængelige for andre. I modsætning til mennesker er den algoritmiske agent også bundet til disse kriterier - den kan ikke tage dem op til overvejelse, eller gøre undtagelser, i situationer hvor anvendelsen af kriterierne viser sig at være kontraproduktiv. Det skaber særligt gunstige vilkår for at "game the system".

Præcis hvordan udfordringer med den resulterende incitamentstruktur og responseffekter kan manifestere sig vil variere afhængigt af den algoritmiske agents kontekst og funktion. Det er derfor vanskeligt at sige noget generelt om hvordan sådanne udfordringer vil se ud, og hvordan de kan håndteres. Men det er endnu et forhold, som vi bør holde os for øje, når vi udvikler og implementerer algoritmiske agenter.

Den sorte boks
Et væsentligt element i moderne administration, er at de personer som påvirkes af en beslutning, har mulighed for at få indsigt i det grundlag, som beslutningen er truffet på, og klage over beslutningen, hvis dette grundlag virker urimeligt eller forkert. Det er derfor et væsentligt problem ved algoritmiske agenter, at denne mulighed ofte vil være stærkt begrænset. Algoritmer kan i mange situationer få karakter af en sort boks, hvor vi nok kan se hvad der kommer ind, og hvad der kommer ud, men ikke kan se hvorfor input af den ene type giver et resultat af den anden type, det vil sige, hvad grundlaget for algoritmens beslutning er.

En første grund til, at denne type indsigt kan være begrænset er, at mange algoritmer udvikles af private firmaer, som har behov for at holde detaljerne om hvordan algoritmen fungerer hemmelige, for ikke at blive kopieret og udkonkurreret af andre firmaer. Dette behov skaber indlysende problemer, når for eksempel borgere som bliver berørt af de vurderinger, som algoritmen foretager, ønsker at forstå hvilket grundlag vurderingen er foretaget på, så de kan vurdere om de ønsker at klage. Men det skaber også problemer, hvis for eksempel en offentlig myndighed, som har anvendt én type algoritme, beslutter sig for at skifte til en anden algoritme. I sådanne tilfælde kan det være vanskeligt at overføre data fra det hidtidige arbejde, fordi den måde algoritmen har behandlet dataene på er omfattet af virksomhedens behov for at beskytte sin teknologi.

Man kunne måske fristes til at sige "så meget desto værre for virksomheders behov", men her bør man holde sig for øje, hvad grundlaget for at tage hensyn til virksomheders mulighed for at hemmeligholde teknologi er. Det er ofte i alles interesse at tilskynde private virksomheder, til at udvikle ny teknologi, men det er et vilkår ved sådan udvikling, at den ofte er ekstremt dyr, imens det er relativt enkelt for andre virksomheder for eksempel at kopiere en allerede udviklet algoritme. Hvis virksomheder ikke kan holde følsomme detaljer om deres produkter hemmelige, så vil de derfor hurtigt komme til at stå med alle omkostningerne for at udvikle produktet, men være nødt til at dele indtægterne med de konkurrenter, som kopierer produktet. Resultatet vil være, at virksomheder bruger langt færre ressourcer, på at udvikle ny teknologi.

Denne variant af problemet kan, i hvert fald i nogle situationer, løses ved at udvikle offentlige alternativer til de private produkter, ved at give særlige personer adgang til data om produktet på særlige vilkår, eller ved at kompensere virksomheder for deres tab af fortjeneste.

Der findes imidlertid en anden variant af problemet, som skaber mere fundamentale problemer. Moderne algoritmer udvikles i stigende grad ved såkaldt maskinlæring, hvor algoritmen selv definerer og gradvist tilpasser sine parametre gennem træning på et udvalgt datasæt. Den resulterende algoritme vil i mange tilfælde være bedre, for eksempel til at undgå fejl, end en mere klassisk algoritme, hvor menneskelige programmører har specificeret dens funktioner.

Som tidligere nævnt, så er det måske mest berømte eksempel DeepMinds AlphaZero, som på ganske få timer udviklede sig fra en basal forståelse af skaks regler til verdens måske stærkeste skakspiller, alene ved at spille tusindvis af spil mod sig selv, og konstant revidere sine egne analyser. Resultatet er en algoritme som definitivt kan slå enhver menneskelig skakspiller, og som synes at være de klassiske skakprogrammer, som er udviklet ved møjsommelig, menneskelig finpudsning, klart overlegen.

Ulempen ved maskinlæring er, at der i udgangspunktet ikke er nogen, ikke engang de programmører, som har skrevet algoritmen og sat den i gang med at udvikle sig selv, som ved præcist hvordan den fungerer. Når en sådan algoritme træffer beslutninger, så er der derfor i udgangspunktet ikke nogen, som kan forklare præcis hvad grundlaget for beslutningen er. Det betyder at personer, som påvirkes af en beslutning truffet på dette grundlag, ikke kan få indsigt i beslutningsgrundlaget, og derfor vil have vanskeligt ved at vurdere hvorvidt de finder afgørelsen rimelig, samt at de vil have meget vanskeligt ved at klage over en afgørelse, som de opfatter som urimelig.

Der er igangværende initiativer i den datalogiske forskning, som har til formål at gøre det lettere at vurdere hvordan maskinlærende algoritmer fungerer, og kommunikere dette til brugere. De vil antageligt i nogen grad kunne afhjælpe problemet. Men i den udstrækning det består udgør det en alvorlig udfordring for anvendelsen af maskinlærende algoritmer, som må afvejes mod for eksempel den øgede præcision de kan opnå.

Værdier
Et sidste punkt er det måske vigtigste at tage i betragtning, når vi skal vurdere algoritmiske agenter. Det handler om hvilke værdier vi lægger til grund, når vi skal vurdere dem.

Som vi allerede helt indledningsvis var inde på, så er enhver algoritmisk agent defineret ved sin evne til at løse en given opgave. Hvad det i en sådan situation vil sige at løse opgaven er imidlertid ikke forudgivet, men involverer (ofte implicit) fastsættelsen af en værdi, som algoritmen forventes at fremme. Det er kun i kraft af en sådan værdi, at vi kan sige, at nogle resultater er fejl, mens andre er korrekte.

For at tage fat i et eksempel, som jeg anvendte da jeg diskuterede netop fejl og fordele, så kan vi forestille os en algoritme, der screener patienter, for at identificere de personer, som har en bestemt sygdom. Fejl er i denne situation både at overse patienter som har sygdommen, og at klassificere raske patienter som syge. Implicit er værdien her fremme af patienters sundhed, idet vi antager at de syge patienter som identificeres kan modtage behandling, samt at det er værdifuldt, at de modtager en sådan behandling.

Sådanne antagelser er ofte tilforladelige, men ikke altid. Dels kan det ind imellem være uklart hvilken værdi en algoritme skal fremme, eller kontroversielt om den bør fremme den værdi, som den er designet til. Dels vil der ind imellem være dårlig forbindelse mellem algoritmens funktion og den underliggende værdi.

Et første eksempel kunne være Facebooks nyhedsalgoritme. Facebooks nyhedsalgoritme filtrerer de nyheder, som for enhver bruger dukker op, når personen logger på Facebook, og vurderer dels hvilke nyheder som er relevante at vise, og dels hvordan disse skal prioriteres, det vil sige, hvilke som skal vises først. Præcis hvordan den gør det er naturligvis hemmeligt, men overordnet kunne man måske naivt forvente, at den for eksempel forsøgte at skabe mest mulig brugertilfredshed, ved at vise de nyheder som er mest interessante for den enkelte bruger.

Det er imidlertid meget tvivlsomt, om det virkelig er denne værdi Facebooks algoritme er designet til at fremme. Et mere plausibelt bud er, at den er designet til at maksimere brugeres eksponeren for og interaktion med de reklamer, som Facebook får sin indtægt fra. Det kan i den forbindelse være relevant for Facebook at skabe brugertilfredshed, for så vidt som dette for eksempel får brugere til at besøge Facebook oftere og i længere tid. Men også kun for så vidt som dette er tilfældet. I situationer hvor de to hensyn skilles ad, vil algoritmen antageligt tilstræbe at indfri hensynet til reklameindtægt.

Hvordan kunne det ske? Et primitivt og fuldstændig fiktivt eksempel kunne være valget mellem at prioritere alle nyheder, og servere dem i strengt prioriteret rækkefølge, versus at blande dem så de mest interessante nyheder optræder strøet ud mellem andre nyheder, der er mindre interessante. Den første model kunne føre til at brugere er kortere tid på Facebook, fordi de læser de mest interessante nyheder igennem, registrerer at nyhederne bliver mindre og mindre relevante, og derpå logger af. Det vil antageligt være en bedre brugeroplevelse for de fleste. Omvendt vil den anden model kunne holde brugere aktive på Facebook længere tid, fordi der regelmæssigt dukker en ny, interessant nyhed op, imellem den linde strøm af mindre interessante nyheder. Det vil antageligt samlet set være en mindre god brugeroplevelse, men den længere tid på platformen kan for virksomheden veksles direkte til flere reklameindtægter.

I en situation som ovenstående kan der være en god forbindelse mellem algoritmens funktion, og den værdi som den i sidste ende skal fremme, men det kan være uklart for mange brugere, at denne værdi er Facebooks indtjening snarere end deres brugeroplevelse, og kontroversielt om det sidste er den rigtige værdi at fremme, især selvfølgelig når og hvis det sker på bekostning af andre værdier (om dette faktisk er tilfældet ved Facebook er naturligvis et andet spørgsmål - de optræder her alene som hypotetisk eksempel).

Et andet og meget diskuteret eksempel kunne være brugen af COMPAS-teknologi i en lang række amerikanske stater, til at vurdere dømte kriminelles risiko for at begå fremtidige forbrydelser. Én kritik som er blevet fremført i den forbindelse, er at disse vurderinger inddrages, når dommere skal udmåle straffen, hvilket angiveligt krænker den dømtes ret til at blive behandlet som uskyldig indtil det modsatte er bevist (idet dommeren derved implicit straffer vedkommende for forbrydelser hun antages at ville begå i fremtiden).

Man kan diskutere om dette synspunkt i sig selv er korrekt - det vil sige, om det vitterligt krænker en persons ret til at blive betragtet som uskyldig, hvis risikovurderinger inddrages i strafudmålingen - men mere centralt i denne sammenhæng er det, at dette ikke er en effekt af den algoritmiske agent. Hvis dette vitterligt udgør et problem, så er det et problem som findes i samme form og udstrækning, når dommere inddrager denne type vurdering uden at bruge en algoritmisk agent (f.eks. ved at lave en intuitiv vurdering). Det er således et eksempel på, at algoritmiske agenter kan tjene kontroversielle værdier eller formål, men også på at udfordringen i denne sammenhæng er at holde fokus på denne værdi, snarere end på at der er en algoritmisk agent involveret.

For at samle op, så er det fuldstændig afgørende i vurderingen af algoritmiske agenter, at overveje hvilke værdier algoritmen er designet til at fremme, og i den forbindelse om disse værdier er hensigtsmæssige mål for algoritmen. Anvendelsen af algoritmiske agenter er i den forbindelse risikofyldt fordi vi kan komme til at glemme, at der er sådanne værdier på spil. Men omvendt kan vi også, i den kritiske analyse af algoritmiske agenter, komme til at overse, at det i nogle tilfælde er de værdier, som algoritmen er sat til at fremme, som er problematiske, snarere end anvendelsen af en algoritmisk agent som sådan (den pointe har jeg tidligere illustreret i diskussionen af såkaldt intelligent politiarbejde).

Som de tre indlæg forhåbentlig har illustreret, så er dataetik et komplekst felt, med en række både forskellige og relaterede problematikker. Som forskningsfelt er det i disse år i rivende udvikling. Det er en god ting. For praksis har for længst overhalet vores refleksioner. Algoritmiske agenter udvikles og introduceres flere og flere steder. Hvis vi skal nå at formulere grundigt gennemtænkte svar på de etiske spørgsmål, som brugen af algoritmer rejser, så er det nu vi skal i gang.

Ingen kommentarer:

Send en kommentar