Erfaringer med bruken av AI

40-43

Teknologi og digitalisering

I denne spalten vil Lars Erlend Leganger og noen av hans kollegaer skrive om aktuelle temaer innen teknologi/digitalisering som direkte eller indirekte også vil påvirke revisors hverdag. Lars Erlend er AI-ekspert og direktør i PwC. Han har en PhD i teoretisk fysikk fra NTNU.

I denne artikkelen diskuterer vi forskjellige strategiske tilnærminger til å hente ut verdi fra kunstig intelligens, og deler PwC Norges erfaringer med bruk av ChatPwC, en internutviklet chatbot basert på generativ kunstig intelligens.

PhD

Lars Erlend Leganger

Direktør i PwC

MSc

Tuva Martin

Data Scientist i PwC

Hvorfor bygge selv når det finnes hyllevare?

For å ta det åpenbare først – hvorfor bygge en egen chat-løsning når det finnes gode hyllevare-alternativer? For oss i PwC var det særlig tre faktorer som spilte inn:

1. Gi folk tilgang…

For oss var det et mål å tilgjengeliggjøre generelt anvendbar kunstig intelligens (heretter «GenAI», fra engelsk «General Purpose AI»^{*Det norske Språkrådet har, i motsetning til våre naboland, gått inn for forkortelsen «KI» for kunstig intelligens. Som et slag for språklig internkonsistens og vern mot anglifisering av norsk er forsøket på å innføre «KI» forbilledlig. Samtidig er mye av litteraturen som skrives om kunstig intelligens og annen teknologi på engelsk, og for enkelhets skyld (og litt fordi gammel vane er vond å vende) holder vi enn så lenge fast på enkelte innarbeidede tekniske engelske forkortelser som «AI» og «API».} for alle i bedriften: Vi vet ikke på forhånd hvor stor verdi forskjellige virksomhetsområder og roller ville finne i GenAI chat etter hvert som de blir kjent med verktøyet, og vi har stor tro på å «gi folk tilgang på nye verktøy og se hva som skjer»-tilnærmingen til teknologidrevet innovasjon. Det skader heller ikke at en med en bred utrulling slipper å bruke tid og krefter på lisensadministrasjon og behovsvurderinger. Ulempen med en slik bred utrulling er at den kan bli kostbar. Hyllevare-GenAI-lisenser koster typisk mellom 3000 og 6000 kroner i året pr. hode – det er sure penger å betale for eventuelle brukere som ikke finner verdi i verktøyet.

GenAI-modeller er også tilgjengelige som skytjenester med enkle integrasjonsgrensesnitt (heretter «API», fra engelsk «Application Programming Interface»). Når en bruker GenAI-APIer betaler man ikke for antall brukere, men for bruk, f.eks. antall chat-meldinger sendt. Med en internutviklet chat-løsning bygget på GenAI-APIer kan vi derfor anvende «gi folk tilgang og se hva som skjer»-innovasjonsstrategien uten å bekymre oss for å betale for lisenser som ikke blir brukt: En inaktiv bruker som knapt sender meldinger til GenAI-APIet, genererer ingen signifikante ekstrakostnader.

2. ... og se hva som skjer!

Når de ansatte først har fått tilgang, hvordan kan vi best samle erfaringer om hvor GenAI fungerer bra, og hvor det fungerer dårlig? Hvordan finner vi hvilke typer brukere som kommer raskt i gang, og hvilke som trenger mer støtte for å realisere potensialet i verktøyet? En kan alltids gjøre brukerintervjuer og sende ut spørreskjemaer, men enda bedre er det om vi kan analysere den faktiske bruken: Vi mener Jakob Nielsens «basic rules of usability»^{*Jakob Nielsen (2001). First Rule of Usability? Don’t Listen to Users. https://www.nngroup.com/articles/first-rule-of-usability-dont-listen-to-users/} er vel så relevante når en skal utforske anvendelsesområdet for ny teknologi: «Watch what people actually do. Do not believe what people say they do. Definitely ’on›t believe what people predict they may do in the future.»

Med en internutviklet chat-løsning kan vi hente ut anonymiserte meldingslogger og løpende monitorere faktisk GenAI-bruk på et helt annet detaljnivå enn hva de fleste hyllevare-løsninger legger opp til. Analysene vi deler i denne artikkelen hadde ikke vært mulige å gjennomføre uten nærheten til bruksdataene en internutviklet løsning gir.

3. Erfaringsbygging med – og infrastruktur for – skreddersydde løsninger

Sist, men ikke minst: GenAIs anvendelsesområder kan økes drastisk ved å kombinere grunnleggende GenAI-modeller med prosess-spesifikke skreddersydde løsninger og domenespesifikke interne datasett. På sikt forventer vi at frittstående generelle GenAI-verktøy gradvis vil erstattes av løsninger med domenespesifikke tilpasninger og tilgang på bedriftsinterne data. ChatPwC-infrastrukturen er designet for å gjøre det enkelt og sikkert å bygge slike skreddersydde GenAI-løsninger for både interne prosesser og eksterne prosjektleveranser, se figur 1.

Figur 1: Mange prosesser og beslutninger krever kjennskap til interne data som ikke er tilgjengelig ut av boksen for GenAI-modellene. En plattform som bl.a. støtter RAG (retrieval augmented generation) gjør det enklere og tryggere å nyttiggjøre seg av nye data i skreddersydde løsninger og prosjektleveranser.

Hvordan brukes GenAI i PwC (så langt)?

Et par måneder etter bred utrulling av ChatPwC gjorde vi en analyse av bruken så langt, der vi blant annet brukte AI til å kategorisere meldingene brukerne hadde sendt inn,^{*Vi overlater til leseren å vurdere om det å bruke AI for å studere bruk av AI utgjør elegant bruk av ny teknologi, eller om det er nok et endetidstegn, jf. Revisjon & Regnskap nr. 7 2023 AI-etikk vs. AI-sikkerhet.} se figur 2. De tre mest utbredte kategoriene er innholdsproduksjon (idémyldring, førsteutkast, omskrivning), oversettelse, og spørsmål vedrørende regnskap og skatt – disse utgjorde til sammen over halvparten av alle forespørsler til ChatPwC i perioden vi analyserte.

1. Idémyldring/førsteutkast og utbrodering/omformulering er oppgaver ChatPwC er velegnet for. Evnen til å skrive presise forespørsler («prompts») for denne typen oppgaver er noe av det som utmerker seg ved GenAI-«superbrukere», men også enkle instrukser gir ofte gode resultater for denne typen oppgaver:

«Rewrite: We are already familiar with the management, which ensures good cooperation»
«Kan du lage et lengre notat, i rapportstil»
«skal ringe et selskap ifra sveits og purre på en bekreftelse, kan du skrive et manus på engelsk til meg?»
«Kan du korte ned teksten til ca. halvparten?»

Figur 2: ChatPwC brukes mest til idémyldring/førsteutkast, utbrodering/omformulering, oversettelser, oppsummeringer og spørsmål knyttet til regnskap og skatt.

2. Enkle oversettelser klarer ChatPwC fint «ut av boksen», og den gir også ofte brukbare resultater på mer krevende oversettelser dersom man i forespørselen inkluderer eksempler og informasjon om fagspesifikk terminologi:

«Hva kan «general ledger» oversettes til på norsk innen regnskap og revisjon?»
«Hva er «international development aid» på norsk?»
«Kan du gi meg eksempler på engelsk hvordan man avslutter en e-post og ønsker god helg når den tid kommer?»
«Translate to norsk: We believe that we are an ideal partner to guide [client] through the process and to overcome potential obstacles.»

Fagspesifikke oversettelser er et godt eksempel på områder der spissede løsninger kan være aktuelle, beriket med relevante eksempler, definisjoner, m.m.

3. Spørsmål knyttet til regnskap og skatt forekommer (overraskende?) ofte. Faktaspørsmål er generelt et anvendelsesområde som innebærer høy risiko for AI-hallusinasjoner^{*Den herostratisk berømte Steven Schwartz, som refererte til ChatGPT-hallusinert rettspraksis i et rettsdokument, er et godt eksempel på hvor ille det kan gå når en forveksler et GenAI-verktøy med en søkemotor eller oppslagsverk: https://www.forbes.com/sites/mollybohannon/2023/06/08/lawyer-used-chatgpt-in-court-and-cited-fake-cases-a-judge-is-considering-sanctions/}, så her er det viktig at brukerne er årvåkne, spesielt ved spørsmål om særnorske og perifere temaer som de grunnleggende GenAI-modellene ikke kan forventes å ha sett mye til i treningsdataene sine:

«Er kampanjekostnader skattesensitive kontoer?»
«Hei! Er transaksjonskostnader fradragsberettiget i henhold til NGAAP?» «hvordan skal parkering behandles iht. IFRS 16»
«elaborate on the IFRS 3 part»

At ChatPwC tilsynelatende brukes i såpass stor grad som oppslagsverk for regnskap og skatt fordrer å gjøre videre analyser i presisjonen i svarene på slike spørsmål, og – om nødvendig – anskaffe (eller bygge internt) GenAI-verktøy der de grunnleggende modellene er supplert med tilstrekkelig detaljkjennskap til norske regnskapsregler og skatterett.

Hvem er brukerne?

Etter to måneder ser vi konturene av tre typer brukerreiser for ChatPwC: Halvparten av de som har prøvd ChatPwC ender opp som «ikke-brukere» – de er innom en gang eller to før de mister interessen. En tredjedel blir «vanlige brukere» som benytter ChatPwC en håndfull ganger i uka, og en sjettedel av de som har testet verktøyet, har blitt «superbrukere» som benytter ChatPwC flere ganger hver dag.

Et viktig spørsmål å grave videre i her er årsaken(e) til at «ikke-brukerne» gir opp: Er GenAI lite anvendelig for deres arbeidsoppgaver, går det på manglende kjennskap, eller frykt for å gjøre noe galt? Foreløpige analyser indikerer at brukerne som kun prøver GenAI en håndfull ganger før de gir opp, ofte har stilt spørsmål som ligger utenfor kompetanseområdet til den underliggende GenAI-modellen, f.eks. knyttet til data som modellen ikke hadde tilgang på i trening (bedriftsinterne dokumenter, hendelser skjedd etter at modellen ble sist trent, osv.):

«Hvor henter man ut bankbrev?»
«Hva er motivasjonen til å ta MRR?»
«Gjennomsnittlig valutakurs for 2023 euro mot russiske rubler»
«Hvordan lagrer PwC data?»

Den som forventer å få svar på slike spørsmål fra et generelt ikke-skreddersydd chatverktøy, vil fort bli skuffet. En lærdom vi leser ut av dette er viktigheten av å tydeliggjøre for brukerne – gjennom opplæring og i verktøyets brukergrensesnitt – hvilke data det har/ikke har tilgang på, og at ChatPwC, som andre GenAI-løsninger, ofte hallusinerer i stedet for å melde pass når de er på tynn is.

Demografisk sett er trenden klar: Aktivitetsnivået på ChatPwC er omvendt proporsjonalt med stillingsnivået. De yngste ansatte, Associates, bruker ChatPwC mest, mens partnerne bruker det minst, se figur 3. Høyere bruk pr. ansatt på juniornivå enn på seniornivå kan nok delvis forklares med at juniorer typisk har flere GenAI-kompatible oppgaver (innholdsproduksjon, oversettelse, osv.), men også her vil det være interessant å grave videre ned i dataene fremover.

Figur 3: Junior-ansatte bruker ChatPwC mer enn senior-ansatte – Associates skriver i snitt seks ganger så mange chat-meldinger som partnere.

Hva betyr GenAI-utviklingen for din AI-strategi?

Tradisjonelt har verdiskapning med kunstig intelligens handlet om å bygge skreddersydde AI-løsninger for spesifikke, snevert definerte problemstillinger – fra musikkanbefalinger til kredittvurdering. Beslutningsmodellene i slike løsninger bygges ofte (men ikke alltid) ved å la maskinlæringsalgoritmer lete etter mønstre og sammenhenger i data som anses relevante for problemstillingen.

En musikk-anbefalings-AI «lærer» fra data om hvilke sanger du, og brukere som ligner på deg, har likt og lyttet til tidligere. En kredittscore-AI kan ta utgangspunkt i historiske data om hvilke kunder som har betalt renter og avdrag på forbrukslånene sine, og hvilke som ikke gjorde det. Slike systemer kan ofte overgå mennesker i treffsikkerhet (og ikke minst effektivitet) i vurderingene de gjør, men kun innenfor den snevert definerte oppgaven de er bygget for. En skreddersydd musikk-anbefaling-AI er (sannsynligvis^{*Hvorvidt det foreligger statistisk signifikante korrelasjoner mellom musikksmak og kredittverdighet er for så vidt et interessant spørsmål, som vi ikke går videre inn på her.}) ubrukelig for å vurdere kredittrisiko, og omvendt.

Tradisjonelle spesifikk-AI-systemer, med modeller trent fra bunnen av på problemspesifikke data, kan være kostbare å utvikle og drifte: Maskinlæringsingeniører trengs for å bygge og produksjonssette modellene på en forsvarlig måte, og bygging og vedlikehold av tilhørende dataflyter og systemintegrasjoner er komplekse fag i seg selv. Dette begrenser anvendelsesområdet for tradisjonell AI: Kun prosesser med stor potensiell effektiviseringsgevinst (f.eks. høyt volum, kostbar arbeidskraft) og/eller stor potensiell kvalitetsgevinst (f.eks. prisberegning i prissensitive markeder, vurderinger med høye gebyrer/straff/omdømmeskader ved feil) har tradisjonelt kunnet forsvare de nødvendige investeringene for å utvikle og produksjonssette AI-løsninger.

Det fremvoksende økosystemet av GenAI-verktøy og -APIer stiller nye krav til selskapers AI-strategi. Etter hvert som GenAI-verktøyenes kapabiliteter øker, og implementasjonskostnadene for skreddersydde løsninger synker, kan AI-anvendelser som tidligere ikke lot seg forsvare økonomisk, fort likevel bli aktuelle kandidater for AI-automatisering og -beslutningsstøtte. Den som skal utforme en AI-strategi nå, står foran et bredt spekter av implementeringsstrategier, fra frittstående GenAI-apper som ChatGPT og Harvey AI, sky-integrerte AI-assistenter som Microsofts Copilot og Googles Gemini, til skreddersydde løsninger, med eller uten GenAI-APIer, for spesifikke problemstillinger – se figur 4.

Et første skritt for mange vil være å undersøke hvilken nytte generelle GenAI-verktøy som ChatGPT og Copilot gir i forskjellige deler av verdikjeden. For selskap med mange ansatte og sterke teknologimiljøer kan skalerbare internutviklede løsninger utgjøre kostnadseffektive og innovasjonsvennlige alternativer til hyllevare i utforskningsfasen, lik de vi i denne artikkelen har skissert med ChatPwC.

For å ta skrittet videre fra frittstående GenAI-verktøy og utnytte GenAI fullt ut må selskaper bygge erfaringer med hvordan AI-løsninger kan integreres med eksisterende IT-infrastruktur, hvordan interne og eksterne data kan brukes til å tilpasse AI-modeller for spesifikke behov, og ikke minst hvordan man sikrer at AI-løsninger opererer innenfor etiske og juridiske rammer, i tråd med personvernforordningen, EUs kommende AI act (som etter all formodning også blir en del av norsk rett), samt øvrig generell og sektorspesifikk lovgivning. Det krever en strategisk tilnærming som aktivt og kryssfunksjonelt undersøker nye muligheter for å anvende AI til å skape verdi, enten det er gjennom bruk av GenAI-hyllevare, eller integrasjon av GenAI i selskapets egne produkter og tjenester.

Figur 4: Generiske oppgaver kan ofte løses greit av GenAI-apper «ut av boksen» uten tilpasninger. Mer spesifikke oppgaver krever fremdeles spissing/skreddersøm opp mot det enkelte domene og den enkelte problemstilling, men ofte med utgangspunkt i forhåndstrente GenAI-modeller.