Ny artikel fra Ethan Mullick: GPT5 Pro er FANTASTISK, og vi er nu i en ny AI-tidsalder med troldmænd!
Min personlige AI-helt Ethan Mullick har udgivet endnu en tankevækkende blogpost. Jeg har fået den oversat til dansk, og jeg kan kun bekræfte, hvad han siger: GPT-5 Pro er helt, helt fantastisk. Men han kommer også med en hævet pegefinger: Vi kan ikke mere gennemskue, hvordan AI'en kommer frem til dens svar - men når man checker, er det næsten altid korrekt. Her er den fulde tekst:
Her er din oversættelse til dansk:
[EKSTERN E-MAIL] Denne e-mail er sendt fra en ekstern afsender.
Vær opmærksom på, at den kan indeholde links og vedhæftede filer, som ikke er sikre.
Om at arbejde med troldmænd
At verificere magi på den ujævne grænse
ETHAN MOLLICK
-
september
I min bog Co-Intelligence beskrev jeg en måde, hvorpå mennesker kunne arbejde sammen med AI, hvilket – ikke overraskende – var som en slags medintelligens. I samarbejde med en chatbot kunne mennesker bruge AI som en slags praktikant eller kollega: rette dens fejl, tjekke dens arbejde, udvikle ideer sammen med den og guide den i den rigtige retning.
I løbet af de seneste uger er jeg dog begyndt at tro, at medintelligens stadig er vigtigt, men at AI’ens natur er ved at pege i en anden retning. Vi bevæger os fra at være partnere til at være publikum, fra samarbejde til trylleri.
En god måde at illustrere denne ændring på er at bede en AI forklare, hvad der er sket, siden jeg skrev bogen. Jeg fodrede mit manuskript og alle ca. 140 One Useful Thing-indlæg (jeg kan stadig ikke tro, jeg har skrevet så mange indlæg!) ind i NotebookLM og valgte den nye videofunktion med en simpel prompt: lav en video om, hvad der er sket i AI-verdenen siden min bog blev skrevet.
Et par minutter senere fik jeg resultatet. Og det var faktisk ret godt. Godt nok til, at jeg synes, det er værd at se, hvis man vil have en opdatering på, hvad der er sket siden.
Men hvordan valgte AI’en de punkter, den fremhævede? Det ved jeg ikke – men de var faktisk ganske gode. Hvordan besluttede den, hvilke slides der skulle bruges? Det ved jeg heller ikke – men de ramte også ret godt (selvom billeder stadig er en svaghed, for den viste mig ikke den lovede odder). Var det korrekt? Det måtte jeg tjekke.
Jeg gennemgik videoen flere gange og dobbelttjekkede alle fakta. Den havde styr på tallene, inklusive dataene om MMLU-scorer og AI’ens præstation på neurokirurgi-eksamenen (jeg er ikke engang sikker på, hvornår jeg selv nævnte det materiale). Min eneste reelle indvending var, at den burde have nævnt, at jeg var en af flere medforfattere på vores studie af Boston Consulting Group, hvor vi også introducerede begrebet “jagged frontier”. Jeg ville heller ikke selv have formuleret alt på den måde (det var lidt bombastisk, og min bog er altså ikke forældet endnu!), men der var ingen substantielle fejl.
Jeg tror, denne proces er typisk for den nye bølge af AI: for et stigende antal komplekse opgaver får man et imponerende og sofistikeret output ud fra en vag forespørgsel – men man har ingen del i processen. Man ved ikke, hvordan AI’en traf sine valg, og man kan ikke altid bekræfte, at alt er helt korrekt. Vi bevæger os fra at være samarbejdspartnere, der former processen, til at være tilskuere, der blot modtager resultatet. Det er et skift fra at arbejde med en medintelligens til at arbejde med en troldmand. Der sker magi, men vi ved ikke altid, hvad vi skal stille op med resultatet. Dette mønster – imponerende output, men uigennemsigtig proces – bliver endnu tydeligere, når det handler om forskning.
At bede om magi
Lige nu føles ingen AI-model mere troldmandsagtig end GPT-5 Pro, som kun er tilgængelig for betalende brugere. GPT-5 Pro er i stand til nogle ganske enkelt utrolige bedrifter. For eksempel gav jeg den en akademisk artikel at læse med instruktionen: “kritiser metoderne i denne artikel, find bedre metoder og anvend dem.” Og det var ikke bare en hvilken som helst artikel – det var min job market paper, altså mit første store akademiske arbejde. Det tog mig over et år at skrive, og det blev læst grundigt igennem af nogle af de skarpeste folk i mit felt, før det blev peer reviewed og udgivet i et stort tidsskrift.
Ni minutter og fyrre sekunder senere havde jeg en meget detaljeret kritik. Det var ikke kun redaktionelle kommentarer; GPT-5 Pro havde tilsyneladende kørt sine egne eksperimenter med kode for at verificere mine resultater, inklusive Monte Carlo-analyser og en ny fortolkning af de faste effekter i mine statistiske modeller. Den havde mange forslag (selvom den heldigvis konkluderede, at “hovedpåstanden [i min artikel] holder til efterprøvning”), men én ting stod ud: den fandt en lille fejl, som ingen tidligere havde bemærket. En sammenhæng mellem to sæt tal i to tabeller, som jeg ikke eksplicit havde skrevet frem.
Igen stod jeg tilbage med troldmandsproblemet: havde den ret? Jeg tjekkede resultaterne og fandt, at det havde den, men jeg har stadig ingen anelse om, hvordan AI’en fandt fejlen, eller om de øvrige ting, den påstod at have gjort, faktisk skete på den måde. Jeg var imponeret over GPT-5 Pro’s analyse, og det er derfor, jeg nu kaster alle mulige problemer – store som små – efter modellen: Er Gartner’s hype cycle reelt? Viser folketællingsdata, at brugen af AI i store virksomheder er faldende? Bare spørg GPT-5 Pro og få det rigtige svar. Tror jeg. Jeg har ikke fundet en fejl endnu, men det betyder ikke, at der ikke er nogen. Og selvfølgelig er der også mange opgaver, hvor AI’en stadig vil fejle. Hvem ved, hvad troldmænd finder på?
For at se, hvordan dette snart kan få bredere betydning for arbejde, kan vi se på en anden avanceret AI: Claude 4.1 Opus, som for nylig fik mulighed for at arbejde med filer. Den er især dygtig til Excel, så jeg gav den en svær udfordring: et gammelt Excel-ark med mange faner, som jeg brugte i mine entreprenørskabskurser. Det handlede om at analysere den finansielle model for en lille skrivebordsfabrik som en øvelse i planlægning under usikkerhed. Jeg gav Claude det gamle materiale og bad den opdatere det til en ny virksomhed – en ostebutik – men stadig med samme læringsmål.
Med den ene prompt læste den hele lektionsplanen og regnearket, inklusive formlerne, og skabte et nyt regneark med opdaterede oplysninger, så det passede til en ostebutik. Få minutter senere havde jeg en ny version på min computer, med helt nye data, men som stadig formidlede pointen med øvelsen.
Igen fortalte troldmanden mig ikke hemmeligheden bag sine tricks, så jeg måtte tjekke resultatet nøje. Det så faktisk rigtig godt ud og bevarede øvelsens læringsmål. Jeg fandt dog et par ting i formlerne og forretningsmodellen, som jeg ville have gjort anderledes (fx færre arbejdsdage pr. år), men det var mere et spørgsmål om smag end en egentlig fejl.
Nysgerrig efter at se, hvor langt Claude kunne gå, og fordi alle altid spørger mig, om AI kan lave PowerPoint-præsentationer, bad jeg den også: “fint, lav nu en god præsentation til denne forretning.” Og jeg fik dette resultat.
Det var faktisk et solidt udgangspunkt for en præsentation, uden store fejl, men heller ikke helt færdigt. Det understreger den ujævne grænse for AI: den er rigtig god til nogle ting, og dårligere til andre, på måder der er svære at forudse uden erfaring.
Problemet med troldmænd
Disse nye AI-systemer er i bund og grund agenter – AI, der kan planlægge og handle autonomt mod bestemte mål. Da jeg bad Claude ændre mit regneark, planlagde den selv trin og udførte dem, fra at læse det originale regneark til at kode et nyt. Den tilpassede sig også uforudsete fejl, rettede selv to gange uden at jeg bad om det, og verificerede sine svar flere gange. Jeg kunne ikke selv vælge trinnene – og i den nye bølge af agenter, der er drevet af reinforcement learning, vælger ingen mennesker faktisk trinnene; modellerne lærer selv, hvordan de vil løse problemerne.
Ikke nok med at jeg ikke kunne gribe ind, jeg kan heller ikke være helt sikker på, hvad AI’en faktisk gjorde. De trin, Claude rapporterede, var kun resuméer af dens arbejde, GPT-5 Pro giver endnu mindre information, mens NotebookLM næsten ikke afslører noget om processen bag videoerne. Og selv hvis jeg kunne se alle trin, ville jeg have brug for at være ekspert i mange forskellige felter – fra kodning til entreprenørskab – for at kunne bedømme præcist, hvad AI’en havde gjort. Og så er der spørgsmålet om nøjagtighed. Hvordan kan jeg vide, om AI’en har ret, uden selv at dobbelttjekke alt? Og selv hvis fakta er korrekte, kan det være, at jeg ville have valgt en anden måde at præsentere dem på. Men jeg kan ikke gøre så meget, fordi troldmænd ikke vil have min hjælp og arbejder på hemmelighedsfulde måder, som selv de ikke kan forklare.
Det svære ved dette er, at resultaterne faktisk er gode. Rigtig gode. Jeg er ekspert på de tre områder, jeg gav AI’en som opgaver i dette indlæg, og jeg fandt ingen faktuelle fejl i outputtet, selvom der var småting i formatering og vurderinger, jeg ville have gjort anderledes. Selvfølgelig kan jeg ikke sige med sikkerhed, at dokumenterne er helt fejlfrie uden at gennemgå hver eneste detalje. Nogle gange tager det kortere tid end at gøre arbejdet selv, andre gange meget længere. Og nogle gange er AI’ens arbejde så sofistikeret, at man ikke kunne kontrollere det, selv hvis man prøvede. Det antyder en anden risiko, vi ikke taler nok om: hver gang vi overlader arbejdet til en troldmand, mister vi en chance for selv at udvikle ekspertise – netop den dømmekraft, vi skal bruge til at vurdere troldmandens resultater.
Men jeg vender tilbage til det uundgåelige punkt: Resultaterne er gode – i hvert fald i disse tilfælde. De svarer til, hvad jeg ville forvente af en kandidatstuderende, der arbejdede på det i et par timer (eller mere, i tilfældet med re-analysen af min artikel) – men jeg fik dem på få minutter.
Det er problemet med troldmænd: Vi får noget, der virker magisk, men vi bliver også til publikum frem for troldmanden eller troldmandens assistent. I medintelligens-modellen vejledte, rettede og samarbejdede vi. I stigende grad nøjes vi med at skrive en prompt, vente og derefter verificere … hvis vi kan.
Så hvad gør vi med vores troldmænd?
Jeg tror, vi er nødt til at udvikle en ny form for læsefærdighed:
-
Først at lære, hvornår man skal hidkalde troldmanden, hvornår man skal arbejde med AI som en medintelligens – og hvornår man slet ikke skal bruge AI. AI er langt fra perfekt, og på områder, hvor den stadig halter, lykkes det ofte bedre for mennesker. Men for det stigende antal opgaver, hvor AI er nyttig, er medintelligens og den nødvendige frem-og-tilbage ofte overlegent en maskine alene. Alligevel vil der i stigende grad være tidspunkter, hvor det er bedst at tilkalde en troldmand og blot stole på, hvad den tryller frem.
-
Dernæst må vi blive kendere af output frem for proces. Vi skal kunne kuratere og vælge mellem de resultater, AI’en giver, men mere end det: vi skal arbejde nok med AI til at udvikle en fornemmelse for, hvornår den lykkes, og hvornår den fejler. Vi skal lære at vurdere, hvad der er korrekt, hvad der er skævt, og hvornår det er værd at tage risikoen ved ikke at vide alt. Det skaber et svært uddannelsesmæssigt problem: Hvordan træner man nogen i at verificere arbejde på områder, de ikke selv har mestret – når AI’en samtidig forhindrer dem i at opbygge den nødvendige mestring? At finde en løsning på den kløft bliver stadig mere presserende.
-
Endelig må vi omfavne en form for foreløbig tillid. Troldmandsmodellen betyder, at vi oftere arbejder med “godt nok” – ikke fordi vi sænker standarden, men fordi fuldstændig verifikation bliver umulig. Spørgsmålet er ikke længere “er dette helt korrekt?” men “er dette nyttigt nok til det formål?”
Vi er allerede vant til at stole på teknologisk magi. Hver gang vi bruger GPS uden at forstå ruten, eller lader en algoritme bestemme, hvad vi ser, stoler vi på en anden slags troldmand. Men der er en afgørende forskel: Når GPS’en fejler, opdager jeg det hurtigt, når jeg rammer en blind vej. Når Netflix anbefaler en forkert film, ser jeg den bare ikke. Men når AI analyserer min forskning eller omdanner mit regneark, bliver det, jo bedre den bliver, sværere at vide, om den tager fejl. Paradokset ved at arbejde med AI-troldmænd er, at kompetence og uigennemsigtighed vokser sammen. Vi har mest brug for disse værktøjer til de opgaver, hvor vi er mindst i stand til at kontrollere dem.
Det er den gamle lære fra eventyr: Jo bedre magien er, desto større er mysteriet. Vi vil blive ved med at hidkalde vores troldmænd, tjekke det vi kan – og håbe på, at trylleformularerne virker. På ni minutter for en uges analyse – hvordan skulle vi kunne lade være?
Velkommen til troldmændenes tidsalder.
Vil du have, at jeg laver en kort opsummering af teksten også, så du hurtigt kan få hovedpointerne?
Kommentarer
Send en kommentar