The Economist om AI, bonus: Om LLM'er (Store sprogmodeller)

november 24, 2024

At forstå AI’s sorte bokse: Hvordan LLM'er fungerer og forbedres

Store sprogmodeller (LLM’er) som GPT-4, Claude og Gemini er kraftfulde, men deres indre mekanismer forbliver i høj grad mystiske, selv for deres skabere. Disse modeller fungerer som sorte bokse: De er trænet på enorme datasæt og kan udføre avancerede opgaver som tekstgenerering og oversættelse, men deres præcise funktion og fejl, som hallucinationer, er svære at forklare.

Forsøg på at forstå LLM'er: Mekanistisk interpretabilitet

LLM’er er ikke eksplicit programmeret, men “vokser” gennem deep learning, hvor milliarder af neuroner lærer mønstre fra træningsdata. At forstå deres funktion kræver teknikker som mekanistisk interpretabilitet, hvor forskere undersøger modellens indre mønstre.

Forskere fra Anthropic har brugt "sparse autoencoders" til at kortlægge, hvilke neuronmønstre (features) aktiveres af specifikke begreber. Med Claude 3 Sonnet identificerede de 34 millioner features, der repræsenterer alt fra byer og dyr til komplekse begreber som hemmelighed eller transportinfrastruktur. Disse features danner en konceptuel "mind-map", der giver indsigt i modellens lærte viden og relationer mellem begreber.

Manipulation af modeller og sikkerhed

Ved at justere enkelte features kan modeller manipuleres til at ændre deres adfærd. F.eks. skabte forskerne en Claude-model besat af Golden Gate Bridge ved at “spike” en feature relateret til broen. Denne metode kan også bruges til at kontrollere modeller, fx ved at afholde dem fra at diskutere farlige emner som biovåben. Det kan endda forbedre sikkerheden ved at reducere en modells sycophanti, empati eller tendens til at hallucinere, selvom dette stadig kræver yderligere forskning.

Identifikation af hallucinationer

Forskere ved Oxford har udviklet en metode baseret på "semantisk entropi" for at forudsige, om en modells svar er hallucinationer. Ved at analysere modellens svar på gentagne spørgsmål kan de vurdere usikkerhedsniveauet og sandsynligheden for hallucination. Metoden kunne korrekt skelne mellem præcise og hallucinerede svar i 79% af tilfældene.

Kollektiv indsats for at forstå AI

Flere grupper, herunder OpenAI’s superalignment-team, arbejder på at forstå og forbedre LLM’er. Deres arbejde bygger på teknologier som sparse autoencoders og delte erfaringer, hvilket fremmer et kollektivt mål om at gøre AI-modeller mere pålidelige og sikre.

At forstå LLM'ers mekanismer er afgørende for at kontrollere deres adfærd, reducere fejl og maksimere deres potentiale, samtidig med at risici som bias og hallucinationer minimeres. Forskningen markerer starten på en dybere forståelse af disse sorte bokse.

Søg i denne blog

AI blot til lyst