The Economist om AI, del 4

 Udviklingen af AI-modeller: LLM'er, diffusion og fremtidens arkitekturer

AI-modeller som ChatGPT, DALL-E og TikToks anbefalingssystemer bygger på dybe neurale netværk, der trænes på store datasæt af tekst, billeder og lignende. Disse modeller justerer vægtene mellem deres neuroner for at optimere output, hvilket gør dem i stand til at udføre avancerede opgaver som tekstgenerering, billedskabelse og personlige anbefalinger.

Transformerbaserede modeller og deres begrænsninger:
Transformer-arkitekturen, introduceret i 2017, har revolutioneret AI med "attention"-lag, der hjælper modeller som GPT og DALL-E med at forstå sammenhænge i data. Denne tilgang har gjort det muligt at skalere modellerne ved hjælp af GPU'er, hvilket har drevet NVIDIA's markedsdominans. Transformere har dog begrænsninger, såsom tendensen til at "hallucinere" forkerte svar og manglende evne til at fastholde konsistent logik.

Diffusionsmodeller og billedgenerering:
Diffusionsmodeller, inspireret af den fysiske proces af diffusion, er mere effektive til at generere realistiske billeder. De trænes ved gradvist at tilføje og derefter fjerne støj fra billeder. Nye teknologier som "diffusion transformers" kombinerer fordelene ved transformere og diffusionsmodeller for endnu mere præcise resultater.

Anbefalingssystemer:
Meta's DLRM (Deep Learning Recommendation Model) er et eksempel på, hvordan neurale netværk bruges til anbefalinger. Modellen analyserer brugerdata og indhold ved at "faktorisere" store datasæt i mindre dele for at forudsige præferencer. Denne metode bruges også til reklamer, streamingtjenester og e-handel.

Fremtidige modeller og post-transformer arkitekturer:
Transformere og diffusionsmodeller har begrænsninger, især i logisk ræsonnement og fejlkorrektion. Forskere søger nu efter "post-transformer"-arkitekturer, som kan kombinere opmærksomhedsmekanismer med forbedrede ræsonnementsevner. Mulige løsninger inkluderer neuro-symbolsk AI og "state-space models," der kan danne grundlaget for næste generations AI. Mens mennesker endnu ikke ved, hvordan man bygger sådanne modeller, kan fremtidige AI'er muligvis finde svaret.

Kommentarer

Populære opslag fra denne blog

Lav verdens bedste prompt i o3 og brug den til Deep Research

Deep Research ("Grundig Research") er nu tilgængelig i ChatGPT (men kun 10 af dem per måned).

Tredje-generations-AI ("Gen3") forklaret, så man forstår, at der virkelig sker noget nu