The Economist om AI, del 2

 AI's voksende dataudfordring: Fra internetdata til syntetiske løsninger

AI's fremgang siden 2006 har været drevet af massive datamængder fra internettet, såsom billeder til ImageNet og tekst til store sprogmodeller (LLMs). Internettet har fungeret som en rig ressource til træning af AI-modeller, men industriens stigende appetit på data overstiger nu udbuddet. Det forventes, at internetbaserede dataressourcer vil være udtømt inden 2028, hvilket skaber en "data-væg," der truer AI's fremtidige udvikling.

Dataoptimering og kvalitet frem for kvantitet:
AI-laboratorier forsøger at maksimere læringsudbyttet ved at filtrere og sekventere data nøje. Akademiske lærebøger og andre højkvalitetskilder bliver mere værdifulde, men balancen mellem datatyper og træningssekvenser forbliver en udfordring. Derudover træner modeller i stigende grad på andre former for data, som billeder, video og lyd, for at kompensere for manglen på tekstdata.

Lovgivning og ophavsret:
Brugen af internetdata rejser også juridiske spørgsmål. Ophavsretsindehavere som Getty Images og New York Times har sagsøgt AI-virksomheder for uautoriseret brug af deres indhold, mens andre har indgået licensaftaler. Juridiske rammer varierer globalt, hvor nogle lande er mere tilladende end andre.

Syntetiske data og alternative løsninger:
For at overvinde data-væggen eksperimenterer AI-forskere med syntetiske data, som skabes af maskiner. Et eksempel er AlphaGo Zero, der lærte at spille Go ved kun at spille mod sig selv. Syntetiske data kan også bruges til at forbedre LLMs ved at simulere feedback og træne modeller på denne feedback.

Post-træning og "data flywheels":
Post-træning, som bruger menneskelig feedback og superviseret finjustering, spiller en stadig vigtigere rolle, når pre-træningsdata tørrer ud. Interaktioner med brugere, som thumbs-up eller thumbs-down, skaber en "data flywheel", hvor brugerdata forbedrer modellerne løbende.

Udfordringer og muligheder:
Selvom syntetiske data og post-træning er lovende, er anvendelsen i komplekse områder som sundhedsvæsen og uddannelse udfordrende, da data om "gode" beslutninger ofte kræver ekspertbidrag. For at opretholde AI's momentum skal industrien finde nye dataressourcer eller udvikle bæredygtige alternativer, hvilket bliver afgørende for fremtidig innovation.

Kommentarer

Populære opslag fra denne blog

Lav verdens bedste prompt i o3 og brug den til Deep Research

Deep Research ("Grundig Research") er nu tilgængelig i ChatGPT (men kun 10 af dem per måned).

Tredje-generations-AI ("Gen3") forklaret, så man forstår, at der virkelig sker noget nu