Hvordan genkender ChatGPT monumenter ud fra billeder?

 Spørgsmål fra en, der havde hørt mit foredrag:

Hej Mogens

Tak for et underholdende og interessant oplæg om chatgpt i starten af denne måned.

Jeg har lige et spørgsmål til ChatGPT som jeg ikke nåede at stille på dagen:

Jeg forstår, at ChatGPT er en generativ AI, der producerer tekst. Men hvordan kan den algoritme bruges på billeder? Det eksempel du gav at det kunne genkende et monument, som du havde taget et billede af, og fortælle dig om det. Men hvis koden er skabt til at generere tekst kreativt, hvordan kan den være præcis til at finde navnet på monumentet?

 Og jeg spurgte selvfølgelig ChatGPT ved simpelthen at cut/paste spørgsmålet ind. Og den svarede:

Hvordan kan ChatGPT genkende monumenter ud fra billeder?

1. Computer Vision

For at genkende et monument eller analysere et billede bruges en teknologi, der kaldes computer vision. Det er et helt andet felt inden for AI, hvor modeller trænes på store mængder billeddata for at identificere mønstre, objekter og specifikke ting (som monumenter). Typiske modeller til computer vision er Convolutional Neural Networks (CNNs), som er designet specifikt til billedgenkendelse og klassifikation.

2. Multimodal AI

OpenAI har også udviklet multimodale modeller, som kan arbejde med både tekst og billeder (som GPT-4 Vision). Disse modeller er trænet til at analysere billeder og kombinere deres forståelse med tekst. Når modellen genkender et monument, sker der noget i denne stil:

1. Billedet analyseres af den visuelle del af modellen, der 'ser' mønstre og sammenligner dem med sin træning på millioner af billeder.

2. Resultatet oversættes til tekst gennem den sproglige del af modellen, så du får en læsbar og præcis beskrivelse.

3. Specialiseret Træning

For at genkende monumenter eller specifikke objekter trænes AI-modellen på store datasæt, der indeholder billeder og metadata (f.eks. 'Dette er Eiffeltårnet'). Algoritmen lærer at forbinde specifikke visuelle træk (som Eiffeltårnets struktur) med navnet og informationen om monumentet.

4. Hvordan kan det være præcist?

Præcisionen kommer fra:

- Kvaliteten af træningsdataene: Modellen er trænet på utallige billeder af monumenter med korrekte etiketter.

- Kombination af tekst og billede: Når modellen forstår et billede, kan den hente information fra dens teksttræning for at levere kontekst (f.eks. 'Eiffeltårnet er et ikonisk monument i Paris, bygget i 1889').

- Indbygget sandsynlighedsberegning: Hvis modellen ikke er sikker på, hvad det er, giver den svar, der bedst matcher dens træning.

Sammenfatning

ChatGPT som tekstmodel arbejder ikke med billeder alene, men OpenAIs multimodale modeller (som GPT-4 Vision) kan analysere billeder. Det er muligt, fordi de kombinerer billedforståelse (fra computer vision) med tekstforståelse (fra GPT-modellen). Dette gør det muligt at beskrive, forklare eller endda genkende objekter som monumenter på en præcis måde.


Kommentarer

Populære opslag fra denne blog

Lav verdens bedste prompt i o3 og brug den til Deep Research

En tidligere OpenAI-medarbejder taler ud (positivt, men meget interessant)

Deep Research ("Grundig Research") er nu tilgængelig i ChatGPT (men kun 10 af dem per måned).