Hvordan genkender ChatGPT monumenter ud fra billeder?
Spørgsmål fra en, der havde hørt mit foredrag:
Hej Mogens
Tak for et underholdende og interessant oplæg om chatgpt i starten
af denne måned.
Jeg har lige et spørgsmål til ChatGPT som jeg ikke nåede at stille
på dagen:
Jeg forstår, at ChatGPT er en generativ AI, der producerer tekst.
Men hvordan kan den algoritme bruges på billeder? Det eksempel du gav at det
kunne genkende et monument, som du havde taget et billede af, og fortælle dig
om det. Men hvis koden er skabt til at generere tekst kreativt, hvordan kan den
være præcis til at finde navnet på monumentet?
Hvordan kan ChatGPT genkende monumenter ud fra billeder?
1. Computer Vision
For at genkende et monument eller analysere
et billede bruges en teknologi, der kaldes computer vision. Det er et helt
andet felt inden for AI, hvor modeller trænes på store mængder billeddata for
at identificere mønstre, objekter og specifikke ting (som monumenter). Typiske
modeller til computer vision er Convolutional Neural Networks (CNNs), som er
designet specifikt til billedgenkendelse og klassifikation.
2. Multimodal AI
OpenAI har også udviklet multimodale
modeller, som kan arbejde med både tekst og billeder (som GPT-4 Vision). Disse
modeller er trænet til at analysere billeder og kombinere deres forståelse med
tekst. Når modellen genkender et monument, sker der noget i denne stil:
1. Billedet analyseres af den visuelle del
af modellen, der 'ser' mønstre og sammenligner dem med sin træning på millioner
af billeder.
2. Resultatet oversættes til tekst gennem
den sproglige del af modellen, så du får en læsbar og præcis beskrivelse.
3. Specialiseret Træning
For at genkende monumenter eller specifikke
objekter trænes AI-modellen på store datasæt, der indeholder billeder og
metadata (f.eks. 'Dette er Eiffeltårnet'). Algoritmen lærer at forbinde
specifikke visuelle træk (som Eiffeltårnets struktur) med navnet og
informationen om monumentet.
4. Hvordan kan det være præcist?
Præcisionen kommer fra:
- Kvaliteten af træningsdataene: Modellen
er trænet på utallige billeder af monumenter med korrekte etiketter.
- Kombination af tekst og billede: Når
modellen forstår et billede, kan den hente information fra dens teksttræning
for at levere kontekst (f.eks. 'Eiffeltårnet er et ikonisk monument i Paris,
bygget i 1889').
- Indbygget sandsynlighedsberegning: Hvis
modellen ikke er sikker på, hvad det er, giver den svar, der bedst matcher dens
træning.
Sammenfatning
ChatGPT som tekstmodel arbejder ikke med
billeder alene, men OpenAIs multimodale modeller (som GPT-4 Vision) kan
analysere billeder. Det er muligt, fordi de kombinerer billedforståelse (fra
computer vision) med tekstforståelse (fra GPT-modellen). Dette gør det muligt
at beskrive, forklare eller endda genkende objekter som monumenter på en præcis
måde.
Kommentarer
Send en kommentar