Os modelos de IA têm sido capazes de olhar as imagens e dizer o que podem ver dentro da imagem há anos, mas com a atualização da primavera, o OpenAI levou as coisas a um novo nível.
Com a introdução do GPT-4o no ChatGPT – mesmo sem funcionalidade de áudio e vídeo – a OpenAI revelou um dos melhores modelos de visão de IA lançados até hoje.
O seu sucesso deve-se em parte ao facto de ser multimédia, tendo um conhecimento mais profundo de imagens, vídeo, áudio e texto. Ele pode raciocinar através de imagem, fala, vídeo e texto onde outras formas são primeiro convertidas em texto.
Para testar suas habilidades, dei-lhe uma série de fotos e pedi que descrevesse o que conseguia ver. Quanto mais preciso for o modelo. Muitas vezes, os modelos de visão de IA – incluindo o GPT-4 – perdem um ou dois objetos ou obtêm a descrição errada.
Teste de visão GPT-4o
Em cada teste, o ChatGPT-4o recebeu a imagem e a pergunta “O que é isso?” Sem qualquer contexto ou informação adicional. Isso está mais próximo de como as pessoas provavelmente usarão esse recurso no mundo real e de como eu o usei recentemente em um evento em Paris.
O objetivo é ver quão bem a imagem é analisada. Acompanhei cada ocasião para perguntar se ele poderia detectar se uma imagem foi gerada ou não por IA. Eles são todos criados usando um ideograma da descrição criada por Claude 3 – completamente AI.
Após as primeiras fotos da conversa, ele começou a me dizer espontaneamente se achava que a foto era gerada por IA ou não, sem que eu precisasse perguntar.
Comecei com o aplicativo ChatGPT Desktop, mas ele começou a não responder, então mudei para a web e funcionou bem.
1. Reconhecendo objetos
Para esta primeira imagem, criei a imagem de uma caneca de cerâmica vermelha cheia de café quente. Foi colocado em um prato sobre uma mesa de madeira em um café, mas o café estava indistinto. A ideia é ver como o GPT-4o interpreta o background e o cenário.
GPT-4o escreveu: “Esta imagem mostra uma xícara de café fumegante em uma xícara e pires vermelhos colocados sobre uma mesa de madeira rústica. O fundo está desfocado, representando um ambiente interno aconchegante com pessoas sentadas e conversando no que parece ser uma caverna- como um café ou um interior único com paredes de pedra.” O foco está na xícara de café, destacando o vapor que sai da bebida quente.
Isso é o mais preciso e descritivo possível. Até mesmo desenhar uma imagem da cena vai além da simples descrição. Brincando, perguntei a ele: “Descreva os pensamentos de quem está sentado à mesa com esse café pronto”.
Ela respondeu com uma visão bastante descritiva, mas esta frase se destacou: “Este café é mais do que apenas uma bebida; É um ritual, um momento querido de solidão e contemplação em meio à agitação da vida cotidiana.
2. Reconhecimento Óptico de Caracteres (OCR)
O reconhecimento óptico de caracteres (OCR) é uma tecnologia tão antiga quanto a computação, por isso deveria ser trivial para qualquer modelo de visão, até mesmo os smartphones fazem isso no dispositivo. Dei a ela uma foto simples mostrando um close de uma velha placa de madeira que dizia “Bem-vindo a Oakville” em um estilo vintage manuscrito. Quero mais do que apenas texto da IA.
GPT-4o entregue; Escrevendo: “Esta foto mostra uma placa de aparência vintage que diz ‘Bem-vindo a Oakville’. A placa parece desgastada, com acabamento rústico antigo, indicando que está exposta às intempéries há algum tempo. O texto está em negrito fonte branca sobre fundo vermelho, com alguns sinais de desgaste, aumentando seu charme nostálgico. A placa é parcialmente cercada por vegetação, sugerindo que pode ter sido colocada no exterior, talvez na entrada de uma cidade ou comunidade chamada Oakville.
O texto não apenas foi lido corretamente, mas também sugeriu mais detalhes sobre o local, identificando uma possível cidade ou povoado e extraindo detalhes da própria placa.
3. Reconhecimento facial
Este é um uso controverso da tecnologia de IA e é um tanto proibido na União Europeia. Mas quão bem o GPT-4o pode descrever um rosto? A imagem era uma representação gerada por IA de uma mulher na casa dos 40 anos com cabelos escuros e olhos castanhos calorosos. Ela tinha um sorriso amigável.
GPT-4o descreveu da seguinte forma: “Esta imagem é um close de uma mulher sorridente com cabelos escuros e cacheados. O foco está em seu rosto, que é bem iluminado, mostrando detalhes de textura e características da pele. expressão amigável, e seus olhos estão olhando diretamente para a câmera. O fundo está desfocado “, focando no assunto.”
Queria um pouco mais, inclusive em certa idade. Perguntei a ela: “Quantos anos tem essa pessoa e qual é o seu estado emocional?” Ela respondeu dizendo que tem entre 30 e 40 anos e um estado de espírito positivo, explicando: “A impressão geral é que ela está emocionalmente bem e provavelmente se sente bem e confortável”.
4. Revelar sentimentos
A seguir, eu queria ver como o GPT-4o se sairia bem com a imagem de um homem velho com uma expressão triste. Ele vai capturar isso ou apenas descrever a cena? Lembre-se de que a única entrada que ele teve foi “o que é isso” e a imagem.
GPT-4o teve um bom desempenho. A foto dizia: “Esta foto é a de um homem idoso sentado em um banco ao ar livre, provavelmente em um parque. A iluminação indica que a foto foi tirada durante a hora dourada, com luz solar suave destacando sua expressão. pensativo, com leve toque melancólico ou contemplativo. Veste camisa de colarinho e paletó, e o fundo é desfocado, concentrando a atenção no homem e proporcionando um cenário agradável e natural.
O modelo de IA fez exatamente o que eu esperava: descreveu a cena e deu sugestões sobre o que o homem poderia estar sentindo naquele momento.
5. Entenda a cena
Quão bem o GPT-4o é capaz de descrever uma cena a partir de uma imagem e identificar elementos dentro da cena? Esta é uma habilidade útil, pois os modelos de IA são cada vez mais usados para ajudar a descrever o mundo real. É uma das principais características do novo modo de áudio do ChatGPT.
“Esta foto mostra um animado mercado de agricultores ao ar livre em um dia ensolarado”, anunciou o GPT-4o. “Vários estandes foram montados sob tendas, exibindo uma abundância de produtos frescos, incluindo frutas, vegetais e outros produtos. navegando, fazendo compras e interagindo com os vendedores.” O mercado parece estar localizado em uma bela área arborizada, com folhagem verde ao fundo. A atmosfera parece animada e voltada para a comunidade, com ênfase em produtos locais e frescos.
Não há muito a dizer. Ele foi preciso em sua descrição da imagem e da situação. Você forneceu mais detalhes do que eu esperava e destacou alguns dos produtos à venda.
6. Avaliação da qualidade da imagem
Pedi ao Ideogram para criar quatro imagens quase idênticas em uma grade, mas dando a cada uma uma resolução ou nível de composição diferente. Eu queria ver como o GPT-4o descreveria isso. Ele pode lidar com a imagem básica, mas e quatro delas, cada uma um pouco diferente?
“A imagem é uma coleção de quatro fotografias de paisagens organizadas em uma grade, cada uma exibindo uma vista deslumbrante de colinas cobertas de grama verde e flores silvestres sob um céu cheio de nuvens”, escreveu GPT-4o. Até agora tudo bem.
Ele continua: “A foto superior esquerda mostra um céu suave em gradiente rosa e azul, sugerindo amanhecer ou anoitecer, com colinas banhadas por uma luz dourada quente, realçando a grama verde vibrante e as flores amarelas e brancas. A foto superior direita mostra uma cena semelhante, mas em tons suaves, sugerindo… Início da manhã ou final da tarde. A imagem inferior esquerda tem cores mais frias e um céu azul mais claro, sugerindo meio-dia com iluminação mais suave. A imagem inferior direita é mais quente e saturada, com um tom rosado no céu. , sugerindo a luz de um pôr do sol Quente Essas diferenças na iluminação e no tom das cores ilustram como diferentes horários do dia e técnicas fotográficas podem afetar o clima e a aparência da mesma cena natural.
Embora ela não entendesse o propósito da grade de quatro imagens – para comparar a composição – ela foi capaz de descrever cada uma delas individualmente, o que foi impressionante. Na verdade, ela fez sua própria comparação das fotos.
7. Detecção de múltiplos objetos
Finalmente, há um teste importante para determinar se um modelo será útil como ferramenta de acessibilidade – quão bem ele detecta objetos em uma cena lotada. A mesma afirmação de outras. A foto mostra uma mesa bagunçada e espero que ela retire pelo menos uma coisinha.
GPT-4o escreveu: “A foto mostra um espaço de trabalho de escritório moderno e organizado com vista para a cidade visível através de grandes janelas ao fundo. A mesa está bem organizada com muitos itens normalmente encontrados em um ambiente de trabalho produtivo, incluindo um laptop em uma central. uma luminária de mesa de metal e uma xícara de café sugerem uma atmosfera descontraída, mas focada. Cadernos e papéis espalhados sugerem trabalho ativo e anotações, enquanto um pequeno vaso de planta adiciona um toque de verde. Uma foto emoldurada de duas pessoas fornece um toque pessoal, potencialmente. servindo como recurso Para motivação O espaço de trabalho está repleto de materiais de escritório, como canetas, lápis e organizadores, garantindo funcionalidade. O cenário urbano do horizonte da cidade com arranha-céus modernos cria um ambiente dinâmico e inspirador.
Funcionou. Resolvi acompanhar e pedir para ele me dizer a cor do vaso e funcionou na hora. Então pedi a ele que encontrasse meus óculos na foto e ele disse corretamente: “Seus óculos estão na mesa à direita do laptop, em cima de um caderno”.
resumo
Todos os modelos de visão que usei no passado cometeram pelo menos um erro, geralmente um erro grave, como identificar incorretamente um objeto ou não escolher uma cor ou marca.
GPT-4o obtém todos esses problemas. A mudança para a verdadeira multimodalidade foi uma virada de jogo para a OpenAI.
Também demonstra o valor potencial dos óculos inteligentes como o verdadeiro futuro da interação de dados. Esqueça o smartphone, vamos usar a visão para fundir o real e o digital.
Mais do guia do Tom
“Viciado em TV certificado. Ninja zumbi irritantemente humilde. Defensor do café. Especialista em web. Solucionador de problemas.”
More Stories
Como os especialistas em IA do novo programa Gemini Gems do Google podem impulsionar seu SEO
Vazamentos revelam o nome e design do suposto dispositivo PS5 Pro
Os jogadores reclamam do longo tempo de matchmaking no PS5 conforme os números do Concord caem