Google anunciou terça-feira no Google I/O 2024 Visualizar, um novo modelo de síntese de vídeo de IA que pode criar vídeos de alta resolução a partir de texto, imagens ou prompts de vídeo, semelhante ao Sora da OpenAI. Ele pode criar vídeos em 1080p com duração de mais de um minuto e editar vídeos a partir de instruções escritas, mas ainda não foi lançado para uso generalizado.
O Veo supostamente inclui a capacidade de editar vídeos existentes usando comandos de texto, manter a consistência visual entre os quadros, criar sequências de vídeo de até 60 segundos de duração e mais de um prompt ou série de prompts que compõem uma narrativa. A empresa afirma que pode criar cenas detalhadas e aplicar efeitos cinematográficos, como lapsos de tempo, tomadas aéreas e vários estilos visuais.
Desde o lançamento do DALL-E 2 em abril de 2022, vimos uma vitrine de novos módulos de fotomontagem e videomontagem que visam permitir que qualquer pessoa que possa escrever uma descrição por escrito crie uma foto ou vídeo detalhado. Embora nenhuma das tecnologias esteja totalmente otimizada, os geradores de imagem e vídeo de IA estão cada vez mais capazes.
Em fevereiro, cobrimos uma prévia do gerador de vídeo Sora da OpenAI, que muitos na época acreditavam representar a melhor composição de vídeo com tecnologia de IA que a indústria tinha a oferecer. Isso impressionou Tyler Perry o suficiente para interromper as expansões de seu estúdio cinematográfico. No entanto, até o momento, a OpenAI não forneceu acesso público à ferramenta, limitando seu uso a um grupo seleto de testadores.
Agora, à primeira vista, o Veo do Google parece ser capaz de produzir vídeos semelhantes ao que Sora conseguiu. Nós mesmos não testamos, então só podemos conferir vídeos de demonstração selecionados fornecidos pela empresa Em seu site. Isso significa que qualquer pessoa que o visualizar deve aceitar as afirmações do Google com cautela, porque os resultados da criação podem não ser típicos.
Os vídeos típicos do Veo incluem um cowboy a cavalo, uma cena rápida em uma rua suburbana, um kebab grelhado na grelha, um lapso de tempo de uma abertura de girassol e muito mais. Há claramente uma ausência de qualquer representação detalhada de humanos, o que tem sido historicamente difícil para modelos de imagem e vídeo alimentados por IA criarem sem distorções óbvias.
O Google diz que o Veo se baseia nos modelos anteriores de criação de vídeo da empresa, incluindo Generative Query Network (GQN), DVD-GAN e Imagen-Video. VinakiWalt, VideoPoet e Lumière. Para melhorar a qualidade e a eficiência, os dados de treinamento do Veo incluem feedback de vídeo mais detalhado e usam representações de vídeo “latentes” compactadas. Para melhorar a qualidade da criação de vídeos do Veo, o Google incluiu legendas mais detalhadas para os vídeos usados para treinar o Veo, permitindo que a IA interprete os prompts com mais precisão.
O Veo também parece notável porque suporta comandos de filmagem: “Dado um comando de entrada de vídeo e um comando de edição, como adicionar um caiaque a uma foto aérea de um litoral, o Veo pode aplicar esse comando ao vídeo bruto e criar um novo vídeo editado, ”, diz a empresa.
Embora as demonstrações pareçam impressionantes à primeira vista (especialmente em comparação com Will Smith comendo espaguete), o Google reconhece a dificuldade de criar um vídeo de IA. “Manter a consistência visual pode ser um desafio para modelos de criação de vídeo”, escreveu a empresa. “Personagens, objetos ou mesmo cenas inteiras podem tremer, pular ou mudar inesperadamente entre os quadros, atrapalhando sua experiência de visualização.”
O Google tentou mitigar essas desvantagens com “conversores sofisticados de propagação latente”, o que é basicamente uma conversa de marketing sem sentido e sem detalhes. Mas a empresa está suficientemente confiante no modelo que está Trabalhando com o ator Donald Glover e seu estúdio, Gilga, para criar um filme explicativo gerado por IA que estreará em breve.
Inicialmente, o Veo estará disponível para criadores selecionados por meio dele Efeitos de vídeo, uma nova ferramenta experimental disponível no AI Test Kitchen do Google, labs.google. Os criadores podem entrar na lista de espera do VideoFX para obter acesso aos recursos do Veo nas próximas semanas. O Google planeja integrar alguns dos recursos do Veo no YouTube Shorts e em outros produtos no futuro.
Ainda não há informações sobre onde o Google obteve os dados de treinamento do Veo (se tivéssemos que adivinhar, o YouTube provavelmente está envolvido). Mas o Google diz que está adotando uma abordagem “responsável” com o Veo. Segundo a empresa, “Os vídeos criados pela Veo possuem marca d’água com ID de síntesenossa ferramenta de ponta para colocar marcas d’água e identificar conteúdo gerado por IA, passando-o por filtros de segurança e verificações de preservação que ajudam a mitigar riscos de privacidade, direitos autorais e preconceitos.”
More Stories
Como os especialistas em IA do novo programa Gemini Gems do Google podem impulsionar seu SEO
Vazamentos revelam o nome e design do suposto dispositivo PS5 Pro
Os jogadores reclamam do longo tempo de matchmaking no PS5 conforme os números do Concord caem