Move Notícias

Publicado em: 16 fevereiro 2024 às 15:17 | Atualizado em: 16 fevereiro 2024 às 15:17

Revolucionário: agora é possível transformar texto em vídeo; confira

Por Wagner Albuquerque

Comando em texto: O Viaduto Glenfinnan é uma ponte ferroviária histórica na Escócia, Reino Unido, que atravessa a linha montanhosa oeste entre as cidades de Mallaig e Fort William. É uma visão deslumbrante quando um trem a vapor sai da ponte, passando pelo viaduto coberto em arco. A paisagem é pontilhada por uma vegetação luxuriante e montanhas rochosas, criando um cenário pitoresco para a viagem de trem. O céu está azul e o sol brilha, proporcionando um lindo dia para explorar este local majestoso.

A OpenAI introduziu sua mais recente ferramenta, denominada Sora, destinada à criação de vídeos de até um minuto de duração a partir de texto. A empresa destaca que essa inteligência artificial é capaz de gerar “cenas complexas com vários personagens” e proporcionar “detalhes precisos do sujeito e do plano de fundo”.

A Sora entra na competição com modelos similares desenvolvidos pela Google (Lumiere) e pela Meta (Make-A-Video), todos ainda em fase de testes e não disponíveis para os usuários.

A promessa da OpenAI é que sua IA consiga criar personagens convincentes, capazes de expressar emoções vibrantes, chegando ao ponto de superar muitos atores no processo.

No material promocional da Sora, a OpenAI destaca a capacidade da IA de compreender as solicitações dos usuários e interpretar como os elementos mencionados no texto “existem no mundo físico”. Além disso, a ferramenta é projetada para criar múltiplas cenas em um único vídeo, mantendo a consistência dos personagens e do estilo visual.

Embora a página da OpenAI apresente vídeos de demonstração visualmente satisfatórios e detalhados, a Sora ainda enfrenta desafios típicos de inteligência artificial. A empresa reconhece que a IA tem dificuldades em simular a física de cenas complexas, muitas vezes compreendendo erroneamente causas e efeitos. A página ilustra problemas como objetos que surgem ou se movem de maneira não realista, confusões espaciais e lapsos na compreensão de eventos temporais.

A Sora, por enquanto, não estará disponível para o público geral. A OpenAI planeja disponibilizá-la apenas para os “red teamers” da empresa, responsáveis por testar riscos e possíveis perigos. Artistas visuais, cineastas e designers também terão acesso à ferramenta para fornecer feedbacks.

Confira os vídeos produzidos por comando de texto:

Prompt: Um gato acordando seu dono adormecido exigindo café da manhã. O dono tenta ignorar o gato, mas o gato tenta novas táticas e finalmente o dono tira um estoque secreto de guloseimas debaixo do travesseiro para segurar o gato um pouco mais.
Dica: Uma avó com cabelos grisalhos bem penteados está atrás de um bolo de aniversário colorido com inúmeras velas em uma mesa de jantar de madeira, a expressão é de pura alegria e felicidade, com um brilho feliz nos olhos. Ela se inclina para frente e apaga as velas com uma leve baforada, o bolo tem cobertura rosa e granulado e as velas param de piscar, a avó veste uma blusa azul clara enfeitada com motivos florais, vários amigos e familiares felizes sentados à mesa podem ser visto comemorando, fora de foco. A cena é lindamente capturada, cinematográfica, mostrando uma visão 3/4 da avó e da sala de jantar. Tons de cores quentes e iluminação suave melhoram o clima..