Cadastre-se e receba grátis as principais notícias do Correio.
Rede Nordeste, O Povo
Publicado em 15 de fevereiro de 2024 às 21:30
A empresa OpenAI, criadora do chatbot online conhecido como ChatGPT, lançou mais uma inovação em inteligência artificial nesta quinta-feira, 15, intitulada Sora. O “irmão” mais novo da IA é capaz de criar cenários em vídeo a partir de instruções em texto.>
Os recursos do sistema estão atualmente disponíveis para a avaliação em áreas críticas, na busca por danos ou riscos. “Também estamos concedendo acesso a vários artistas visuais, designers e cineastas para obter feedback”, destaca o anúncio da companhia.>
As gravações geradas podem conter até um minuto de duração, prometendo qualidade visual aos usuários. Na prática, o modelo deve entender não apenas o prompt relatado (comando que se faz para a IA criar o produto), mas como essas coisas existem no mundo real.>
“A Sora é capaz de gerar cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo”, completa a OpenAI.>
Em seu anúncio da inteligência artificial, a OpenAI apresentou diversos exemplos de vídeos criados por Sora a partir de descrições, incluindo animais, cenas antigas e figuras míticas, como um lobisomem.>
A empresa também admite as limitações de sua invenção ao simular com precisão a física de uma cena complexa. A IA também pode não compreender instâncias específicas de causa e efeito. “Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida”.>
Outra possível confusão do sistema está em detalhes espaciais, como misturar direita e esquerda, além de problemas com descrições precisas de eventos que ocorrem ao longo de um espaço de tempo.>
A IA também é capaz de produzir vídeos inteiros de uma só vez ou estender os vídeos gerados para torná-los mais longos.>
Em adição a vídeos por descrição de texto, o Sora consegue pegar uma imagem estática existente e desenvolver uma gravação, animando o conteúdo apresentado.>
“Sora baseia-se em pesquisas anteriores dos modelos DALL-E e GPT. Ele utiliza a técnica de recaptação do DALL-E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual”, completa a empresa sobre os recursos.>