## Google lança Whisk: IA que cria imagens a partir de fotos, sem precisar de texto!

20/12/2024
126 visualizações
Imagem principal do post

Diferentemente dos geradores de imagens tradicionais que dependem de prompts textuais detalhados, o Whisk se destaca pela sua abordagem visual. Você simplesmente carrega as fotos que representam os temas, cenários e estilos desejados, e a IA faz o resto. Embora seja possível adicionar texto para refinar detalhes, a ferramenta funciona perfeitamente bem sem ele, abrindo um leque de possibilidades para quem busca explorar a criatividade de forma mais livre e espontânea.

**Como funciona essa mágica?**

Imagem complementar

O segredo por trás do Whisk está na combinação de duas tecnologias de ponta do Google: o **Gemini**, seu modelo central de IA, e o **Imagen 3**, um modelo de geração de imagens desenvolvido pela DeepMind (adquirida pelo Google em 2014). O Gemini gera uma legenda a partir das imagens carregadas, que serve como entrada para o Imagen 3. Esse processo captura a "essência" das fotos, permitindo variações criativas e resultados inesperados, como pequenas mudanças na altura dos personagens, tom de pele ou penteado.

A flexibilidade do Whisk não para por aí. Você pode "remixar" a imagem final, editando as entradas ou ajustando as categorias para gerar diferentes versões, como transformar a imagem em brinquedos de pelúcia, broches ou adesivos!

**Ainda em fase inicial, mas com grande potencial**

Por enquanto, o Whisk está disponível como um site no Google Labs, com acesso limitado aos usuários nos Estados Unidos. Apesar de estar em fase inicial de desenvolvimento, a ferramenta já demonstra um grande potencial e se junta a outros produtos de IA do Google, como o próprio Gemini (para geração de texto e imagem) e o futuro Android reformulado em parceria com Samsung e Qualcomm.

O lançamento do Whisk reforça a intensa competição no setor de IA, com empresas como a OpenAI (com seu recente gerador de vídeos, o Sora) investindo pesado nessa área. Analistas, como Dan Ives da Wedbush Securities, veem o Whisk como um movimento estratégico do Google, destacando o DeepMind como um ativo crucial para o futuro da empresa no mercado de IA.

O Whisk representa um novo conceito em edição visual, oferecendo uma experiência divertida e acessível, ideal para quem busca explorar a criatividade sem a necessidade de dominar softwares de edição complexos. Acompanhemos os próximos passos dessa ferramenta promissora e suas futuras expansões!

Comentários

Nenhum comentário ainda. Seja o primeiro a comentar!