Raio X do Cíclope: DALL-E 3 falhou no que DALL-E 2 já tinha conseguido, o olho único [ prompts: Nei Bomfim/ Immersera;pós-produção: ReNascimento;]

Como IAs geram visuais? Saiba o essencial e encare o 0.1-Sec-Positioning-or-Scrolling

Como IAs geram visuais?
Saiba o essencial e encare
o 0.1-Sec-Positioning-or-Scrolling

BMW comprova: ignorar como Gen AIs baseadas em visão de gato, p.ex. podem criar visuais anti-scrolling é tão impensável quanto ignorar beabá da Internet

Fisgar audiências em 0,1 segundo (Missouri Univ) jamais foi tão questão de vida-ou-morte como nesta nossa era, que podemos chamar de AImersiva. Acontece que a marca no online tem um desafio implacável: o 0.1-Sec-Positioning-or-Scrolling — que é como batizei o desafio de capturar as audiências desejadas num décimo de segundo (ou ser ignorada, alternativa bem mais provável).

E que outro agente temos para brecar este 0.1-Sec-Scrolling senão os visuais, já que nosso cérebro decifra elementos de imagem simultaneamente, enquanto, com texto em áudio, é fonema após fonema? Se 70% de todos os nossos sensores se concentram nos olhos? Assim, contar com Gen AIs para gerar visuais calibrados para o 0.1-Sec-Positioning é muito, muito bom.

Só que as Gen AIs se apoiam em diferentes arquiteturas — e estas, em bases que vão do córtex visual dos gatos à bagunça intencional em cima das imagens. Estas arquiteturas, ao lado de outras tecnologias desses modelos, determinam forças e fraquezas bem diferentes entre as Gen Is e perfis igualmente variados das entregas visuais delas.

Tudo isso torna tão impensável ignorar o essencial de uma Gen AI quanto o é em relação à internet. Este desconhecimento pode motivar uma equação trágica: F = C x I x E 😉, onde a progressiva Complexidade (C) das arquiteturas das Gens AIs, multiplicada pela Ignorância (I) do essencial delas, é igual a uma taxa de Frustração (F) diretamente proporcional à Extraordinariedade (E) daquelas possibilidades geradas exatamente pela Complexidade.

1.Somos uma espécie visual

Esse domínio do essencial das arquiteturas base não é só encanto para nerds: é uma chave para a criatividade e otimização (e isto, porque essas arquiteturas são de fato encantadoras, independentemente de você ser nerd ou não). Não foi à toa que uma campanha da BMW de antever carros futuristas optou não por uma Gen AI específica, mas por uma dessas arquiteturas base (GAN — veja mais abaixo).

Começando do começo, confira os dados que reuni e que demonstram cabalmente porque e como nós os humanos somos visual-orientados:

> Nossos olhos concentram +- 70% de todos os sensores do corpo;

> 40% do nosso córtex estão envolvidos no processamento/compreensão de informações visuais;

> 80% de todas as informações chegam até nós através dos olhos;

> Reagimos primeiro aos visuais — e os retemos; 93% da comunicação são não-verbais;

> Imagens vão direto para a memória de longo prazo; já palavras vão para a de curto prazo, que retém só cerca de 7 bits;

> Nosso cérebro decifra elementos de imagem simultaneamente; já com texto, ainda mais se em áudio, é fonema após fonema, palavra após palavra, ou, se de sons, nota após nota;

> Cognitivamente, visuais aceleram e aumentam compreensão, lembrança, retenção e decodificação do texto;

> Emocionalmente, estimulam outras áreas do cérebro, o que gera compreensão mais profunda e precisa — e decisões.

2.Gerando visuais: passo a passo

Esse fato de nossa espécie ser visual levou as Gen AIs a priorizar os visuais. Vamos seguir um processo típico de geração de visuais por Gen AIs.

Essas informações eu as obtive tanto na prática (p.ex., testando nove apps de Gen AI, entre gratuitos e pagos, tops e menos conhecidos, para criar a Id Visual da Immersera), quanto via certificações em IA (USP e Exame), fora as de outras áreas, como visuais etc. Mas, também por meio de muita pesquisa e checagem, cruzando AIs, tanto as tops, quanto outras menos conhecidas.

Este artigo, por exemplo, exigiu muitos prompts e réplicas, várias delas, longas, em diversas Gen AIs, além de checagens na web. (Aliás, mesmo se você for expert em Gen AIs, ele lhe interessa por esta costura com o 0.1-Sec-Positioning; e se achar erros, aponte, por favor).

2.1 Start

> Prompt: O usuário entra com seu prompt de texto. (Ferramentas como DALL-E e Midjourney, p.ex., são conhecidas por sua flexibilidade com prompts: permitem desde instruções sucintas até descrições mais elaboradas — e réplicas — para resultados mais detalhados ou criativos).

> Tokenização: As palavras são convertidas em números (tokens, do inglês antigo “tācen”: fichas físicas que provavam identidade ou autorização nos séculos XIV a XVI). A tokenização envolve três etapas principais:

  • Fragmentação: Retalha o texto em palavras individuais ou pedaços delas.
  • Transformação: Cada um desses pedaços de texto é convertido num token, um identificador único.
  • Atribuição numérica: Os tokens são então traduzidos em números que a máquina pode entender e manipular — mais ou menos como se traduzia palavras em código morse no início do século passado. Exemplos:

    • “Paixão” poderia ser tokenizada como [645, 330, 789].
    • “Desafio” se tornaria [456, 234, 567].
    • “Inteligência Artificial” viraria [123, 789, 456, 890].

2.2 Processamento

> Busca de padrões visuais: a Gen AI revira, então, sua biblioteca de dados visuais, de vastidão variável conforme o modelo, para encontrar semelhanças e padrões relevantes que possam ser usados para criar a imagem pedida. A DALL-E 3, por exemplo, tem cerca de 12 bilhões de parâmetros. Tecnologias como GANs ou CNNs (detalhes sobre elas, abaixo) podem ser utilizadas para identificar e gerar padrões visuais a partir dos dados.

> Refinamento via ajustes iterativos: a IA opera sucessivos ajustes na imagem gerada para aumentar gradualmente a precisão e o realismo — variando uma e outro conforme a Gen AI. Modelos de Difusão (como  o da Stable Diffusion) ou Transformers (DALL-E 3) frequentemente entram neste momento: os primeiros ajudam a suavizar e detalhar as imagens; o segundo, a ajustar a coerência contextual.

2.3 Entrega

Geração de visuais: A Gen AI gera e refina detalhes nos visuais, baseada no prompt, buscando alinhamento e relevância. Transformers ou Difusão são usados para a síntese final, assegurando que a imagem final se alinhe ao contexto do prompt.

BMW futurista: opção por arquitetura base (GANs) que rende realismo, crucial para materializar ativos ainda intangíveis (imagem: Auto Discoveries)

3.Conheça as arquiteturas das Gen AIs

Vamos agora à variedade de arquiteturas de modelos de IA. Elas são o núcleo da geração de imagens: atuam como blocos de construção iniciais e principais no desenvolvimento e execução. Dessas, as mais conhecidas são CNN, Difusão, GAN e Transformers.

3.1 CNN (Redes Neurais Convolucionais)

As CNN são inspiradas no córtex visual dos animais. É aqui que entram os gatos: em 1962, os neurologistas Hubel e Wiesel demonstraram que os felinos têm uma habilidade excepcional para detectar bordas e contrastes.  É por isso que as CNNs são usadas principalmente para reconhecer padrões e bordas.

Explicação: Redes neurais são assim chamadas porque imitam o funcionamento do cérebro, via “neurônios” artificiais que transmitem informações entre si e em várias camadas. “Convolucionais” vem do latim “enrolar”, “envolver”: elas “enrolam” duas funções matemáticas entre si para gerar uma terceira.

Analogia: Imagine a CNN como uma série de filtros em uma câmera que destaca bordas e formas para compor uma imagem, assim como nossos olhos fazem a cada vez que olhamos algo no mundo.

3.2 Modelos de Difusão

Modelos de Difusão, como os usados pela Stable Diffusion, pinçam a imagem dentre uma bagunça que eles mesmos adicionaram a ela, como parte do processo de refino, que é gradual. Este esforço de detecção da imagem em meio ao ruído aperfeiçoa a capacidade do modelo de detectar, elaborar e refinar a imagem. Isto permite tanto a definição criativa, quanto ajustes mais precisos.

Analogia: Pense nos modelos de Difusão como escultores em mármore. Começam com um bloco pleno de “brutalidade” (ruído). O desbaste gradual da peça, com lascas sendo tiradas do bloco na marretada, é em si uma auto-educação dinâmica para a Gen AI. Por meio dele, ela gradualmente refina a busca e consequente obtenção da imagem.

3.3 Redes Adversariais Generativas (GANs)

GANs consistem num par de redes: uma geradora e uma discriminadora. Elas funcionam em disputa: a geradora cria imagens; a discriminadora criva a autenticidade delas. É esta “adversarialidade” entre elas que as melhora reciprocamente e, assim, produz imagens, que buscam principalmente realismo.

Analogia: Imagine um pintor (rede geradora) que tenta enganar um crítico de arte (discriminadora) com suas obras. O crítico busca distinguir entre obras reais, válidas, e falsas. Isto instiga o pintor a refinar continuamente sua técnica; a mesma coisa, com o crítico.

3.4 Transformers

Transformers usam mecanismos de atenção (que focam partes específicas da entrada para melhor entendimento) para processar e gerar sequências de dados. São muito eficazes em capturar contextos complexos e relações de longo alcance (conexões entre elementos distantes entre si, como as imagens de um livro, distribuídas ao longo dele, mas nem por isso desconectadas entre si).

Explicação: O nome vem da capacidade de transformar informações de entrada em saídas processadas ricas em contexto. Quanto às relações de longo alcance, exemplo: ao gerar imagens para o livro acima mencionado, se uma personagem usar um colar, a conexão e consistência entre imagens distantes entre si será obtida via a inserção deste colar mesmo nas cenas que não o mencionem.

Analogia: Pense em Transformers como um editor de livro que destaca as partes mais importantes de um texto para resumir o enredo completo, garantindo a compreensão e ênfase nas partes cruciais.

4.O que cada arquitetura rende

Portanto,

> CNN: Ideais para precisão em reconhecimento de imagens.

> Difusão: Excelentes para equilíbrio entre criatividade e precisão.

> GANs: Especialistas em realismo, com potencial limitado para criatividade.

> Transformers: Excelentes na captura de nuances complexas e para coerência contextual.

A Difusão injetou realismo no esforço da Heinz para explorar sua familiaridade universal na campanha "O que é um ketchup": 850 milhões de impressões

5.Ranking : seis Gen AIs

Reúno aqui experiência concreta (o teste acima descrito de nove apps de Gen AI e o uso intensivo de outras aplicações de Gen AI, além de muita pesquisa e certificações) às fornecidas diretamente por diversas Gen AIs, numa variedade de perfis.

Estas informações foram depuradas via réplicas exaustivas e checagem, mas é possível que contenham erros. Assim, se você vir algum equívoco ou se dispuser a complementar informações, fique à vontade.

Ranqueio a seguir seis Gen AIs +conhecidas  segundo seus perfis de entrega de visuais, determinados pelas arquiteturas, seus pontos fortes e fracos, criatividade, precisão e o número de parâmetros utilizados, quando públicos:

 DALL-E 3

Tecnologia: Transformers, que são parte da arquitetura GPT da OpenAI.

Parâmetros: +- 12 bilhões.

Força: Criativa, é capaz de gerar visuais imaginativos — e acrescento: com features inesperados, que vão além dos prompts: dos nove Gen AI apps que testei em 2023 (retestando alguns em 2024) para a ID Visual da Immersera, só a DALL-E funcionou, e mesmo, assim, só numa das suas duas aplicações avaliadas. Mas, agora no fim de 2024, a mesma DALLE-3 não conseguiu me entregar um Cíclope.

Fraqueza: Às vezes sacrifica a precisão pela criatividade, com resultados inesperados.

 Midjourney V6

Tecnologia: Combina principalmente Difusão e, possivelmente, componentes de Transformers.

Parâmetros: não divulgados.

Força: Rende bem em texturas e estilos artísticos. Flexível com prompts; adequada para necessidades variadas.

Fraqueza: Pode não aderir estritamente aos prompts; às vezes, entrega resultados menos relevantes ou mesmo decepcionantes.

 Stable Diffusion 3.5

Tecnologia: Difusão, usada para criar imagens detalhadas e de alta qualidade.

Parâmetros: +- 8,1 bilhões na versão Large.

Força: Equilíbrio entre criatividade e fidelidade ao prompt. Modelo de código aberto: permite personalização extensa e melhorias pela comunidade.

Fraqueza: Exige mais conhecimento técnico para maximizar seu potencial.

Runway ML / Gen-3 Alpha

Tecnologia: Oferece uma variedade de modelos de Deep Learning, incluindo GANs e CNNs, para criar imagens e vídeos.

Parâmetros: Não divulgados.

Força: Interface amigável projetada para criativos e marqueteiros. Excelente para gerar visuais rápida e eficientemente. Integra-se perfeitamente em fluxos de trabalho criativos.

Fraquezas: Pode carecer da profundidade de recursos encontrados em sistemas mais complexos.

DeepArt

Tecnologia: CNNs, utilizadas para transformar fotos em obras de arte no estilo de artistas famosos.

Parâmetros: Não divulgados.

Força: Transforma imagens existentes em interpretações artísticas. Forte para propósitos de branding, permitindo a integração de estilos de marca em visuais.

Fraqueza: Melhor para adaptações, ou seja, limitado na capacidade de gerar visuais completamente novos.

Artbreeder

Tecnologia: GANs — permite a mistura e modificação de imagens para criar visuais.

Parâmetros: Não divulgados.

Força: Facilita a criação colaborativa e mix de imagens, aprimorando a criatividade. Usuários podem manipular imagens diretamente, levando a resultados visuais únicos.

Fraqueza: Pode ser complicado manejar sua complexidade e gama de opções.

A Nutella recorreu às CNNs para que consumidores personalizassem rótulos de potes: 7 milhões de designs únicos de embalagens usando Gen AI

6.Foco na arquitetura base: BMW etc.

Três cases de ícones globais demonstram como focar numa arquitetura base, e não numa Gen AI, determinou o sucesso de suas campanhas:

1.  BMW (GANs)

A BMW optou por GANs para desenvolver imagens de conceitos de carros futuristas — propostas carentes, portanto, de materialidade.

    • Gen AI utilizada: A BMW adotou não uma Gen AI, mas uma arquitetura (GAN). Esta foi customizada então em laboratórios de design próprios ou em parceria com empresas de IA. Como mero framework que é, a GAN precisou ser treinada com dados específicos, hiperparâmetros, engenharia de atributos etc. O que confirma essa centralidade das arquiteturas nas Gen AIs.
    • Tecnologia utilizada: Redes Adversariais Generativas (GANs) foram escolhidas precisamente porque geram imagens altamente realistas — ideais para visibilizar concretamente ativos obviamente intangíveis como o são projetos futuristas.
    • Acerto da campanha: o uso de GANs permitiu a criação de visuais inovadores, tanto mais impactantes porque realistas. Isto capturou a imaginação dos consumidores com uma visão tangível do futuro.
    • Impacto: Embora métricas de engajamento não tenham sido localizadas, a campanha foi notada pelo uso inovador de IA e seu impacto na percepção da marca.

2. Nutella (CNNs)

A Nutella utilizou CNNs para permitir que consumidores personalizassem rótulos de potes com designs únicos gerados por IA.

    • Gen AI utilizada: Não divulgada.
    • Tecnologia utilizada: Redes Neurais Convolucionais (CNNs), para reconhecimento de padrões e geração de designs personalizados.
    • Acerto da campanha: A personalização impulsionada por CNNs permitiu uma interação direta e individualizada com o consumidor, resultando numa experiência de compra mais envolvente.

    • Impacto: A campanha da Nutella criou 7 milhões de designs únicos de potes usando IA. Foi um sucesso, esgotando em um mês.

3. Ketchup Heinz (Difusão – Stable Diffusion)

A Heinz utilizou a Stable Diffusion para explorar a ideia “O que é um ketchup”, por meio da geração de visuais criativos destinados a refletir a familiaridade universal de sua marca.

    • Tecnologia utilizada: Difusão, que permite a criação de imagens realistas.
    • Acerto da campanha: A capacidade da Stable Diffusion de criar visuais altamente detalhados e consistentes com a mensagem da marca gerou engajamento significativo, o que fortaleceu o branding da Heinz.
    • Impacto: gerou mais de 850 milhões de impressões globalmente, o que rendeu mais de 2500% do investimento em mídia. O engajamento nas redes sociais foi 38% maior do que em campanhas anteriores.

Conclusão

Espero que essa noção do essencial de como Gen AIs geram imagens, sintetizada na principal instância responsável por isso — a arquitetura de base — e no passo a passo, te ajude a casar ferramentas com expectativas, otimizar tempo e, assim, fugir da equação da Frustração. Isso, no nível dos cronogramas, do racional.

Mas há um outro nível, mais difícil e solitário, mesmo que você faça parte de um time. É o da imaginação, portanto, do risco. Inclui a escolha da Gen AI em si — o que implica apostar numa arquitetura e não em outra e, portanto, num perfil de entrega ou em outro, sendo um, mais realista, outro, mais criativo, e por aí vai.

Isso, somado às fragilidades das Gen AIs, que ainda são weak-class, ecoa o gesto solitário do renascentista que apalpava pincéis, trinchas, malhos, formões, cinzéis, até algo disso se aninhar na sua mão. Partia ele, então, para cima da tela, do bloco de mármore, do que fosse.

É mais ou menos isso que nos acontece quando passamos a entender um pouco mais as arquiteturas das Gen AIs. Suas diferentes engenhosidades, por mais técnicas que pareçam, acendem em nós uma faísca — como fizeram com a BMW — em meio às fraquezas desses modelos, que são atordoantes. Esta faísca é vital nesta era do 0.1-Sec-Positioning-or-Scrolling.  

Na Immersera, baseados na minha sinergia verbo-visual (fui Comms Head de três ministrxs e C.H. consultor da ONU-Mulheres), em minhas certs como IA (USP e Exame) e na expertise da nossa rede, fornecemos consultoria/mentoria em 0.1-Sec-Positioning, conteúdo posicionado, SEO, branding, websites, cases e gerenciamento de crise.)

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest
0 Comentários
mais recentes
mais antigos Mais votado
Feedbacks embutidos
Ver todos os comentários