Porque e como a Gen AI elegeu visuais na era do 0.1-Sec-Positioning-or-Scrolling
Porque e como a Gen AI elegeu visuais na era do 0.1-Sec-Positioning-or-Scrolling
Vantagens ligadas ao nosso córtex e à maturidade tecnológica atraíram apostas no sentido humano da instantaneidade —a visão—, que fisga audiências no décimo de segundo
A questão do título parece óbvia demais, embora não o suficiente ainda para muitas empresas e profissionais. Digo “óbvia demais” me referindo ao inescapável papel central dos visuais nesta era que podemos chamar de AImersiva ou, numa ótica mais operacional, de era do 0.1-Sec-Positioning-or-Scrolling.
“Centralidade inescapável”? Well, o que mais, além dos visuais, consegue posicionar uma marca na tela no 0,1 segundo (na verdade, 1,6) que eye-test de 2012 da Missouri Univ detectou como a janela que uma marca no online tem para gravar a primeira impressão — e se posicionar e fisgar, ou ser scrollada?
Fato: as duas áreas que as plataformas de Gen AI abertas ou proprietárias escolheram primeiro são visuais e texto. Vamos às evidências dessa inescapabilidade dos visuais — que vão da nossa fisiologia cerebral ao grau de desenvolvimento tecnológico e aos negócios — e o que isso exige de nossas marcas, num mergulho nerd-negocial. (Este tema ainda vai render muito artigo por aqui).
Nossa espécie é visual
Começando pelo básico: os visuais são determinantes para nossa espécie. (Reuni essas evidências pela primeira vez nos dois artigos iniciais do blog — na verdade, 80% delas: este artigo adiciona três outras).
> Nossos olhos concentram cerca de 70% de todos os sensores do corpo;
> 40% do córtex estão envolvidos no processamento/compreensão de informações visuais;
> 80% de todas as informações chegam até nós através dos olhos;
> Reagimos primeiro aos visuais — e os retemos; 93% da comunicação são não-verbais;
> Imagens vão direto para a memória de longo prazo; já palavras vão para a de curto prazo, que retém só cerca de 7 bits;
> E agora, mais três dados: nosso cérebro decifra elementos de imagem simultaneamente; já com o texto, adivinhou, é palavra após palavra (e, observo, leitura dinâmica não faz diferença: a sequencialidade/ linearidade se mantém); idem os áudios/ sons, também absorvidos fonema após fonema, nota após nota;
> Cognitivamente, visuais aceleram e aumentam compreensão, lembrança, retenção e decodificação do texto;
> Emocionalmente, estimulam outras áreas do cérebro, o que gera compreensão mais profunda e precisa — e decisões.
Maturidade tecno: a visão computacional
A segunda razão para as Gen AI elegerem os visuais é que a visão computacional (VC), conforme experts, é uma das áreas mais maduras da IA. Vamos entender aqui o basicão dela. Isso ajuda a escolher a melhor plataforma para cada caso etc. (como fazem Coca-Cola, Vogue e National Geo e outras; novo artigo sobre isso a caminho) — e é interessante até para não-nerds.
A VC é um subcampo da IA. É a capacidade de as máquinas “enxergarem” e compreenderem o mundo visual em viés humano, nessa saga pela linguagem natural.
Usa algoritmos complexos, Machine Learning e, tchans!, redes neurais convolucionais, para identificar objetos, padrões e até emoções via expressões faciais. As redes neurais convolucionais (CNNs) replicam a estrutura do córtex visual animal em camadas de neurônios artificiais. Estes atuam em conjunto para extrair características de imagens, como bordas, texturas e formas. Transformam pixels em números, aprendem com dados de treinamento e geram previsões. Assim:
1. Camadas Convolucionais: aplicam filtros (cada um detecta um padrão, como bordas horizontais ou verticais) a uma imagem de entrada para criar mapas de características;
2. Camadas de Pooling (agrupamento): reduzem a dimensionalidade desses mapas de características, descartando detalhes menos relevantes. Isso reduz a complexidade computacional e evita o overfitting (sobreajuste);
3. Camadas Fully Connected: conectam todos os neurônios de uma camada à próxima, o que permite que a rede combine as características extraídas para fazer previsões ou classificações.
Razões negociais: quatro tops Gen AI
A soma de evidências tão radicais, como as definições da própria espécie, a ferramentas maduras, gera uma perspectiva muito, muito rentável. Vamos concluir este artigo resumindo como essas ideias se convolucionaram rsrs e, afinal, elegeram os visuais (este compilado é do CoPilot; os Debates Internos das plataformas abaixo mencionados são deduções dele; já prompt, réplicas e curadoria com checagem são minhas):
DALL E
> Timeline: OpenAI começou em 2015;
> Contribuidores notáveis: Ilya Sutskever, Greg Brockman e Sam Altman;
> Investimento: a OpenAI garantiu US$ 675 M em financiamento da Série B a uma avaliação de US$ 2,6 B. Os investidores incluem Microsoft, OpenAI Startup Fund, NVIDIA, Bezos Expeditions, Parkway Venture Capital, Intel Capital, Align Ventures e ARK Invest;
> Estratégia: focou no DALL-E, um modelo generativo que cria imagens exclusivas a partir de prompts textuais;
Debates internos provavelmente giraram em torno do equilíbrio entre liberdade artística, interpretabilidade e considerações éticas.
Midjourney
> Timeline: a Midjourney surgiu por volta de 2020, ganhando destaque na comunidade de arte de IA;
> Principais participantes: os fundadores da Midjourney, incluindo artistas e desenvolvedores;
> Investimento: operando como projeto de código aberto, teve investimentos modestos, com ênfase no desenvolvimento colaborativo;
> Receita recorrente anual (ARR): supostamente atingiu US$ 200 M em seu primeiro ano;
> Avaliação potencial: um múltiplo de 50x nessa ARR poderia resultar numa avaliação de US$ 10 B ou mais;
> Estratégia: democratizar a arte de IA introduzindo recursos como estilos consistentes (V6) para manter a continuidade de personagens;
Debates internos provavelmente se concentraram em usabilidade, personalização e acessibilidade.
Stable Diffusion
> Timeline: A Stability AI é criada em 2019; em meio a turbulências, sua flagship Stable Diffusion ganha destaque;
> Principais participantes: pesquisadores, engenheiros e artistas;
> Investimentos: levantou US$ 101 M em rodada liderada pela Coatue, Lightspeed, mais a O’Shaughnessy e outras, atingindo a avaliação de US$ 1 B pós-investimento;
> Estratégia: refinar imagens iterativamente por meio da difusão via sua complexa estrutura algorítmica;
Debates internos provavelmente giraram em torno do equilíbrio de potência, facilidade de uso e modelos de treinamento em dados diversos.
CoPilot Designer (Image Creator)
> Timeline: o CoPilot Designer evoluiu do Copilot AI original, gerado de parceria com a OpenAI (2019);
> Principais participantes: equipes de pesquisa de IA da Microsoft, incluindo engenheiros e designers;
> Investimentos: valores não divulgados;
> Estratégia: aumentar produtividade e criatividade em todos os domínios, mas enfatizando o conteúdo visual;
Debates internos provavelmente se concentraram na integração perfeita e na manutenção da clareza nos visuais gerados.
Ok? Mande seus comments, mensageia pra gente!
Na Immersera, baseados na minha sinergia verbo-visual (fui Comms Head de três ministrxs e C.H. consultor da ONU-Mulheres), em minhas certs como IA (USP e Exame) e na expertise da nossa rede, fornecemos consultoria/mentoria em 0.1-Sec-Positioning, conteúdo posicionado, SEO, branding, websites, cases e gerenciamento de crise.)