Porque e como a Gen AI elegeu visuais na era do 0.1-Sec-Positioning-or-Scrolling

Porque e como a Gen AI
elegeu visuais na era do
0.1-Sec-Positioning-or-Scrolling

Vantagens ligadas ao nosso córtex e à maturidade tecnológica atraíram apostas no sentido humano da instantaneidade —a visão—, que fisga audiências no décimo de segundo

A questão do título parece óbvia demais, embora não o suficiente ainda para muitas empresas e profissionais. Digo “óbvia demais” me referindo ao inescapável papel central dos visuais nesta era que podemos chamar de AImersiva ou, numa ótica mais operacional, de era do 0.1-Sec-Positioning-or-Scrolling.

“Centralidade inescapável”? Well, o que mais, além dos visuais, consegue posicionar uma marca na tela no 0,1 segundo (na verdade, 1,6) que eye-test de 2012 da Missouri Univ detectou como a janela que uma marca no online tem para gravar a primeira impressão — e se posicionar e fisgar, ou ser scrollada?

Fato: as duas áreas que as plataformas de Gen AI abertas ou proprietárias escolheram primeiro são visuais e texto. Vamos às evidências dessa inescapabilidade dos visuais — que vão da nossa fisiologia cerebral ao grau de desenvolvimento tecnológico e aos negócios — e o que isso exige de nossas marcas, num mergulho nerd-negocial. (Este tema ainda vai render muito artigo por aqui).

Nossa espécie é visual

Começando pelo básico: os visuais são determinantes para nossa espécie. (Reuni essas evidências pela primeira vez nos dois artigos iniciais do blog — na verdade, 80% delas: este artigo adiciona três outras).

> Nossos olhos concentram cerca de 70% de todos os sensores do corpo;

> 40% do córtex estão envolvidos no processamento/compreensão de informações visuais;

> 80% de todas as informações chegam até nós através dos olhos;

> Reagimos primeiro aos visuais — e os retemos; 93% da comunicação são não-verbais;

> Imagens vão direto para a memória de longo prazo; já palavras vão para a de curto prazo, que retém só cerca de 7 bits;

> E agora, mais três dados: nosso cérebro decifra elementos de imagem simultaneamente; já com o texto, adivinhou, é palavra após palavra (e, observo, leitura dinâmica não faz diferença: a sequencialidade/ linearidade se mantém); idem os áudios/ sons, também absorvidos fonema após fonema, nota após nota;

> Cognitivamente, visuais aceleram e aumentam compreensão, lembrança, retenção e decodificação do texto;

> Emocionalmente, estimulam outras áreas do cérebro, o que gera compreensão mais profunda e precisa — e decisões.

Maturidade tecno: a visão computacional

A segunda razão para as Gen AI elegerem os visuais é que a visão computacional (VC), conforme experts, é uma das áreas mais maduras da IA. Vamos entender aqui o basicão dela. Isso ajuda a escolher a melhor plataforma para cada caso etc. (como fazem Coca-Cola, Vogue e National Geo e outras; novo artigo sobre isso a caminho) — e é interessante até para não-nerds.

A VC é um subcampo da IA. É a capacidade de as máquinas “enxergarem” e compreenderem o mundo visual em viés humano, nessa saga pela linguagem natural.

Usa algoritmos complexos, Machine Learning e, tchans!, redes neurais convolucionais, para identificar objetos, padrões e até emoções via expressões faciais. As redes neurais convolucionais (CNNs) replicam a estrutura do córtex visual animal em camadas de neurônios artificiais. Estes atuam em conjunto para extrair características de imagens, como bordas, texturas e formas. Transformam pixels em números, aprendem com dados de treinamento e geram previsões. Assim:

1. Camadas Convolucionais: aplicam filtros (cada um detecta um padrão, como bordas horizontais ou verticais) a uma imagem de entrada para criar mapas de características;

2. Camadas de Pooling (agrupamento): reduzem a dimensionalidade desses mapas de características, descartando detalhes menos relevantes. Isso reduz a complexidade computacional e evita o overfitting (sobreajuste);

3. Camadas Fully Connected: conectam todos os neurônios de uma camada à próxima, o que permite que a rede combine as características extraídas para fazer previsões ou classificações.

Razões negociais: quatro tops Gen AI

A soma de evidências tão radicais, como as definições da própria espécie, a ferramentas maduras, gera uma perspectiva muito, muito rentável. Vamos concluir este artigo resumindo como essas ideias se convolucionaram rsrs e, afinal, elegeram os visuais (este compilado é do CoPilot; os Debates Internos das plataformas abaixo mencionados são deduções dele; já prompt, réplicas e curadoria com checagem são minhas):

DALL E

> Timeline: OpenAI começou em 2015;

> Contribuidores notáveis: Ilya Sutskever, Greg Brockman e Sam Altman;

> Investimento: a OpenAI garantiu US$ 675 M em financiamento da Série B a uma avaliação de US$ 2,6 B. Os investidores incluem Microsoft, OpenAI Startup Fund, NVIDIA, Bezos Expeditions, Parkway Venture Capital, Intel Capital, Align Ventures e ARK Invest;

> Estratégia: focou no DALL-E, um modelo generativo que cria imagens exclusivas a partir de prompts textuais;

Debates internos provavelmente giraram em torno do equilíbrio entre liberdade artística, interpretabilidade e considerações éticas.

Midjourney

> Timeline: a Midjourney surgiu por volta de 2020, ganhando destaque na comunidade de arte de IA;

> Principais participantes: os fundadores da Midjourney, incluindo artistas e desenvolvedores;

> Investimento: operando como projeto de código aberto, teve investimentos modestos, com ênfase no desenvolvimento colaborativo;

> Receita recorrente anual (ARR): supostamente atingiu US$ 200 M em seu primeiro ano;

> Avaliação potencial: um múltiplo de 50x nessa ARR poderia resultar numa avaliação de US$ 10 B ou mais;

> Estratégia: democratizar a arte de IA introduzindo recursos como estilos consistentes (V6) para manter a continuidade de personagens;
Debates internos provavelmente se concentraram em usabilidade, personalização e acessibilidade.

Stable Diffusion

> Timeline: A Stability AI é criada em 2019; em meio a turbulências, sua flagship Stable Diffusion ganha destaque;

> Principais participantes: pesquisadores, engenheiros e artistas;

> Investimentos: levantou US$ 101 M em rodada liderada pela Coatue, Lightspeed, mais a O’Shaughnessy e outras, atingindo a avaliação de US$ 1 B pós-investimento;

> Estratégia: refinar imagens iterativamente por meio da difusão via sua complexa estrutura algorítmica;

Debates internos provavelmente giraram em torno do equilíbrio de potência, facilidade de uso e modelos de treinamento em dados diversos.

CoPilot Designer (Image Creator)

> Timeline: o CoPilot Designer evoluiu do Copilot AI original, gerado de parceria com a OpenAI (2019);

> Principais participantes: equipes de pesquisa de IA da Microsoft, incluindo engenheiros e designers;

> Investimentos: valores não divulgados;

> Estratégia: aumentar produtividade e criatividade em todos os domínios, mas enfatizando o conteúdo visual;

Debates internos provavelmente se concentraram na integração perfeita e na manutenção da clareza nos visuais gerados.

Ok? Mande seus comments, mensageia pra gente!

Na Immersera, baseados na minha sinergia verbo-visual (fui Comms Head de três ministrxs e C.H. consultor da ONU-Mulheres), em minhas certs como IA (USP e Exame) e na expertise da nossa rede, fornecemos consultoria/mentoria em 0.1-Sec-Positioning, conteúdo posicionado, SEO, branding, websites, cases e gerenciamento de crise.)

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest
0 Comentários
mais recentes
mais antigos Mais votado
Feedbacks embutidos
Ver todos os comentários