Em dezembro de 2024 o Google lançou uma série de novos produtos, incluindo o Gemini 2.0, que pode impulsionar uma nova era de assistentes usando Inteligência Artificial. E rapidamente o editor sênior de I.A. do periódico MIT Technology ReviewWill Douglas Heaven apresentou suas impressões dessas ferramentas nesse artigo.

google projeto astra inteligencia artificial tecnologia computador infiormatica

O Google DeepMind anunciou um impressionante conjunto de novos produtos e protótipos que podem ajudá-lo a recuperar sua liderança na corrida para transformar a inteligência artificial generativa em uma ferramenta de mercado de massa.  

O destaque vai para o Gemini 2.0 — a mais recente versão da família de modelos de linguagem multimodal do Google DeepMind, agora redesenhada com foco na capacidade de controlar agentes — e para uma nova versão do Projeto Astra, o aplicativo experimental que a empresa apresentou no Google I/O em maio.  

A publicação trimestral MIT Technology Review teve a chance de testar o Astra em uma demonstração ao vivo a portas fechadas na semana passada. Foi uma experiência impressionante, mas há uma diferença entre uma apresentação promocional polida e uma demonstração ao vivo.  

O Astra utiliza a estrutura de agentes integrada ao Gemini 2.0 para responder perguntas e executar tarefas por meio de texto, voz, imagem e vídeo, recorrendo a aplicativos existentes do Google, como Pesquisa, Mapas e Lens, quando necessário. “Ele combina alguns dos sistemas de recuperação de informações mais poderosos do nosso tempo”, diz Bibo Xu, gerente de produto do Astra.  

O Gemini 2.0 e o Astra são acompanhados pelo Mariner, um novo agente construído sobre o Gemini que pode navegar na web para você; pelo Jules, um novo assistente de programação alimentado pelo Gemini; e pelo Gemini for Games, um assistente experimental com o qual você pode conversar e pedir dicas enquanto joga videogames.  

(E não podemos esquecer que, na última semana, o Google DeepMind também anunciou o Veo, um novo modelo de geração de vídeos; o Imagen 3, uma nova versão de seu modelo de geração de imagens; e o Willow, um novo tipo de chip para computadores quânticos. Ufa. Enquanto isso, o CEO Demis Hassabis estava ontem na Suécia recebendo seu Prêmio Nobel.)  

O Google DeepMind afirma que o Gemini 2.0 é duas vezes mais rápido que a versão anterior, o Gemini 1.5, e supera seu antecessor em vários testes padrão, incluindo o MMLU-Pro, um grande conjunto de questões de múltipla escolha projetado para avaliar as habilidades de modelos de linguagem em diversas áreas, como matemática, física, saúde, psicologia e filosofia.  

Mas as diferenças entre os modelos de ponta, como o Gemini 2.0, e os desenvolvidos por laboratórios concorrentes, como OpenAI e Anthropic, agora são pequenas. Hoje em dia, os avanços nos modelos de linguagem estão menos relacionados à sua qualidade e mais ao que se pode fazer com eles.  

E é aí que entram os agentes.  

Testando o Projeto Astra

No início de dezembro de 2024 o editor do MIT Tech Review foi levado por uma porta sem identificação no andar superior de um prédio no distrito de King’s Cross, em Londres, para uma sala com um forte clima de projeto secreto. A palavra “ASTRA” estava estampada em letras gigantes em uma das paredes. O cachorro de Xu, Charlie, o mascote não oficial do projeto, circulava entre as mesas onde pesquisadores e engenheiros estavam ocupados desenvolvendo um produto no qual o Google está apostando seu futuro.  

“A explicação que dou para a minha mãe é que estamos criando uma IA que tem olhos, ouvidos e voz. Ela pode estar com você em qualquer lugar e ajudar em qualquer coisa que você estiver fazendo”, diz Greg Wayne, co-líder da equipe Astra. “Ainda não chegamos lá, mas essa é a visão.”

O termo oficial para o que Xu, Wayne e seus colegas estão construindo é “assistente universal”. Eles ainda estão descobrindo exatamente o que isso significa.  

Em uma extremidade da sala do Astra havia dois cenários que a equipe usa para demonstrações: um bar de drinks e uma galeria de arte simulada. Xu me levou primeiro ao bar. “Há muito tempo contratamos um especialista em coquetéis e pedimos que ele nos instruísse a fazer drinks”, disse Praveen Srinivasan, outro co-líder. “Gravamos essas conversas e as usamos para treinar nosso modelo inicial.”  

Xu abriu um livro de receitas em uma página com uma receita de frango ao curry, apontou o telefone para ela e ativou o Astra. “Ni hao, Bibo!”, disse uma voz feminina.  

“Oh! Por que você está falando comigo em mandarim?”, perguntou Xu ao telefone. “Você pode falar comigo em inglês, por favor?”  

“Minhas desculpas, Bibo. Eu estava seguindo uma instrução anterior para falar em mandarim. Agora falarei em inglês, como você solicitou.”  

O Astra lembra conversas anteriores, Xu me disse. Ele também acompanha os últimos 10 minutos de vídeo. (Há um momento impressionante no vídeo promocional que o Google lançou em maio de 2024, em que o Astra diz à pessoa fazendo a demonstração onde ela havia deixado os óculos, depois de tê-los visto em uma mesa alguns segundos antes. Mas eu não vi nada parecido na demonstração ao vivo.)

Voltando ao livro de receitas. Movendo a câmera do telefone sobre a página por alguns segundos, Xu pediu ao Astra para ler a receita e dizer quais especiarias estavam nela. “Eu lembro que a receita menciona uma colher de chá de pimenta-do-reino em grãos, uma colher de chá de pimenta em pó e um pau de canela”, respondeu.  

“Acho que você está esquecendo algumas coisas”, disse Xu. “Dê outra olhada.”  

“Você está certa—peço desculpas. Também vejo cúrcuma em pó e folhas de curry nos ingredientes.”  

Ao ver essa tecnologia em ação, duas coisas ficam claras imediatamente. Primeiro, ela apresenta falhas e frequentemente precisa de correções. Segundo, essas falhas podem ser corrigidas com apenas algumas palavras faladas. Você simplesmente interrompe a voz, repete suas instruções e segue em frente. Parece mais como orientar uma criança do que lidar com um software defeituoso.

Em seguida, Xu apontou seu telefone para uma fileira de garrafas de vinho e pediu ao Astra que escolhesse a que combinaria melhor com o frango ao curry. Ele escolheu um rioja e explicou o motivo. Xu perguntou quanto custaria uma garrafa. O Astra disse que precisaria usar o Search para verificar os preços online. Alguns segundos depois, retornou com a resposta.  

Mona Lisa Leonardo da Vinci inteligencia artificial informatica tecnologia arte digital

Nós fomos para a galeria de arte, e Xu mostrou ao Astra várias telas com pinturas famosas: a Mona Lisa, O Grito, de Munch, um Vermeer, um Seurat e várias outras. “Ni hao, Bibo!”, disse a voz.

vista de delft pintura oleo johannes vermeer inteligencia artificial

“Você está falando comigo em mandarim de novo”, disse Xu. “Tente falar comigo em inglês, por favor.”  

“Minhas desculpas, parece que eu entendi errado. Sim, responderei em inglês.” (Eu deveria saber melhor, mas poderia jurar que ouvi um tom de sarcasmo.)  

Era a minha vez. Xu me entregou o telefone.  

Tentei pegar o Astra de surpresa, mas ele não caiu na armadilha. Perguntei em que galeria de arte famosa estávamos, mas ele se recusou a arriscar um palpite. Perguntei por que havia identificado as pinturas como réplicas, e ele começou a se desculpar pelo erro (o Astra pede desculpas com frequência). Fui obrigado a interromper: “Não, não—você está certo, não é um erro. Você está certo ao identificar pinturas em telas como pinturas falsas.” Não pude deixar de me sentir um pouco mal: eu havia confundido um aplicativo que existe apenas para agradar.  

Quando funciona bem, o Astra é fascinante. A experiência de iniciar uma conversa com o seu telefone sobre qualquer coisa para a qual você aponte parece nova e fluida. Em uma coletiva de imprensa ontem, o Google DeepMind compartilhou um vídeo mostrando outros usos: ler um e-mail na tela do telefone para encontrar um código de porta (e depois lembrá-lo desse código mais tarde), apontar o telefone para um ônibus que está passando e perguntar para onde ele vai, questioná-lo sobre uma obra de arte pública enquanto você passa por ela. Este pode ser o aplicativo revolucionário da inteligência artificial generativa.  

E, no entanto, ainda há um longo caminho a percorrer antes que a maioria das pessoas tenha acesso a uma tecnologia como essa. Não há menção a uma data de lançamento. O Google DeepMind também compartilhou vídeos do Astra funcionando em um par de óculos inteligentes, mas essa tecnologia está ainda mais distante na lista de prioridades da empresa.  

Misturando as coisas

Por enquanto, pesquisadores de fora do Google DeepMind estão acompanhando de perto seu progresso. “A maneira como as coisas estão sendo combinadas é impressionante”, diz Maria Liakata, que trabalha com modelos de linguagem avançados na Queen Mary University of London e no Instituto Alan Turing. “Já é difícil o suficiente fazer raciocínio com linguagem, mas aqui você precisa integrar imagens e mais. Isso não é trivial.”  

Liakata também ficou impressionada com a capacidade do Astra de lembrar coisas que viu ou ouviu. Ela trabalha com o que chama de contexto de longo alcance, ajudando modelos a acompanhar informações com as quais já tiveram contato antes. “Isso é empolgante”, diz Liakata. “Mesmo fazer isso em uma única modalidade já é empolgante.”  

Mas ela admite que grande parte de sua avaliação é baseada em suposições. “O raciocínio multimodal é realmente de ponta”, diz ela. “Mas é muito difícil saber exatamente onde eles estão, porque não disseram muito sobre o que há na tecnologia em si.”  

Para Bodhisattwa Majumder, um pesquisador que trabalha com modelos multimodais e assistentes no Instituto Allen de IA, essa é uma preocupação central. “Nós absolutamente não sabemos como o Google está fazendo isso”, ele diz.  

Ele observa que, se o Google fosse um pouco mais transparente sobre o que está construindo, isso ajudaria os consumidores a entenderem as limitações da tecnologia que em breve poderão ter em mãos. “Eles precisam saber como esses sistemas funcionam”, diz ele. “Você quer que um usuário possa ver o que o sistema aprendeu sobre ele, corrigir erros ou remover coisas que deseja manter privadas.”  

Fonte:

MIT Technology Review - edição de dezembro de 2024 - o MIT Tech é o jornal periódico sobre tecnologia do Massachusetts Institute of Technology, ou Instituto de Tecnologia de Massachusetts (em português). É uma das instituições de ensino superior mais renomadas do mundo, localizada em Cambridge, Massachusetts, nos Estados Unidos.

Sobre o autor:

Will Douglas Heaven é editor sênior de IA na MIT Technology Review, onde cobre novas pesquisas, tendências emergentes e as pessoas por trás delas. Anteriormente, foi editor fundador do site Future Now, da BBC, que explora a interseção entre tecnologia e geopolítica, e editor-chefe de tecnologia na revista New Scientist. Ele possui um doutorado em ciência da computação pelo Imperial College London.

Artigo traduzido pelo ChatGPT