Google Gemini promete ser o grande adversário do GPT-4

Vou regressar ao assunto Gemini. Resumindo, a OpenAI foi, até agora, a empresa com maior destaque no que respeita às ferramentas mais populares de inteligência artificial, como o muito famoso chatGPT. Mas é o GPT-4, versão paga, que oferece um extraordinário novo mundo de oportunidades para quem quer desenvolver trabalho com estas ferramentas. Contudo, a concorrência aperta e, num repente, a Google DeepMind (que já tinha o Bard) apresentou o Gemini, a sua nova ferramenta que promete dar luta ao GPT-4.

Explicar o Gemini

A Google demonstrou toda uma família de modelos Gemini que aceitam qualquer combinação de texto (incluindo código), imagens, vídeo e áudio, produzindo texto e imagens como output.

Esta família Gemini terá quatro versões:

1. Gemini Ultra, disponível em 2024, teoricamente mais forte que o GPT-4 em métricas-chave.

2. Gemini Pro promete um desempenho comparável ao GPT-3.5 e sustenta o chatbot Bard do Google para inglês fora da Europa. Estará disponível para clientes corporativos que usam o serviço Vertex AI do Google Cloud a partir de 13 de dezembro e, posteriormente, no Generative AI Studio. Haverá dois modelos mais básicos para equipamentos Android.

3. Gemini Nano-1, com 1,8 bilião de parâmetros, e

4. Gemini Nano-2, com 3,25 biliões de parâmetros. Um modelo Gemini Nano executará tarefas como reconhecimento de fala, resumo, respostas automáticas, edição de imagem e aperfeiçoamento de vídeo no telefone Google Pixel 8 Pro.

Os modelos Gemini são baseados na arquitectura de transformadores e podem processar até 32.000 tokens (igual ao GPT-4, mas menos que os 128.000 tokens do GPT-4 Turbo e os 200.000 tokens do Claude 2). Processam texto, imagens, vídeo e áudio nativamente, ou seja, não traduzem áudio em texto para processamento ou usam um modelo separado para geração de imagem.

O modelo Ultra superou o GPT-4 e o GPT-4V em várias métricas seleccionadas, incluindo BIG-bench-Hard, DROP e MMLU. Também superou outros modelos na geração de código e problemas matemáticos.

O Gemini juntar-se-á ao GPT-4V e ao GPT-4 Turbo no processamento de entrada de texto, imagem, vídeo e áudio e, ao contrário dos GPTs, processa esses tipos de dados dentro do mesmo modelo. Os modelos Gemini Nano parecem, teoricamente, ser fortes adversários nesta corrida emergente para colocar modelos poderosos em dispositivos pequenos.

As demos e as dúvidas levantadas

No meio de todo o embate que a apresentação do Gemini provocou, há que esclarecer que as demos publicadas e que encantaram o mundo tecnológico são, como a maior parte das demonstrações, produtos puros de marketing, exagerando nos aspectos positivos e revolucionários e omitindo dados menos positivos. A espectacularidade vende, certo?

Apresentação do Gemini

Portanto, não devemos acreditar que os modelos Gemini já conversam connosco como a a IA Scarlett Johansson em Her, o famoso filme de Spike Jonze, como muito boa gente (mesmo ligada às tecnologias) escreveu ou gritou.

Mas que estamos mais próximo… lá isso é verdade!

Tags: Google Gemini