Selecione seu Idioma

Gemini: o maior e mais capaz modelo de IA do Google
Gemini: o maior e mais capaz modelo de IA do Google

Uma nota do CEO do Google e da Alphabet, Sundar Pichai:

Cada mudança tecnológica é uma oportunidade para promover a descoberta científica, acelerar o progresso humano e melhorar vidas. Acredito que a transição que estamos vendo agora com a IA será a mais profunda de nossas vidas, muito maior do que a mudança para dispositivos móveis ou para a web antes dela. A IA tem o potencial de criar oportunidades — do quotidiano ao extraordinário — para pessoas em todo o mundo. Trará novas ondas de inovação e progresso econômico e impulsionará o conhecimento, a aprendizagem, a criatividade e a produtividade numa escala nunca vista antes.

É isso que me entusiasma: a oportunidade de tornar a IA útil para todos, em qualquer lugar do mundo.

Após quase oito anos de nossa jornada como uma empresa que prioriza a IA, o ritmo do progresso está apenas acelerando: milhões de pessoas estão agora usando IA generativa em nossos produtos para fazer coisas que não conseguiam há um ano, desde encontrar respostas até soluções mais complexas. questões sobre o uso de novas ferramentas para colaborar e criar. Ao mesmo tempo, os desenvolvedores estão usando nossos modelos e infraestrutura para criar novas aplicações generativas de IA, e startups e empresas em todo o mundo estão crescendo com nossas ferramentas de IA.

Este é um impulso incrível e, no entanto, estamos apenas começando a arranhar a superfície do que é possível.

Estamos abordando este trabalho com ousadia e responsabilidade. Isso significa sermos ambiciosos na nossa investigação e procurarmos capacidades que trarão enormes benefícios às pessoas e à sociedade, ao mesmo tempo que construímos salvaguardas e trabalhamos em colaboração com governos e especialistas para enfrentar os riscos à medida que a IA se torna mais capaz. E continuamos a investir nas melhores ferramentas, modelos de base e infraestrutura e a trazê-los para os nossos produtos e para outros, guiados pelos nossos Princípios de IA.

Agora, estamos dando o próximo passo em nossa jornada com o Gemini, nosso modelo mais capaz e geral até agora, com desempenho de última geração em muitos benchmarks líderes. Nossa primeira versão, Gemini 1.0, é otimizada para diferentes tamanhos: Ultra, Pro e Nano. Estes são os primeiros modelos da era Gemini e a primeira concretização da visão que tínhamos quando formamos o Google DeepMind no início deste ano. Esta nova era de modelos representa um dos maiores esforços científicos e de engenharia que empreendemos como empresa. Estou genuinamente animado com o que está por vir e com as oportunidades que Gêmeos abrirá para pessoas em todos os lugares.

–Sundar

Apresentando Gemini

Por Demis Hassabis, CEO e cofundador do Google DeepMind, em nome da equipe Gemini

A IA tem sido o foco do trabalho da minha vida, assim como de muitos dos meus colegas de pesquisa. Desde que programei IA para jogos de computador, quando era adolescente, e ao longo dos meus anos como pesquisador de neurociência tentando entender o funcionamento do cérebro, sempre acreditei que, se pudéssemos construir máquinas mais inteligentes, poderíamos aproveitá-las para beneficiar a humanidade de maneiras incríveis. caminhos.

Essa promessa de um mundo capacitado de forma responsável pela IA continua a impulsionar nosso trabalho no Google DeepMind. Há muito tempo que queríamos construir uma nova geração de modelos de IA, inspirados na forma como as pessoas compreendem e interagem com o mundo. IA que parece menos um software inteligente e mais algo útil e intuitivo – um ajudante ou assistente especializado.

Hoje, estamos um passo mais perto dessa visão ao apresentarmos o Gemini, o modelo mais capaz e geral que já construímos.

Gemini é o resultado de esforços colaborativos em grande escala entre equipes do Google, incluindo nossos colegas do Google Research. Foi construído desde o início para ser multimodal, o que significa que pode generalizar e compreender, operar e combinar diferentes tipos de informação, incluindo texto, código, áudio, imagem e vídeo.

Gemini também é nosso modelo mais flexível até agora — capaz de funcionar com eficiência em tudo, desde data centers até dispositivos móveis. Seus recursos de última geração melhorarão significativamente a forma como os desenvolvedores e clientes empresariais constroem e escalam com IA.

Otimizamos o Gemini 1.0, nossa primeira versão, para três tamanhos diferentes:

Gemini Ultra — nosso maior e mais capaz modelo para tarefas altamente complexas.
Gemini Pro — nosso melhor modelo para escalar uma ampla gama de tarefas.
Gemini Nano — nosso modelo mais eficiente para tarefas no dispositivo.

Desempenho de última geração

Testamos rigorosamente nossos modelos Gemini e avaliamos seu desempenho em uma ampla variedade de tarefas. Da imagem natural, compreensão de áudio e vídeo ao raciocínio matemático, o desempenho do Gemini Ultra excede os resultados atuais de última geração em 30 dos 32 benchmarks acadêmicos amplamente utilizados na pesquisa e desenvolvimento de modelos de linguagem grande (LLM).

Com uma pontuação de 90,0%, o Gemini Ultra é o primeiro modelo a superar os especialistas humanos em MMLU (compreensão massiva de linguagem multitarefa), que usa uma combinação de 57 disciplinas como matemática, física, história, direito, medicina e ética para testar o mundo. conhecimento e capacidade de resolução de problemas.

Nossa nova abordagem de benchmark para MMLU permite que Gemini use seus recursos de raciocínio para pensar com mais cuidado antes de responder perguntas difíceis, levando a melhorias significativas em relação ao uso apenas de sua primeira impressão.

O Gemini Ultra também alcança uma pontuação de última geração de 59,4% no novo benchmark MMMU, que consiste em tarefas multimodais abrangendo diferentes domínios que exigem raciocínio deliberado.

Com os benchmarks de imagem que testamos, o Gemini Ultra superou os modelos de última geração anteriores, sem a ajuda de sistemas de reconhecimento de caracteres de objeto (OCR) que extraem texto de imagens para processamento posterior. Estas referências destacam a multimodalidade nativa de Gémeos e indicam sinais precoces das capacidades de raciocínio mais complexas de Gémeos.

Veja mais detalhes em nosso relatório técnico Gemini.

Capacidades de próxima geração

Até agora, a abordagem padrão para a criação de modelos multimodais envolvia treinar componentes separados para diferentes modalidades e depois juntá-los para imitar aproximadamente algumas dessas funcionalidades. Às vezes, esses modelos podem ser bons na execução de determinadas tarefas, como descrever imagens, mas enfrentam dificuldades com raciocínios mais conceituais e complexos.

Projetamos o Gemini para ser nativamente multimodal, pré-treinado desde o início em diferentes modalidades. Em seguida, aperfeiçoámo-lo com dados multimodais adicionais para refinar ainda mais a sua eficácia. Isso ajuda a Gemini a compreender e raciocinar perfeitamente sobre todos os tipos de informações desde o início, muito melhor do que os modelos multimodais existentes – e suas capacidades são de última geração em quase todos os domínios.

Saiba mais sobre os recursos do Gemini e veja como funciona.

Raciocínio sofisticado

Os sofisticados recursos de raciocínio multimodal do Gemini 1.0 podem ajudar a compreender informações escritas e visuais complexas. Isso o torna excepcionalmente hábil em descobrir conhecimentos que podem ser difíceis de discernir em meio a grandes quantidades de dados.

A sua notável capacidade de extrair insights de centenas de milhares de documentos através da leitura, filtragem e compreensão de informações ajudará a proporcionar novos avanços a velocidades digitais em muitos campos, da ciência às finanças.

Compreender texto, imagens, áudio e muito mais

O Gemini 1.0 foi treinado para reconhecer e compreender textos, imagens, áudio e muito mais ao mesmo tempo, para compreender melhor informações diferenciadas e poder responder perguntas relacionadas a tópicos complicados. Isso o torna especialmente bom para explicar o raciocínio em assuntos complexos como matemática e física.

Codificação avançada

Nossa primeira versão do Gemini pode compreender, explicar e gerar código de alta qualidade nas linguagens de programação mais populares do mundo, como Python, Java, C++ e Go. Sua capacidade de trabalhar em vários idiomas e raciocinar sobre informações complexas o torna um dos principais modelos básicos de codificação do mundo.

Gemini Ultra se destaca em vários benchmarks de codificação, incluindo HumanEval, um importante padrão do setor para avaliar o desempenho em tarefas de codificação, e Natural2Code, nosso conjunto de dados interno mantido, que usa fontes geradas pelo autor em vez de informações baseadas na web.

Gemini também pode ser usado como mecanismo para sistemas de codificação mais avançados. Há dois anos apresentamos o AlphaCode, o primeiro sistema de geração de código de IA a atingir um nível competitivo de desempenho em competições de programação.

Usando uma versão especializada do Gemini, criamos um sistema de geração de código mais avançado, o AlphaCode 2, que se destaca na solução de problemas de programação competitivos que vão além da codificação e envolvem matemática complexa e ciência da computação teórica.

Quando avaliado na mesma plataforma do AlphaCode original, o AlphaCode 2 apresenta grandes melhorias, resolvendo quase o dobro de problemas, e estimamos que seu desempenho seja melhor que 85% dos participantes da competição – acima dos quase 50% do AlphaCode. Quando os programadores colaboram com o AlphaCode 2 definindo certas propriedades a serem seguidas pelos exemplos de código, ele tem um desempenho ainda melhor.

Estamos entusiasmados com o fato de os programadores usarem cada vez mais modelos de IA altamente capazes como ferramentas colaborativas que podem ajudá-los a raciocinar sobre os problemas, propor designs de código e ajudar na implementação – para que possam lançar aplicativos e projetar serviços melhores com mais rapidez.

Veja mais detalhes em nosso relatório técnico AlphaCode 2.

Mais confiável, escalável e eficiente

Treinamos o Gemini 1.0 em escala em nossa infraestrutura otimizada para IA usando unidades de processamento de tensor (TPUs) v4 e v5e projetadas internamente pelo Google. E nós o projetamos para ser nosso modelo mais confiável e escalável para treinamento e mais eficiente para servir.

Nas TPUs, o Gemini funciona significativamente mais rápido do que os modelos anteriores, menores e com menos capacidade. Esses aceleradores de IA personalizados estão no centro dos produtos baseados em IA do Google que atendem bilhões de usuários como Pesquisa, YouTube, Gmail, Google Maps, Google Play e Android. Eles também permitiram que empresas em todo o mundo treinassem modelos de IA em grande escala de maneira econômica.

Hoje anunciamos o sistema TPU mais poderoso, eficiente e escalável até o momento, o Cloud TPU v5p, projetado para treinar modelos de IA de ponta. Esta TPU de próxima geração acelerará o desenvolvimento da Gemini e ajudará os desenvolvedores e clientes corporativos a treinar modelos de IA generativos em grande escala com mais rapidez, permitindo que novos produtos e recursos cheguem aos clientes mais rapidamente.

Construído com responsabilidade e segurança no centro

No Google, temos o compromisso de promover uma IA ousada e responsável em tudo o que fazemos. Com base nos Princípios de IA do Google e nas políticas de segurança robustas de nossos produtos, estamos adicionando novas proteções para dar conta dos recursos multimodais do Gemini. Em cada estágio de desenvolvimento, consideramos riscos potenciais e trabalhamos para testá-los e mitigá-los.

Gemini tem as avaliações de segurança mais abrangentes de qualquer modelo de IA do Google até o momento, inclusive quanto a preconceitos e toxicidade. Conduzimos novas pesquisas em áreas de risco potencial, como ofensa cibernética, persuasão e autonomia, e aplicamos as melhores técnicas de testes adversários do Google Research para ajudar a identificar problemas críticos de segurança antes da implantação do Gemini.

Para identificar pontos cegos na nossa abordagem de avaliação interna, estamos a trabalhar com um grupo diversificado de especialistas e parceiros externos para testar a resistência dos nossos modelos numa série de questões.

Para diagnosticar problemas de segurança de conteúdo durante as fases de treinamento do Gemini e garantir que seus resultados sigam nossas políticas, estamos usando benchmarks como Real Toxicity Prompts, um conjunto de 100.000 prompts com vários graus de toxicidade extraídos da web, desenvolvidos por especialistas do Allen Institute para IA. Mais detalhes sobre este trabalho serão divulgados em breve.

Para limitar os danos, construímos classificadores de segurança dedicados para identificar, rotular e classificar conteúdos que envolvem violência ou estereótipos negativos, por exemplo. Combinada com filtros robustos, esta abordagem em camadas foi projetada para tornar o Gemini mais seguro e inclusivo para todos. Além disso, continuamos a abordar desafios conhecidos para modelos como factualidade, fundamentação, atribuição e corroboração.

A responsabilidade e a segurança serão sempre fundamentais para o desenvolvimento e implementação dos nossos modelos. Este é um compromisso de longo prazo que requer construção colaborativa, por isso estamos fazendo parceria com a indústria e com o ecossistema mais amplo na definição de melhores práticas e no estabelecimento de padrões de referência de segurança por meio de organizações como MLCommons, o Frontier Model Forum e seu AI Safety Fund, e nosso Secure AI Framework (SAIF), que foi projetado para ajudar a mitigar riscos de segurança específicos para sistemas de IA nos setores público e privado. Continuaremos a fazer parcerias com investigadores, governos e grupos da sociedade civil em todo o mundo à medida que desenvolvemos o Gemini.
Disponibilizando Gêmeos para o mundo

O Gemini 1.0 agora está sendo lançado em uma variedade de produtos e plataformas:

Gemini Pro em produtos do Google

Estamos levando o Gemini a bilhões de pessoas por meio dos produtos do Google.

A partir de hoje, Bard usará uma versão aprimorada do Gemini Pro para raciocínio, planejamento, compreensão mais avançados e muito mais. Esta é a maior atualização do Bard desde seu lançamento. Estará disponível em inglês em mais de 170 países e territórios, e planejamos expandir para diferentes modalidades e oferecer suporte a novos idiomas e locais em um futuro próximo.

Também estamos trazendo o Gemini para o Pixel. O Pixel 8 Pro é o primeiro smartphone projetado para rodar o Gemini Nano, que está potencializando novos recursos como o Summarize no aplicativo Recorder e o Smart Reply no Gboard, começando com o WhatsApp – com mais aplicativos de mensagens chegando no próximo ano.

Nos próximos meses, o Gemini estará disponível em mais produtos e serviços como Pesquisa, Anúncios, Chrome e Duet AI.

Já estamos começando a experimentar o Gemini in Search, que torna nossa Search Generative Experience (SGE) mais rápida para os usuários, com uma redução de 40% na latência em inglês nos EUA, além de melhorias na qualidade.

Construindo com Gemini

A partir de 13 de dezembro, desenvolvedores e clientes corporativos poderão acessar o Gemini Pro por meio da API Gemini no Google AI Studio ou no Google Cloud Vertex AI.

O Google AI Studio é uma ferramenta de desenvolvedor gratuita baseada na Web para criar protótipos e lançar aplicativos rapidamente com uma chave de API. Quando chegar a hora de uma plataforma de IA totalmente gerenciada, a Vertex AI permite a personalização do Gemini com controle total de dados e se beneficia de recursos adicionais do Google Cloud para segurança empresarial, proteção, privacidade e governança e conformidade de dados.

Os desenvolvedores Android também poderão desenvolver com Gemini Nano, nosso modelo mais eficiente para tarefas no dispositivo, por meio do AICore, um novo recurso de sistema disponível no Android 14, começando nos dispositivos Pixel 8 Pro. Inscreva-se para uma prévia do AICore.

Gemini Ultra em breve

Para o Gemini Ultra, estamos atualmente concluindo extensas verificações de confiança e segurança, incluindo a formação de equipes externas de confiança, e refinando ainda mais o modelo usando ajuste fino e aprendizagem por reforço a partir de feedback humano (RLHF) antes de torná-lo amplamente disponível.

Como parte desse processo, disponibilizaremos o Gemini Ultra para clientes, desenvolvedores, parceiros e especialistas em segurança e responsabilidade selecionados para experimentação e feedback iniciais antes de lançá-lo para desenvolvedores e clientes corporativos no início do próximo ano.

No início do próximo ano, também lançaremos o Bard Advanced, uma nova experiência de IA de ponta que lhe dará acesso aos nossos melhores modelos e capacidades, começando pelo Gemini Ultra.

A era Gemini: possibilitando um futuro de inovação

Este é um marco significativo no desenvolvimento da IA e o início de uma nova era para nós no Google, à medida que continuamos a inovar rapidamente e a desenvolver de forma responsável as capacidades dos nossos modelos.

Fizemos grandes progressos no Gemini até agora e estamos trabalhando duro para ampliar ainda mais seus recursos para versões futuras, incluindo avanços no planejamento e na memória, e aumentando a janela de contexto para processar ainda mais informações para fornecer respostas melhores.

Estamos entusiasmados com as incríveis possibilidades de um mundo capacitado de forma responsável pela IA — um futuro de inovação que aumentará a criatividade, ampliará o conhecimento, fará avançar a ciência e transformará a forma como milhares de milhões de pessoas vivem e trabalham em todo o mundo.

Fonte:

Traduzido para o Português pela Redação sustentabilidades

CEO do Google e da Alphabet, Sundar Pichai
blog.google

 

Copyright © 2009 - 2024 Sustentabilidades - Todos os direitos reservados - All rights reserved.