Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo na cobertura da IA ​​da frente industrial. Saber mais


Hoje, o mais recente modelo de código aberto do Google, Gemma 3, não é a única grande notícia da subsidiária do alfabeto.

Não, de fato, pode ter roubado atenção Flash com a imagem nativa Gemini 2.0 do GoogleUm novo modelo de teste está disponível gratuitamente para usuários da API do Google AI Studio e Gemini do Google.

Uma grande empresa de tecnologia americana enviou uma geração multi -filmagem diretamente aos consumidores em um modelo. A maioria das outras ferramentas de criação de imagens de IA é combinada com os modelos de spread (imagem específica) modelos de linguagem (LLM) e uma pequena descrição entre dois modelos para obter uma imagem ouvida em uma linha de texto.

Pelo contrário, os tipos de usuários flash Gemini 2.0 podem criar imagens perfeitamente no mesmo padrão que ouvir o texto, permite mais precisão e mais recursos – mais sinais iniciais.

O Gemini 2.0 Flash, lançado pela primeira vez em dezembro de 2024, mas sem a capacidade de criar uma imagem própria para os usuários, cria imagens com o texto da entrada multimodal, racional e natural.

A versão de teste recém-disponível, Gemini -2.0-Flash-EXP, ajuda a desenvolver os desenvolvedores, enriquecer as imagens através do diálogo e criar cenas extensas com base no conhecimento mundial.

Gemini 2.0 Como melhorar as imagens criadas por flash a-i-i

UM Postagem do blog de desenvolvedor de frente para o desenvolvedor Publicado hoje cedo, o Google ilustra muitas habilidades importantes Gemini 2.0 Flash Criação de imagem nativa:

Histórias de texto e imagem: Os desenvolvedores podem usar o Gemini 2.0 Flash, que pode criar histórias de ilustração ao manter a consistência em gráficos e configurações. Esse modelo responde ao feedback, permite que os usuários ajustem a história ou alterem o estilo de arte.

Edição de imagem de conversa: AI suporta Edição de várias turnosIsso significa que os usuários podem reativar uma imagem fornecendo instruções através de estímulos de linguagem natural. Esse recurso implementa a colaboração real e o estudo criativo.

Criação de imagem baseada no conhecimento mundial: Ao contrário de muitos modelos de fabricação de filmes, o Gemini 2.0 Flash melhora amplas habilidades racionais para criar as imagens mais relevantes ambientais. Por exemplo, ele pode explicar as receitas com cenas detalhadas que combinam produtos do mundo real e métodos de cozinha.

Renderização de texto atualizada: Muitos modelos de imagem de IA lutam para criar um texto claro nas imagens, geralmente formando ortografia ou letras corrompidas. O Google relata isso O flash Gemini 2.0 superará os principais concorrentes É muito útil para renderização de texto, anúncios, postagens de mídia social e convites.

Exemplos iniciais mostram energia e promessa incríveis

Os Googlers e alguns usuários de AI Power X, para compartilhar exemplos de novas habilidades de criação de imagens e edição fornecidos pelo teste flash Gemini 2.0, estão sem dúvida impressionados.

Pesquisador do Google Deep Mind Robert Riyachi Como a amostra pode fazer imagens no estilo pixel-Art e, em seguida, criar novas no mesmo estilo com base na audição de texto.

Notícias do catálogo de testes de conta de notícias da AI O experimento flash Gemini 2.0 foi relatado no lançamento de recursos multimodais, indicando que o Google foi o primeiro maior laboratório a classificar esse recurso.

Usuário @Agaisb_ uma cavidade “anjo” Em um exemplo obrigatório, o Gemini 2.0 revela os recursos de edição de imagem rápida e precisa do flash – como a imagem dos crores nos segundos da “garoa de chocolate” foi alterada.

A mídia teoricamente Sem regeneração completa, essa crescente indústria de edição de filmes apontou que a indústria da IA ​​é uma longa e um ano -ano, o Gemini 2.0 Flash prova o quão fácil é levantar uma imagem de Gemini 2.0 Flash para editar uma imagem.

Formulários Google Ai Yuduber Bila O modelo mostra como as imagens em preto e branco são coloridas, indicando possíveis aplicativos históricos de reconstrução ou desenvolvimento criativo.

Essas reações iniciais vêem os desenvolvedores e entusiastas da IA ​​The Gemini 2.0 Flash of Re-Design, Creative Storytelling e AI-Help Visual Editing.

O lançamento do Swift Opanaya contradiz o GPT-4 Oud, que visualizou suas próprias habilidades de criação de imagens em maio de 2024 a um ano atrás, mas ainda não publicou publicamente esse recurso que o Google usa a oportunidade de orientar na IA multimedida.

Como usuário @Satgpt21 aka “chris” Apontado em x, essa é a capacidade de “LOS (d) ano + frente” neste caso por razões desconhecidas. O usuário convidou qualquer pessoa do Open para comentar o porquê.

Meus próprios testes revelaram algumas limitações com a taxa de proporção – isso parecia estar preso em 1: 1, apesar de ter sido solicitada no texto para alterá -lo -, mas foi capaz de alterar a direção do alfabeto em uma imagem em alguns segundos.

Enquanto a maior parte do debate inicial em torno da imagem do Gemini 2.0 Flash, o impacto de seus impactos nas equipes da empresa, desenvolvedores e arquitetos de software é significativo, pois a maior parte do debate inicial em torno do debate circundante.

Nível de design e marketing de corredor de IA: Para grupos de marketing e criadores de conteúdo, o Gemini 2.0 Flash pode atuar como uma alternativa de baixo custo ao trabalho tradicional de design gráfico, que automatiza a criação de conteúdo de marca, anúncios e visualizações de mídia social. Como suporta o organismo de texto dentro das imagens, ele pode regular a criação de publicidade, o design de embalagens e os gráficos de publicidade, o que reduzirá a confiabilidade da edição manual.

Ferramentas de desenvolvedor aprimoradas e local de trabalho de IA: CTOs, CIOs e engenheiros de software facilitarão a integração de IA em aplicativos e serviços de criação de imagens nativas. Ao combinar lançamentos de texto e imagem em um único modelo, o Gemini 2.0 permite que os desenvolvedores do Flash criem:

  • Assistentes de design de AI que criam ativos de UI/UX Mokab ou App.
  • Ferramentas automáticas de documentação que ilustram idéias em tempo real.
  • Dinâmico para mídia e educação, sites de narrativa orientados para a IA.

Como esse tipo de diálogo suporta edição de filmes, as equipes podem criar interfaces orientadas a IA, onde os usuários enriquecem os designs por meio de conversas naturais, reduzindo a entrada de usuários técnicos.

Novas possibilidades para software de produtividade orientado a IA: Para grupos de empresas que criam ferramentas de produtividade de execução de IA, você pode oferecer suporte a aplicativos como Gemini 2.0 Flash:

  • Slides criados por AI e formação automática de apresentação.
  • Documento legal e comercial Profissional por gráficos de informações criadas pela AI.
  • A visualização do comércio eletrônico cria zombadores de produtos com base nas descrições.

Como encomendar e testar esta habilidade

Os desenvolvedores podem começar a testar os recursos de imagem do Gemini 2.0 Flash usando a API Gemini. Na mesma resposta, o Google fornece uma solicitação de API de amostra para provar como os desenvolvedores podem criar histórias explicadas com texto e imagens:

from google import genai  
from google.genai import types  

client = genai.Client(api_key="GEMINI_API_KEY")  

response = client.models.generate_content(  
    model="gemini-2.0-flash-exp",  
    contents=(  
        "Generate a story about a cute baby turtle in a 3D digital art style. "  
        "For each scene, generate an image."  
    ),  
    config=types.GenerateContentConfig(  
        response_modalities=("Text", "Image")  
    ),  
)

Para simplificar a criação de filmagens de IA, o Gemini 2.0 fornece novas maneiras de criar conteúdo para desenvolvedores de flash, projetar aplicativos AI-Help e testar com a narrativa visual.


Link da fonte