news 2026/5/8 10:48:53

使用 Gemini(又称 Nano Banana 和 Nano Banana Pro)生成图片

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用 Gemini(又称 Nano Banana 和 Nano Banana Pro)生成图片

图片生成(文本转图片)

from google import genai from google.genai import types from PIL import Image client = genai.Client() prompt = ( "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme" ) response = client.models.generate_content( model="gemini-2.5-flash-image", contents=[prompt], ) for part in response.parts: if part.text is not None: print(part.text) elif part.inline_data is not None: image = part.as_image() image.save("generated_image.png")

注意:python要提前安装Pillow

pip install Pillow

图片编辑(文字和图片转图片)

from google import genai from google.genai import types from PIL import Image client = genai.Client() prompt = ( "Create a picture of my cat eating a nano-banana in a " "fancy restaurant under the Gemini constellation", ) image = Image.open("/path/to/cat_image.png") response = client.models.generate_content( model="gemini-2.5-flash-image", contents=[prompt, image], ) for part in response.parts: if part.text is not None: print(part.text) elif part.inline_data is not None: image = part.as_image() image.save("generated_image.png")

Gemini 3 Pro Image (gemini-3-pro-image-preview) 是一款先进的图片生成和编辑模型,针对专业资源制作进行了优化。Gemini 1.5 Pro 旨在通过高级推理来应对最具挑战性的工作流程,擅长处理复杂的多轮创建和修改任务。

  • 高分辨率输出:内置 1K、2K 和 4K 视觉效果生成功能。
  • 高级文字渲染:能够为信息图表、菜单、图表和营销素材资源生成清晰易读的风格化文字。
  • 使用 Google 搜索进行接地:模型可以使用 Google 搜索作为工具来验证事实,并根据实时数据(例如当前天气地图、股票图表、近期活动)生成图像。
  • 思考模式:模型会利用“思考”过程来推理复杂的提示。它会生成临时“思维图像”(在后端可见,但不收费),以在生成最终的高质量输出之前优化构图。
  • 最多 14 张参考图片:您现在最多可以混合使用 14 张参考图片来生成最终图片。

最多可使用 14 张参考图片

借助 Gemini 3 Pro 预览版,您最多可以混合 14 张参考图片。这 14 张图片可以包含以下内容:

  • 最多 6 张高保真对象图片,用于包含在最终图片中
  • 最多 5 张人像照片,以保持角色一致性

from google import genai from google.genai import types from PIL import Image prompt = "An office group photo of these people, they are making funny faces." aspect_ratio = "5:4" # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9" resolution = "2K" # "1K", "2K", "4K" client = genai.Client() response = client.models.generate_content( model="gemini-3-pro-image-preview", contents=[ prompt, Image.open('person1.png'), Image.open('person2.png'), Image.open('person3.png'), Image.open('person4.png'), Image.open('person5.png'), ], config=types.GenerateContentConfig( response_modalities=['TEXT', 'IMAGE'], image_config=types.ImageConfig( aspect_ratio=aspect_ratio, image_size=resolution ), ) ) for part in response.parts: if part.text is not None: print(part.text) elif image:= part.as_image(): image.save("office.png")
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 21:56:06

影视配音新方式:GPT-SoVITS实现角色声音复刻

影像与声音的重构:用 GPT-SoVITS 实现角色语音的“数字永生” 在一部经典老片修复项目中,团队面临一个棘手问题:主角的关键对白因原始磁带损坏而缺失,而配音演员已年逾古稀、无法重新录制。传统补录方案几乎不可行——直到他们尝试…

作者头像 李华
网站建设 2026/5/2 8:07:03

19.1 UVM Phase流程详解?

🎯 一、两张图的关系:整体 vs 局部 图1 图2中run_phase的"放大镜" 图2 (总览)对应的图1 (详细分解)run_phase (一个大盒子)拆成12个小phase:pre_reset → reset → post_reset → pre_configure → … → post_shutdown 这就像是…

作者头像 李华
网站建设 2026/5/4 16:43:56

16、Linux 系统下的图像编辑指南

Linux 系统下的图像编辑指南 在 Linux 系统中,图像编辑是一项常见且实用的技能。无论是处理数码照片、绘制图形,还是进行图像格式转换,都有许多工具可供选择。本文将详细介绍一些常用的图像编辑工具和方法,帮助你在 Linux 系统中轻松完成各种图像编辑任务。 1. 图像转换工…

作者头像 李华
网站建设 2026/5/2 10:39:56

30、Linux 文件扩展名、目录设置及资源参考全解析

Linux 文件扩展名、目录设置及资源参考全解析 1. 常见文件扩展名 文件类型通常表明文件中数据的类型,一般分为文本、图像、音频或二进制。以下是常见文件扩展名及其对应的文件类型和格式说明: | 扩展名 | 文件类型 | 格式描述 | | ---- | ---- | ---- | | .aiff | 音频 …

作者头像 李华
网站建设 2026/5/4 8:01:53

AI原生应用领域思维树:助力业务增长

AI原生应用领域思维树:助力业务增长 关键词:思维树(Tree of Thoughts)、AI原生应用、大语言模型、业务增长、多路径推理 摘要:本文将带你走进「思维树(Tree of Thoughts, ToT)」这一前沿AI技术与「AI原生应用」的深度融合场景。我们将用“小明的智能奶茶店”故事贯穿全文…

作者头像 李华