Google Nano-Banana 官方中文提示词指南

Gemini Nano-Banana 是什么？

Google Gemini Nano-Banana（也称为 Gemini 2.5 Flash Image）是 Google 最新发布的多模态大语言模型，专为生成和编辑高质量图像而设计。它结合了先进的文本理解和图像处理能力，使用户能够通过对话式界面创建、修改和迭代视觉内容。Gemini Nano-Banana 支持多种输入模式，包括纯文本提示、图像加文本提示以及多图像输入，提供了前所未有的灵活性和控制力。

Gemini Nano-Banana 的核心功能

Gemini 能够以对话的方式生成和处理图像。您可以使用文本、图像或两者的组合来提示 Gemini，从而以前所未有的控制力创建、编辑和迭代视觉效果：

文本转图像：从简单或复杂的文本描述生成高质量的图像。
图像+文本转图像（编辑）：提供图像并使用文本提示来添加、删除或修改元素、更改样式或调整颜色分级。
多图像到图像（构图和风格转换）：使用多张输入图像来组成一个新场景或将风格从一张图像转换到另一张图像。
迭代改进：通过多次对话逐步改进您的图像，进行微调直至完美。
高保真文本渲染：准确生成包含清晰且位置合适的文本的图像，非常适合徽标、图表和海报。

文本转图像

Prompt: Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme

图像+文本转图像（编辑）

Prompt: Create a picture of my cat eating a nano-banana in a fancy restaurant under the Gemini constellation

Gemini 还支持以下其他图像交互模式：

文本转图像与文本（交错输出）：生成带有相关文字的图像。比如："生成一份海鲜饭的插画食谱。"
图像 + 文本 → 图像与文本（交错输出）：利用输入的图像和文字来生成新的相关图像和文字。比如：(输入一张带家具的房间图片)"还有哪些颜色的沙发适合我的空间？你能更新这张图片吗？"
多轮图像编辑（对话式）：在对话中持续生成和编辑图像。比如：[上传一张蓝色汽车的图片]，"把这辆车改成敞篷。", "现在把颜色改成黄色。"

提示词模版

那么要怎么用好Gemini 2.5 Flash Image的生图能力呢？最核心的是要掌握一个基本原则：

描述场景，而非简单罗列关键词。该模型的核心优势在于其深度语言理解能力。用叙述性、描述性的段落进行提示，几乎总能比零散的词汇列表生成更优质、更具连贯性的图像。

官方也给出了图像生成和编辑的不同场景下的提示词指南。首先来看文生图的几个场景：

生成图像的提示

1. 照片级真实感场景

若想生成逼真的图像，可以使用摄影术语。提及相机角度、镜头类型、光照效果以及细节描写，这些都有助于引导模型生成更具照片真实感的结果。

A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation.

这是一张逼真的特写肖像，描绘了一位年迈的日本陶艺家，他有着被阳光侵蚀的深深皱纹，脸上挂着温暖而睿智的微笑。他正仔细地检查着一只刚刚上釉的茶碗。照片背景是他那质朴而阳光充足的工作室。柔和的金色阳光透过窗户照射进来，照亮了场景，突显了陶土的细腻质感。这张照片使用85毫米人像镜头拍摄，背景柔和而虚化（散景）。整体氛围宁静而精湛。竖拍人像。

2. 风格化的插画和贴纸

要创建贴纸、图标或资产，请明确说明样式并要求透明背景。

A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.

一张可爱的贴纸，描绘了一只快乐的红熊猫，戴着一顶小小的竹帽。它正在啃食一片绿色的竹叶。设计采用了粗线条、简洁的平涂风格和鲜艳的色彩搭配。背景必须是白色

3.图片中的准确文字

Gemini 擅长渲染文本。文本、字体样式（描述性）以及整体设计都非常清晰。

Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a a coffee bean seamlessly integrated with the text. The color scheme is black and white.

为一家名为“The Daily Grind”的咖啡店创建一个现代、极简主义的标志。文字应采用干净、粗体的无衬线字体。设计应包含一个简单、风格化的咖啡豆图标，与文字无缝结合。配色方案为黑白色。

111

4.产品模型和商业摄影

非常适合为电子商务、广告或品牌创建清晰、专业的产品照片。

A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.

这张高分辨率、工作室灯光下的产品照片，展现了一款极简主义风格的哑光黑色陶瓷咖啡杯，摆放在抛光混凝土表面上。灯光采用三点式柔光箱设置，旨在营造柔和、漫射的高光，并消除刺眼的阴影。相机角度略微向上倾斜45度，以展现其简洁的线条。画面极其逼真，清晰地聚焦于咖啡中升腾的蒸汽。方形图像。

5.极简主义与负空间设计

非常适合为网站、演示文稿或营销材料创建将叠加文本的背景。

A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.

一张极简主义构图，画面右下角放置了一片单独的、精致的红枫叶。背景是一个广阔、空旷的米白色画布，营造出大量的负空间以供文本使用。光线柔和，从左上方漫射而来。方形图像。

6.连环画（漫画面板/故事板）

基于角色一致性和场景描述来创建用于视觉叙事的面板。

A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads "The city was a tough place to keep secrets." The lighting is harsh, creating a dramatic, somber mood. Landscape.

一幅单独的漫画面板，采用粗犷、黑白对比强烈的黑色墨水绘制的黑色艺术风格。前景中，一位穿着风衣的侦探站在闪烁的路灯下，雨水浸湿了他的肩膀。背景中，一家荒凉酒吧的霓虹灯招牌映在水坑中。顶部有一个标题框，写着“这个城市是个难以保守秘密的地方。”光线刺眼，营造出戏剧性、阴郁的氛围。横向。

编辑图像的提示

这些示例展示了如何在文本提示旁边提供图像以进行编辑、合成和样式转换。

1.添加和删除元素

提供图片并描述您的修改。模型将与原始图片的风格、光线和视角相匹配。

"Using the provided image of my cat, please add a small, knitted wizard hat on its head. Make it look like it's sitting comfortably and matches the soft lighting of the photo."

“使用我提供的猫咪图片，请在它的头上添加一顶小巧的针织巫师帽。让它看起来舒适地戴着，并与照片的柔和光线相匹配。”

2.修复（语义掩蔽）

以对话方式定义“蒙版”来编辑图像的特定部分，同时保持其余部分不变。

"Using the provided image of a living room, change only the blue sofa to be a vintage, brown leather chesterfield sofa. Keep the rest of the room, including the pillows on the sofa and the lighting, unchanged."

“使用我提供的客厅图片，仅将蓝色沙发更换为复古的棕色皮质切斯特菲尔德沙发。保持房间的其他部分不变，包括沙发上的枕头和灯光。”

3.风格迁移

提供一张图片并要求模特以不同的艺术风格重现其内容。

"Transform the provided photograph of a modern city street at night into the artistic style of Vincent van Gogh's 'Starry Night'. Preserve the original composition of buildings and cars, but render all elements with swirling, impasto brushstrokes and a dramatic palette of deep blues and bright yellows."

“将我提供的现代城市街道夜景照片转换为文森特·梵高的《星夜》艺术风格。保留建筑和汽车的原始构图，但用旋转的厚涂笔触和深蓝色与明亮黄色的戏剧性色调来渲染所有元素。”

4.高级构图：组合多幅图像

提供多张图片作为背景，从而创建一个新的合成场景。这非常适合产品模型或创意拼贴。

"Create a professional e-commerce fashion photo. Take the blue floral dress from the first image and let the woman from the second image wear it. Generate a realistic, full-body shot of the woman wearing the dress, with the lighting and shadows adjusted to match the outdoor environment."

“创建一张专业的电子商务时尚照片。将第一张图片中的蓝色花卉连衣裙让第二张图片中的女性穿上。生成一张女性穿着连衣裙的逼真全身照，并调整光线和阴影以匹配户外环境。”

5.高保真细节保存

为了确保在编辑过程中保留关键细节（如面部或徽标），请在编辑请求中详细描述它们。

"Take the first image of the woman with brown hair, blue eyes, and a neutral expression. Add the logo from the second image onto her black t-shirt. Ensure the woman's face and features remain completely unchanged. The logo should look like it's naturally printed on the fabric, following the folds of the shirt."

“取第一张棕色头发、蓝色眼睛、表情中性的女性图片。在她的黑色T恤上添加第二张图片中的徽标。确保女性的面部和特征完全不变。徽标应看起来自然地印在织物上，符合衬衫的褶皱。”

最佳实践

为了使您的结果从优秀变得更卓越，请将这些专业策略融入您的工作流程中。

细节要精准：提供的细节越多，控制力就越强。不要用“奇幻盔甲”来描述，而是要描述成：“华丽的精灵板甲，蚀刻着银叶图案，高领，肩甲形状像猎鹰的翅膀。”
提供背景和意图：解释图片的用途。模型对背景的理解会影响最终输出。例如，“为高端简约护肤品牌设计一个标志”会比“设计一个标志”产生更好的结果。
迭代和改进：不要指望第一次尝试就能拍出完美的照片。利用模特的对话能力进行细微的修改。之后可以提出一些建议，例如：“效果很好，但是灯光可以再暖一点吗？”或者“保持一切不变，但将人物的表情调整得更严肃一些。”
使用分步说明：对于包含众多元素的复杂场景，请将提示分解为几个步骤。“首先，创建一个黎明时分宁静、雾气弥漫的森林背景。然后，在前景中添加一个长满青苔的古老石坛。最后，在祭坛上放置一把闪闪发光的剑。”
使用“语义否定提示”：不要说“没有汽车”，而是积极地描述所需的场景：“一条空旷、荒凉的街道，没有交通迹象。”
控制相机：使用摄影和电影语言来控制构图。例如wide-angle shot，，，。macro shotlow-angle perspective

限制

为了获得最佳性能，请使用以下语言：EN、es-MX、ja-JP、zh-CN、hi-IN。
图像生成不支持音频或视频输入。
模型并不总是遵循用户明确要求的确切图像输出数量。
该模型在最多输入 3 张图像的情况下效果最佳。
当为图像生成文本时，如果您先生成文本，然后要求提供带有文本的图像，Gemini 的效果会最佳。
目前，EEA、CH 和 UK 不支持上传儿童图像。
所有生成的图像都包含SynthID 水印。