Documentation Index
Fetch the complete documentation index at: https://openclaw.zhcndoc.com/llms.txt
Use this file to discover all available pages before exploring further.
image_generate 工具允许 agent 使用你配置的提供方来创建和编辑图像。生成的图像会作为媒体附件自动发送到 agent 的回复中。
只有在至少有一个图像生成提供方可用时,该工具才会显示。如果你在 agent 的工具中看不到
image_generate,请配置 agents.defaults.imageGenerationModel,设置提供方 API 密钥,或者使用 OpenAI Codex OAuth 登录。快速开始
配置认证
为至少一个提供方设置 API 密钥(例如
OPENAI_API_KEY、
GEMINI_API_KEY、OPENROUTER_API_KEY)或使用 OpenAI Codex OAuth 登录。选择默认模型(可选)
openai/gpt-image-2 模型引用。当配置了
openai-codex OAuth 配置文件时,OpenClaw 会通过该 OAuth 配置文件路由图像
请求,而不是先尝试 OPENAI_API_KEY。显式的 models.providers.openai 配置(API 密钥、
自定义/Azure base URL)会改为直接使用 OpenAI Images API 路由。常用路由
| 目标 | 模型引用 | 认证 |
|---|---|---|
| 使用 API 计费进行 OpenAI 图像生成 | openai/gpt-image-2 | OPENAI_API_KEY |
| 使用 Codex 订阅认证进行 OpenAI 图像生成 | openai/gpt-image-2 | OpenAI Codex OAuth |
| OpenAI 透明背景 PNG/WebP | openai/gpt-image-1.5 | OPENAI_API_KEY 或 OpenAI Codex OAuth |
| DeepInfra 图像生成 | deepinfra/black-forest-labs/FLUX-1-schnell | DEEPINFRA_API_KEY |
| OpenRouter 图像生成 | openrouter/google/gemini-3.1-flash-image-preview | OPENROUTER_API_KEY |
| LiteLLM 图像生成 | litellm/gpt-image-2 | LITELLM_API_KEY |
| Google Gemini 图像生成 | google/gemini-3.1-flash-image-preview | GEMINI_API_KEY 或 GOOGLE_API_KEY |
image_generate 工具既可以处理文本生成图像,也可以处理参考图像编辑。单个参考图像使用 image,多个参考图像使用 images。当提供方支持时,诸如 quality、outputFormat 和 background 等输出提示会被转发;如果提供方不支持,这些提示会被报告为已忽略。内置的透明背景支持是 OpenAI 特有的;其他提供方如果其后端输出了 PNG alpha 通道,仍可能保留该通道。
支持的提供方
| 提供方 | 默认模型 | 编辑支持 | 认证 |
|---|---|---|---|
| ComfyUI | workflow | 支持(1 张图像,按工作流配置) | COMFY_API_KEY 或云端使用 COMFY_CLOUD_API_KEY |
| DeepInfra | black-forest-labs/FLUX-1-schnell | 支持(1 张图像) | DEEPINFRA_API_KEY |
| fal | fal-ai/flux/dev | 支持 | FAL_KEY |
gemini-3.1-flash-image-preview | 支持 | GEMINI_API_KEY 或 GOOGLE_API_KEY | |
| LiteLLM | gpt-image-2 | 支持(最多 5 张输入图像) | LITELLM_API_KEY |
| MiniMax | image-01 | 支持(主体参考) | MINIMAX_API_KEY 或 MiniMax OAuth(minimax-portal) |
| OpenAI | gpt-image-2 | 支持(最多 4 张图像) | OPENAI_API_KEY 或 OpenAI Codex OAuth |
| OpenRouter | google/gemini-3.1-flash-image-preview | 支持(最多 5 张输入图像) | OPENROUTER_API_KEY |
| Vydra | grok-imagine | 不支持 | VYDRA_API_KEY |
| xAI | grok-imagine-image | 支持(最多 5 张图像) | XAI_API_KEY |
action: "list" 来检查可用的提供方和模型:
提供方能力
| 能力 | ComfyUI | DeepInfra | fal | MiniMax | OpenAI | Vydra | xAI | |
|---|---|---|---|---|---|---|---|---|
| 生成(最大数量) | 工作流定义 | 4 | 4 | 4 | 9 | 4 | 1 | 4 |
| 编辑 / 参考 | 1 张图像(工作流) | 1 张图像 | 1 张图像 | 最多 5 张图像 | 1 张图像(主体参考) | 最多 5 张图像 | — | 最多 5 张图像 |
| 尺寸控制 | — | ✓ | ✓ | ✓ | — | 最多 4K | — | — |
| 宽高比 | — | — | ✓(仅生成) | ✓ | ✓ | — | — | ✓ |
| 分辨率(1K/2K/4K) | — | — | ✓ | ✓ | — | — | — | 1K, 2K |
工具参数
图像生成提示词。
action: "generate" 时必填。使用
"list" 在运行时检查可用的提供方和模型。覆盖提供方/模型(例如
openai/gpt-image-2)。透明的 OpenAI 背景使用
openai/gpt-image-1.5。用于编辑模式的单个参考图像路径或 URL。
用于编辑模式的多个参考图像(支持的提供方最多 5 张)。
尺寸提示:
1024x1024、1536x1024、1024x1536、2048x2048、3840x2160。宽高比:
1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9。分辨率提示。
当提供方支持时使用的质量提示。
当提供方支持时使用的输出格式提示。
当提供方支持时使用的背景提示。对支持透明的提供方,使用
outputFormat: "png" 或 "webp" 搭配 transparent。要生成的图像数量(1–4)。
可选的提供方请求超时时间,单位毫秒。
输出文件名提示。
仅适用于 OpenAI 的提示:
background、moderation、outputCompression 和 user。并非所有提供方都支持所有参数。当回退提供方支持一个
与请求不完全相同但相近的几何选项时,OpenClaw 会在提交前映射到
最接近的受支持尺寸、宽高比或分辨率。不受支持的输出提示会被对不声明
支持的提供方丢弃,并在工具结果中报告。工具结果会报告已应用的
设置;
details.normalization 会记录任何从请求到实际应用的
转换。配置
模型选择
提供方选择顺序
OpenClaw 会按以下顺序尝试提供方:model参数,来自工具调用(如果 agent 指定了)。imageGenerationModel.primary,来自配置。imageGenerationModel.fallbacks,按顺序。- 自动检测 —— 仅限有认证支持的提供方默认值:
- 当前默认提供方优先;
- 其余已注册的图像生成提供方按 provider-id 顺序。
单次调用的模型覆盖是精确的
单次调用的模型覆盖是精确的
单次调用的
model 覆盖只会尝试该提供方/模型,不会继续使用已配置的 primary/fallback
或自动检测到的提供方。自动检测会感知认证
自动检测会感知认证
只有当 OpenClaw 实际能够认证该提供方时,该提供方默认值才会进入候选列表。将
agents.defaults.mediaGenerationAutoProviderFallback: false 设置为仅使用
显式的 model、primary 和 fallbacks 条目。超时
超时
为较慢的图像后端设置
agents.defaults.imageGenerationModel.timeoutMs。单次调用的
timeoutMs 工具参数会覆盖已配置的默认值。运行时检查
运行时检查
使用
action: "list" 检查当前已注册的提供方、
它们的默认模型以及认证环境变量提示。图像编辑
OpenAI、OpenRouter、Google、DeepInfra、fal、MiniMax、ComfyUI 和 xAI 支持编辑 参考图像。传入参考图像路径或 URL:images 参数支持最多 5 张参考图像。fal、MiniMax 和 ComfyUI 支持 1 张。
提供商深度解析
OpenAI gpt-image-2(以及 gpt-image-1.5)
OpenAI gpt-image-2(以及 gpt-image-1.5)
OpenAI 图像生成默认使用
openai/gpt-image-2。如果配置了
openai-codex OAuth 配置文件,OpenClaw 会复用 Codex 订阅聊天模型所使用的同一
OAuth 配置文件,并通过 Codex Responses 后端发送图像请求。诸如
https://chatgpt.com/backend-api 之类的旧版 Codex 基础
URL 会在图像请求中规范化为
https://chatgpt.com/backend-api/codex。OpenClaw
不会为该请求静默回退到 OPENAI_API_KEY——如果要强制直接走 OpenAI Images API 路由,请显式配置
models.providers.openai,提供 API key、自定义基础 URL
或 Azure 端点。openai/gpt-image-1.5、openai/gpt-image-1 和
openai/gpt-image-1-mini 模型仍然可以显式选择。对于透明背景 PNG/WebP 输出,请使用
gpt-image-1.5;当前
gpt-image-2 API 会拒绝 background: "transparent"。gpt-image-2 通过同一个 image_generate 工具同时支持文本生成图像和
参考图像编辑。OpenClaw 会将 prompt、count、size、quality、outputFormat
和参考图像转发给 OpenAI。OpenAI 不会直接接收
aspectRatio 或 resolution;在可能的情况下,OpenClaw 会将
这些参数映射为受支持的 size,否则工具会将它们报告为
被忽略的覆盖项。OpenAI 特定选项位于 openai 对象下:openai.background 接受 transparent、opaque 或 auto;
透明输出需要 outputFormat 为 png 或 webp,并且需要支持透明背景的 OpenAI 图像模型。OpenClaw 会将默认
gpt-image-2 的透明背景请求路由到 gpt-image-1.5。
openai.outputCompression 适用于 JPEG/WebP 输出。顶层的 background 提示是与提供商无关的,目前在选择 OpenAI 提供商时会映射
到相同的 OpenAI background 请求字段。对于不声明支持背景的提供商,会将其作为
ignoredOverrides 返回,而不会接收不支持的参数。若要通过 Azure OpenAI 部署而不是 api.openai.com 来路由 OpenAI 图像生成,请参阅
Azure OpenAI 端点。OpenRouter 图像模型
OpenRouter 图像模型
OpenRouter 图像生成使用相同的 OpenClaw 会将
OPENROUTER_API_KEY,并通过
OpenRouter 的聊天补全图像 API 路由。使用带有 openrouter/
前缀的 OpenRouter 图像模型:prompt、count、参考图像,以及
与 Gemini 兼容的 aspectRatio / resolution 提示转发给 OpenRouter。
当前内置的 OpenRouter 图像模型快捷方式包括
google/gemini-3.1-flash-image-preview、
google/gemini-3-pro-image-preview 和 openai/gpt-5.4-image-2。使用
action: "list" 查看你的已配置插件暴露了哪些内容。MiniMax 双重认证
MiniMax 双重认证
MiniMax 图像生成可通过以下两个内置的 MiniMax
认证路径使用:
minimax/image-01用于 API key 配置minimax-portal/image-01用于 OAuth 配置
xAI grok-imagine-image
xAI grok-imagine-image
内置的 xAI 提供商在仅提示词请求时使用
/v1/images/generations,
当存在 image 或 images 时使用 /v1/images/edits。- 模型:
xai/grok-imagine-image、xai/grok-imagine-image-pro - 数量:最多 4
- 参考图:一个
image或最多五个images - 宽高比:
1:1、16:9、9:16、4:3、3:4、2:3、3:2 - 分辨率:
1K、2K - 输出:作为由 OpenClaw 管理的图像附件返回
image_generate 合同中尚未具备这些控制项之前,OpenClaw 有意不暴露 xAI 原生的 quality、mask、
user,或额外的仅原生支持的宽高比。示例
- 生成(4K 横版)
- 生成(透明 PNG)
- 生成(两个正方形)
- 编辑(一个参考图)
- 编辑(多个参考图)
--output-format 和 --background 标志同样可用于
openclaw infer image edit;--openai-background 仍然作为
OpenAI 特定的别名保留。除 OpenAI 之外的内置提供商目前不声明
显式的背景控制,因此 background: "transparent" 会被报告为
它们的忽略项。