Google 插件通过 Google AI Studio 提供对 Gemini 模型的访问,并通过 Gemini Grounding 提供图像生成、媒体理解(图像/音频/视频)、文本转语音和网页搜索。Documentation Index
Fetch the complete documentation index at: https://openclaw.zhcndoc.com/llms.txt
Use this file to discover all available pages before exploring further.
- Provider:
google - Auth:
GEMINI_API_KEYorGOOGLE_API_KEY - API: Google Gemini API
- Runtime option:
agents.defaults.agentRuntime.id: "google-gemini-cli"复用 Gemini CLI OAuth,同时保持模型引用为规范化的google/*。
开始使用
选择你偏好的身份验证方式并按照设置步骤操作。- API key
- Gemini CLI (OAuth)
功能支持
| 功能 | 支持情况 |
|---|---|
| Chat completions | Yes |
| Image generation | Yes |
| Music generation | Yes |
| Text-to-speech | Yes |
| Realtime voice | Yes (Google Live API) |
| Image understanding | Yes |
| Audio transcription | Yes |
| Video understanding | Yes |
| Web search (Grounding) | Yes |
| Thinking/reasoning | Yes (Gemini 2.5+ / Gemini 3+) |
| Gemma 4 models | Yes |
Web search
捆绑的gemini 网页搜索 provider 使用 Gemini Google Search grounding。
在 plugins.entries.google.config.webSearch 下配置专用搜索密钥,
或者让它在 GEMINI_API_KEY 后复用 models.providers.google.apiKey:
webSearch.apiKey、GEMINI_API_KEY,
然后是 models.providers.google.apiKey。webSearch.baseUrl 是可选的,
用于运营方代理或兼容的 Gemini API 端点;如果省略,
Gemini 网页搜索会复用 models.providers.google.baseUrl。参见
Gemini search 了解 provider 特定的工具行为。
图像生成
内置的google 图像生成 provider 默认使用
google/gemini-3.1-flash-image-preview。
- 也支持
google/gemini-3-pro-image-preview - 生成:每次请求最多 4 张图片
- 编辑模式:已启用,最多 5 张输入图片
- 形状控制:
size、aspectRatio和resolution
共享工具参数、provider 选择和故障切换行为请参见 图像生成。
视频生成
内置的google 插件还通过共享的
video_generate 工具注册视频生成。
- 默认视频模型:
google/veo-3.1-fast-generate-preview - 模式:文本转视频、图像转视频,以及单视频参考流程
- 支持
aspectRatio、resolution和audio - 当前时长限制:4 到 8 秒
共享工具参数、provider 选择和故障切换行为请参见 视频生成。
音乐生成
内置的google 插件还通过共享的
music_generate 工具注册音乐生成。
- 默认音乐模型:
google/lyria-3-clip-preview - 也支持
google/lyria-3-pro-preview - 提示控制:
lyrics和instrumental - 输出格式:默认
mp3,google/lyria-3-pro-preview还支持wav - 参考输入:最多 10 张图片
- 基于会话的运行会通过共享的任务/状态流程进行分离,包括
action: "status"
共享工具参数、provider 选择和故障切换行为请参见 音乐生成。
文本转语音
内置的google 语音 provider 使用 Gemini API 的 TTS 路径,
并采用 gemini-3.1-flash-tts-preview。
- 默认语音:
Kore - Auth:
messages.tts.providers.google.apiKey、models.providers.google.apiKey、GEMINI_API_KEY或GOOGLE_API_KEY - 输出:常规 TTS 附件为 WAV,语音便笺目标为 Opus,Talk/电话场景为 PCM
- 语音便笺输出:Google PCM 会被包装为 WAV,并通过
ffmpeg转码为 48 kHz Opus
audioProfile 设置为在朗读文本之前附加一个可复用的风格提示。当前提示文本中提到特定姓名说话人时,设置
speakerName。
Gemini API TTS 还接受文本中的带方括号的富有表现力音频标签,例如 [whispers] 或 [laughs]。若要在发送给 TTS 的同时让这些标签不出现在可见聊天回复中,请将它们放入
[[tts:text]]...[[/tts:text]] 块中:
受限于 Gemini API 的 Google Cloud Console API key 对此
provider 是有效的。这不是独立的 Cloud Text-to-Speech API 路径。
实时语音
内置的google 插件注册了一个由
Gemini Live API 支持的实时语音 provider,用于后端音频桥接,例如 Voice Call 和 Google Meet。
| 设置 | 配置路径 | 默认值 |
|---|---|---|
| 模型 | plugins.entries.voice-call.config.realtime.providers.google.model | gemini-2.5-flash-native-audio-preview-12-2025 |
| 语音 | ...google.voice | Kore |
| 温度 | ...google.temperature | (unset) |
| VAD 开始敏感度 | ...google.startSensitivity | (unset) |
| VAD 结束敏感度 | ...google.endSensitivity | (unset) |
| 静音时长 | ...google.silenceDurationMs | (unset) |
| 活动处理 | ...google.activityHandling | Google default, start-of-activity-interrupts |
| 回合覆盖 | ...google.turnCoverage | Google default, only-activity |
| 禁用自动 VAD | ...google.automaticActivityDetectionDisabled | false |
| API key | ...google.apiKey | 回退到 models.providers.google.apiKey、GEMINI_API_KEY 或 GOOGLE_API_KEY |
Google Live API 使用双向音频和函数调用,并通过 WebSocket 进行通信。
OpenClaw 会将电话/Meet 桥接音频适配为 Gemini 的 PCM Live API 流,并
保持工具调用遵循共享的实时语音契约。除非你需要采样变化,否则保留
temperature
未设置;OpenClaw 会省略非正值,因为 Google Live 在 temperature: 0 时可能返回无音频的转录。
Gemini API 转录在没有 languageCodes 的情况下启用;当前 Google
SDK 会拒绝此 API 路径上的语言代码提示。Control UI Talk 支持带受限一次性令牌的 Google Live 浏览器会话。
仅后端的实时语音 provider 也可以通过通用的
Gateway relay transport 运行,这会将 provider 凭据保留在 Gateway 上。
OPENAI_API_KEY=... GEMINI_API_KEY=... node --import tsx scripts/dev/realtime-talk-live-smoke.ts。
Google 这一路会生成与 Control
UI Talk 使用的相同受限 Live API 令牌格式,打开浏览器 WebSocket 端点,发送初始设置负载,
并等待 setupComplete。
高级配置
直接复用 Gemini 缓存
直接复用 Gemini 缓存
对于直接的 Gemini API 运行(
api: "google-generative-ai"),OpenClaw
会将已配置的 cachedContent 句柄传递给 Gemini 请求。- 可使用
cachedContent或旧版cached_content配置按模型或全局参数 - 如果两者都存在,则以
cachedContent为准 - 示例值:
cachedContents/prebuilt-context - Gemini 缓存命中用量会从上游
cachedContentTokenCount归一化为 OpenClaw 的cacheRead
Gemini CLI JSON 使用说明
Gemini CLI JSON 使用说明
使用
google-gemini-cli OAuth 提供方时,OpenClaw 会按如下方式
规范化 CLI JSON 输出:- 回复文本来自 CLI JSON 的
response字段。 - 当 CLI 将
usage留空时,使用stats作为回退。 stats.cached会被归一化为 OpenClaw 的cacheRead。- 如果
stats.input缺失,OpenClaw 会从stats.input_tokens - stats.cached推导输入 token 数。
环境和守护进程设置
环境和守护进程设置
如果 Gateway 以守护进程方式运行(launchd/systemd),请确保
GEMINI_API_KEY 对该进程可用(例如,放在 ~/.openclaw/.env 中或通过
env.shellEnv 提供)。相关内容
模型选择
选择提供方、模型引用以及故障切换行为。
图像生成
共享的图像工具参数和提供方选择。
视频生成
共享的视频工具参数和提供方选择。
音乐生成
共享的音乐工具参数和提供方选择。