Gemini Computer Use技能使用说明
2026-03-28
新闻来源:网淘吧
围观:17
电脑广告
手机广告
Gemini 计算机使用
快速开始
-
配置环境文件并设置您的 API 密钥:
cp env.example env.sh $EDITOR env.sh source env.sh -
创建虚拟环境并安装依赖项:
python -m venv .venv source .venv/bin/activate pip install google-genai playwright playwright install chromium -
使用提示语运行代理脚本:
python scripts/computer_use_agent.py \ --prompt "Find the latest blog post title on example.com" \ --start-url "https://example.com" \ --turn-limit 6
浏览器选择
- 默认:Playwright 捆绑的 Chromium(无需设置环境变量)。
- 通过以下变量选择频道(Chrome/Edge)
COMPUTER_USE_BROWSER_CHANNEL。 - 通过以下变量使用自定义的基于 Chromium 的可执行文件(例如,Brave)
COMPUTER_USE_BROWSER_EXECUTABLE。
如果两者都设置了,则COMPUTER_USE_BROWSER_EXECUTABLE优先。
核心工作流程(代理循环)
- 捕获屏幕截图,并将用户目标 + 截图发送给模型。
- 解析响应中的
function_call操作。 - 在Playwright中执行每个动作。
- 如果
安全决策是需要确认,则在执行前提示用户。 - 发送
函数响应包含最新URL和截图的对象的。 - 重复执行,直到模型仅返回文本(无动作)或达到轮次限制。
操作指南
- 在沙盒浏览器配置文件或容器中运行。
- 使用
--exclude来阻止您不希望模型执行的风险操作。 - 除非有特殊原因,否则将视口保持在1440x900。
资源
- 脚本:
scripts/computer_use_agent.py - 参考说明:
references/google-computer-use.md - 环境模板:
env.example
文章底部电脑广告
手机广告位-内容正文底部
上一篇:FlowMind技能使用说明
下一篇:Research-engine技能使用说明


微信扫一扫,打赏作者吧~