Linux GUI Control技能使用说明
2026-03-26
新闻来源:网淘吧
围观:72
电脑广告
手机广告
Linux 图形用户界面控制
此技能提供了用于自动化与 Linux 桌面环境交互的工具和流程。
快速开始
1. 识别目标窗口
使用wmctrl来查找您想要控制的窗口的确切名称。
wmctrl -l
2. 检查用户界面层级
对于支持无障碍功能的应用(GNOME 应用、使用--force-renderer-accessibility的 Electron 应用),使用检查脚本来查找按钮名称,而无需截图。
python3 scripts/inspect_ui.py "<应用名称>"
3. 执行操作
通过辅助脚本使用xdotool来执行常见操作。
# 激活窗口 ./scripts/gui_action.sh activate "<窗口名称>" # 点击坐标 ./scripts/gui_action.sh click 500 500 # 输入文本 ./scripts/gui_action.sh type "Hello World" # 按键 ./scripts/gui_action.sh key "Return"
工作流
通过文本界面操作应用
- 使用wmctrl -l列出窗口。
- 激活目标窗口。
- 运行scripts/inspect_ui.py以获取按钮和输入框的列表。
- 使用xdotool key Tab和回车键进行导航,或者如果已知坐标,则使用点击操作。
- 如果基于文本的检查失败,则回退到截图并使用视觉识别。
在Electron应用中强制启用辅助功能
许多现代应用(如VS Code、Discord、Cider、Chrome)需要一个标志来暴露其UI树:
pkill <应用> nohup <应用> --force-renderer-accessibility > /dev/null 2>&1 &
工具参考
- wmctrl:窗口管理(列出、激活、移动、调整大小)。
- xdotool:输入模拟(点击、输入、按键、鼠标移动)。
- dogtail:通过AT-SPI(辅助功能总线)提取UI树。
- scrot:轻量级截图工具。
文章底部电脑广告
手机广告位-内容正文底部


微信扫一扫,打赏作者吧~