AssemblyAI advanced speech transcription技能使用说明

2026-03-29 新闻来源：网淘吧围观:92

电脑广告

手机广告

AssemblyAI转录、语音理解以及面向智能体的友好导出

当用户需要AssemblyAI而非通用转录服务时，或当任务受益于AssemblyAI特有功能时使用此技能，例如：

跨模型路由universal-3-pro与universal-2
语言检测与语码转换
说话人分离增强说话人姓名/角色映射
翻译、自定义格式化或AssemblyAI说话人识别
字幕、段落划分、句子切分、主题/实体/情感分析任务
易于被其他智能体以Markdown或标准化JSON格式解析的

转录输出

AssemblyAI advanced speech transcription

此技能专为OpenClaw等AI智能体设计，不仅面向终端用户。它提供：零依赖的Node命令行工具位于（以及一个兼容性包装器在assemblyai.mjs）
捆绑的模型/语言知识通过模型和语言命令
稳定的转录输出格式
- 智能体友好的Markdown
- 标准化的智能体JSON
- 用于下游自动化的捆绑清单
说话人映射工作流
- 手动说话人/声道映射
- AssemblyAI说话人识别
- 合并的显示名称（在Markdown和JSON中）
AssemblyAI LLM网关集成用于从转录中结构化提取

按此顺序使用此技能

1) 判断用户是否需要AssemblyAI特定的行为

如果用户只是想要“一份转录稿”，通用的解决方案可能就足够了。当用户提到AssemblyAI、想要特定的AssemblyAI功能，或者需要本技能提供的更丰富的输出和后期处理时，再运用此技能。

2) 选择最佳入口点

新转录→转录
现有转录ID→获取或等待
重新渲染现有已保存的JSON→格式化
对现有转录稿进行后期处理→理解
通过LLM网关运行转录文本→llm
决策前需要快速查找功能→模型或语言

3) 优先采用对代理友好的默认设置

对于大多数未知语言或混合语言任务，建议采用：

node {baseDir}/assemblyai.mjs transcribe INPUT   --bundle-dir ./assemblyai-out   --all-exports

原因：

命令行界面默认采用自动最优当未指定模型时的路由策略
它会生成清单文件 + 多个输出文件代理程序无需重新解析终端输出即可直接检查
Markdown和代理JSON格式可即时用于后续处理步骤

快速入门方案

最佳通用默认方案

当源语言未知或可能超出6种语言的Universal-3-Pro集合时使用：

node {baseDir}/assemblyai.mjs transcribe ./meeting.mp3   --bundle-dir ./out   --all-exports

除非请求已指定模型或语言，否则默认采用模型路由加语言检测

已知语言的最佳准确度方案

若语言已知且受Universal-3-Pro支持，建议采用明确指定方案：

node {baseDir}/assemblyai.mjs transcribe ./meeting.mp3   --speech-model universal-3-pro   --language-code en_us   --bundle-dir ./out

会议/访谈场景（带讲话人标签）

node {baseDir}/assemblyai.mjs transcribe ./meeting.mp3   --speaker-labels   --bundle-dir ./out

添加明确的讲话人姓名或角色标识

手动映射：

node {baseDir}/assemblyai.mjs transcribe ./meeting.mp3   --speaker-labels   --speaker-map @assets/speaker-map.example.json   --bundle-dir ./out

AssemblyAI 说话人识别：

node {baseDir}/assemblyai.mjs transcribe ./meeting.mp3   --speaker-labels   --speaker-type role   --known-speakers "host,guest"   --bundle-dir ./out

或对现有转录稿进行后处理：

node {baseDir}/assemblyai.mjs understand TRANSCRIPT_ID   --speaker-type name   --speaker-profiles @assets/speaker-profiles-name.example.json   --bundle-dir ./out

翻译

node {baseDir}/assemblyai.mjs transcribe ./meeting.mp3   --translate-to de,fr   --match-original-utterance   --bundle-dir ./out

通过 LLM 网关进行结构化提取

node {baseDir}/assemblyai.mjs llm TRANSCRIPT_ID   --prompt @assets/example-prompt.txt   --schema @assets/llm-json-schema.example.json   --out ./summary.json

命令指引

`转录`

用于本地文件或远程 URL。

本地文件会先上传。
公共 URL 会直接发送给 AssemblyAI。
默认等待，然后渲染输出。

对于任何比简短片段更长的内容，建议使用--bundle-dir。

`get`/`wait`

当您已拥有转录稿 ID 时使用。wait会阻塞直到完成；get会立即获取，除非您添加--wait.

`格式`

在您已保存以下内容时使用：

来自 AssemblyAI 的原始转录 JSON，或
由本技能生成的标准化代理 JSON

当您想应用新的说话人映射、重新渲染 Markdown 或生成新的捆绑包而无需重新转录时，这很有用。

`理解`

当您需要对现有转录内容进行 AssemblyAI语音理解时使用：

翻译
说话人识别
自定义格式

此命令会获取转录内容，合并返回的理解结果，然后渲染更新后的 Markdown / 代理 JSON / 捆绑包输出。

`大语言模型`

当用户需要以下内容时使用：

摘要
提取
结构化 JSON
对转录内容进行下游推理

优先使用--schema当下一步自动化时。

输出策略

代理的最佳默认设置：捆绑模式

--bundle-dir写入一个包含以下内容的目录：

Markdown 转录稿
代理 JSON
原始 JSON
可选段落 / 句子 / 副标题
一个机器可读的清单

这通常比将所有内容转储到标准输出更好。

主要输出种类

使用--export来选择主要输出：

markdown（默认）
agent-json
json/raw-json
text
paragraphs
句子
字幕文件（SRT格式）
视频文本轨道（VTT格式）
清单文件

辅助输出文件

您可以直接请求以下额外文件：

--markdown-out
--agent-json-out
--raw-json-out
--paragraphs-out
--sentences-out
--srt-out
--vtt-out
--understanding-json-out

说话人映射规则

说话人显示名称按以下顺序合并：

手动设置--speaker-map
AssemblyAI说话人识别映射
回退通用名称，例如说话人A或声道1

这意味着您可以先让AssemblyAI识别说话人，之后仍可覆盖个别显示名称。

示例手动映射文件：assets/speaker-map.example.json

模型与语言查找

在选择参数之前，请检查捆绑的参考数据：

node {baseDir}/assemblyai.mjs models
node {baseDir}/assemblyai.mjs models --format json
node {baseDir}/assemblyai.mjs languages --model universal-3-pro
node {baseDir}/assemblyai.mjs languages --model universal-2 --codes --format json

捆绑数据位于：

assets/model-capabilities.json
assets/language-codes.json

重要操作说明

请勿在聊天记录中暴露API密钥；应使用环境变量注入。
当用户明确需要欧盟地区处理时，请使用欧盟AssemblyAI基础URL。
上传和转录创建必须使用来自同一AssemblyAI项目的API密钥。
对于长输出内容，建议使用--bundle-dir或--out参数。
本CLI工具为非交互式设计，并将诊断信息输出至标准错误流，这有助于代理程序实现更可靠的脚本化操作。
使用原始--配置或--请求当您需要此技能尚未公开的、新添加的AssemblyAI参数时。

参考文件

当您需要更深入的了解时，请阅读这些：

关键捆绑文件

assemblyai.mjs— 根包装器，用于与原技能兼容
scripts/assemblyai.mjs— 主命令行界面
assets/speaker-map.example.json
assets/speaker-profiles-name.example.json
assets/speaker-profiles-role.example.json
assets/custom-spelling.example.json
assets/llm-json-schema.example.json
assets/transcript-agent-json-schema.json

任务完成前的完整性检查

你是否选择了正确的区域（api.assemblyai.com对比api.eu.assemblyai.com）？
你是否选择了与语言情境相匹配的模型策略？
如果说话者命名很重要，你是否启用了说话人识别和/或提供了说话者映射？
如果结果将提供给另一个代理，你是否生成了Markdown和/或代理JSON，而不仅仅是原始stdout？
如果转录内容将被机器使用，你是否保留了清单或明确的输出文件名？

免责申明

部分文章来自各大搜索引擎，如有侵权，请与我联系删除。

打赏

文章底部电脑广告

手机广告位-内容正文底部

标签

上一篇：Manage Bambu Labs 3D Printers thru your Agent技能使用说明下一篇：daily-trending技能使用说明

AssemblyAI advanced speech transcription技能使用说明

AssemblyAI转录、语音理解以及面向智能体的友好导出

按此顺序使用此技能

1) 判断用户是否需要AssemblyAI特定的行为

2) 选择最佳入口点

3) 优先采用对代理友好的默认设置

快速入门方案

最佳通用默认方案

已知语言的最佳准确度方案

会议/访谈场景（带讲话人标签）

添加明确的讲话人姓名或角色标识

翻译

通过 LLM 网关进行结构化提取

命令指引

`转录`

`get`/`wait`

`格式`

`理解`

`大语言模型`

输出策略

代理的最佳默认设置：捆绑模式

主要输出种类

辅助输出文件

说话人映射规则

模型与语言查找

重要操作说明

参考文件

关键捆绑文件

任务完成前的完整性检查

相关文章

推荐文章

热门浏览

标签列表

AssemblyAI advanced speech transcription技能使用说明

AssemblyAI转录、语音理解以及面向智能体的友好导出

按此顺序使用此技能

1) 判断用户是否需要AssemblyAI特定的行为

2) 选择最佳入口点

3) 优先采用对代理友好的默认设置

快速入门方案

最佳通用默认方案

已知语言的最佳准确度方案

会议/访谈场景（带讲话人标签）

添加明确的讲话人姓名或角色标识

翻译

通过 LLM 网关进行结构化提取

命令指引

转录

get/wait

格式

理解

大语言模型

输出策略

代理的最佳默认设置：捆绑模式

主要输出种类

辅助输出文件

说话人映射规则

模型与语言查找

重要操作说明

参考文件

关键捆绑文件

任务完成前的完整性检查

相关文章

推荐文章

热门浏览

标签列表

`转录`

`get`/`wait`

`格式`

`理解`

`大语言模型`