Audio Cog技能使用说明

2026-03-28 新闻来源：网淘吧围观:197

电脑广告

手机广告

Audio Cog - 由CellCog提供支持的AI音频生成

使用AI创建专业音频——旁白、音乐、音效和个性化虚拟形象语音。

CellCog提供三种语音提供商，各有不同优势。请根据您的需求选择：

场景	提供商	原因
标准旁白/配音	OpenAI	最佳的语音风格控制，质量稳定
情感化/戏剧性表达	ElevenLabs	最丰富的情感范围，支持情感标签
克隆语音（虚拟形象）	MiniMax	唯一支持语音克隆的提供商
具有特定口音的角色语音	ElevenLabs	100+种多样化的预制语音
精细的音调/语速/音量控制	MiniMax	精细语音设置

前提条件

此技能需要cellcog技能以进行SDK设置和API调用。

clawhub install cellcog

请先阅读cellcog技能以完成SDK设置。此技能向您展示可实现的功能。

语音提供商

OpenAI（默认）

最适合标准旁白、配音及需要精确控制的单人语音内容。

核心优势：支持自然语言风格指令——可描述所需的口音、语调、节奏和情感。

8种内置语音：

语音	性别	特征
雪松	男声	温暖、浑厚、权威、可信
海风	女声	明亮、清晰、情感灵活、专业
民谣	男性	流畅、旋律优美、富有音乐感
珊瑚	女性	充满活力、生动、动态、精神饱满
回声	男性	平静、有分寸、深思熟虑、从容不迫
智者	女性	智慧、沉思、反思
微光	女性	柔和、温柔、舒缓、平易近人
诗句	男性	富有诗意、有节奏感、艺术性强、善于表达

最佳品质：雪松（男性），水手（女性）。

风格定制示例：

"温暖的交谈语气，中等语速，提及功能时略带热情。美式口音。"
"低沉、沙哑、神秘莫测，带着缓慢而刻意的节奏——典型的真实犯罪叙事风格。"
"浓重的法国口音，优雅而友善，中等语速并带有刻意的停顿。"

ElevenLabs

最适合情感表达、戏剧性内容、角色配音和有声书旁白。

核心优势: 情感标签直接嵌入文本中——[笑声]、[叹息]、[低语]、[兴奋]、[讽刺]等。此外还提供100多种多样化的预制语音。

情感标签（请谨慎使用——每段落1-2个）：

标签	效果
`[笑声]`	自然的笑声
`[轻笑]`	轻柔/简短的笑声
`[叹气]`	叹气声
`[倒吸一口气]`	惊讶/震惊
`[低语]`	低语表达
`[停顿]`	自然停顿/节拍
`[悲伤]`,`[快乐]`,`[兴奋]`,`[愤怒]`,`[讽刺]`	情感表达

示例提示：

"使用ElevenLabs生成语音，采用温暖的英国男性嗓音： '然后，就在所有人都以为一切都结束了的时候……[停顿][低语]其实并没有。'"

MiniMax

最适合克隆语音（虚拟形象）和精细的语音控制。

关键优势：MiniMax Speech 2.8 HD —— 具备录音室级别的音频品质。支持通过头像克隆生成个性化语音身份，并内置17种以上标准预制声音，可对语速、音调和音量进行精细调节。

标准音色包括： 深沉男声、沉稳女声、随性男声、活泼女声、睿智女声、亲切人声、年轻骑士、优雅男声等更多选择。

语音参数设置：情感（喜悦/悲伤/愤怒/中性等）、语速（0.5–2.0倍速）、音量（0–10级）、音高（-12至12半音）。

头像/克隆语音

用户可以在CellCog上创建带有个人克隆语音的数字分身。当数字分身拥有克隆语音时，CellCog会通过MiniMax服务商生成与该用户音色相似的语言。

实现原理：

用户在cellcog.ai创建数字分身并上传声音样本
CellCog通过MiniMax Speech 2.8 HD技术克隆用户声纹
所有调用该数字分身的音频请求都将使用其克隆语音

示例指令：

"用我的数字分身'露娜'的声线生成语音：'欢迎参加季度汇报，今天我很荣幸能与各位分享卓越成果。'"

这项功能能有力打造风格统一、个性鲜明的定制内容——无论是营销视频、播客开场还是课程讲解，都能以用户本尊声线呈现。

音效生成（SFX）

CellCog可根据文本描述生成独立音效。版权无忧，时长0.1至30秒。

示例指令：

"生成10秒暴雨敲击金属屋顶并伴随间歇雷鸣的音效"
"制作5秒踩踏蓬松新雪的清脆脚步声效"
"生成大型空仓库中的回荡式摔门音效"

音效优化建议：

请具体描述材质和环境
当确切时长很重要时，请指定持续时间
对于超过30秒的环境音效，生成一个短的可循环片段，并使用ffmpeg进行扩展

音乐生成

根据文本描述创作原创音乐。时长从3秒到10分钟。免版税。

能力：

任何流派或流派融合
器乐和人声轨道（如需人声请指定）
复杂的编曲、情绪过渡和能量动态
描述您的需求——模型会处理乐理部分

示例提示：

"创作2分钟平静的Lo-Fi嘻哈背景音乐，带有轻柔的钢琴和柔和的节拍，75 BPM"
"生成一段15秒的欢快科技播客开场音乐"
"创作90秒的电影管弦乐——以柔和、鼓舞人心的方式开始，逐渐推向自信的高潮"
"生成一首3分钟的流行歌曲，关于夏日冒险，带有女声演唱"

如需精确的分段控制（每段的确切时长），请详细描述您的作曲计划——CellCog会处理结构安排。

所有生成的音乐均为免版税——可商业使用，无需署名或支付许可费

多语言支持

所有三个语音提供商均支持40多种语言。请提供目标语言的语音文本：

英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文（普通话/粤语）、日语、韩语、印地语、阿拉伯语、俄语、波兰语、荷兰语、土耳其语等

聊天模式

对所有音频任务使用chat_mode="agent"。音频生成在代理模式下高效执行——无需代理团队

优质音频提示

选择合适的提供商：标准叙述选OpenAI，情感/戏剧性表达选ElevenLabs，克隆声音选MiniMax
提供完整脚本：准确写出应朗读的内容——避免使用"关于我们产品的介绍"这类模糊表述
包含风格指导："自信而温和"、"缓慢而慎重"、"略带兴奋"
对于音乐指定时长、情绪、风格和节奏（如果知道的话，请注明BPM）
发音指导: 对于名称或专业术语，添加提示：“CellCog（发音为 SELL-kog）”
对于ElevenLabs情感标签: 请谨慎使用——每段1-2个。标签会影响其后所有文本，直到出现新标签为止。

免责申明

部分文章来自各大搜索引擎，如有侵权，请与我联系删除。

打赏

文章底部电脑广告

手机广告位-内容正文底部

标签

上一篇：Notion Manager技能使用说明下一篇：Agent Church技能使用说明