ai-image-generator
AI 图片与视频异步生成技能,调用 AI Artist API 根据文本提示词生成图片或视频,自动轮询直到任务完成。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你自己的 API Key! 获取 API Key:访问 https://ai.deepsop.com/ 注册登录后创建。 支持图片模型:**3.1Nano2-Evo(默认)**、S5.0L、N2、W2.7、W2.7Pro、Nano2-Beta-Evo。 支持视频模型:**V3.1FB(默认)**、S1.5Pro、V3.1PB、V3.1Fast、W2.6t / W2.6i / W2.6r、klingV3Omni、W2.7t / W2.7i / W2.7r。 查看当前服务端激活的模型请运行:`python3 scripts/generate_image.py --list-models`。 触发场景: - 用户要求生成图片,如"生成一匹狼"、"画一只猫"、"风景画"、"帮我画"等。 - 用户要求生成视频,如"生成视频"、"文生视频"、"图生视频"、"生成一段...的视频"等。 - 用户指定模型:N2、S5.0L、W2.7、W2.7Pro、3.1Nano2-Evo、Nano2-Beta-Evo、S1.5Pro、V3.1FB、V3.1PB、V3.1Fast、W2.6t、W2.6i、W2.6r、klingV3Omni、W2.7t、W2.7i、W2.7r。 - 用户上传参考图/参考视频时,自动先调用文件上传 API 转换为可访问 URL。
Install via CLI (Recommended)
clawhub install openclaw/skills/skills/2393970875/deepsop-artistAI Image Generator
异步生成 AI 图片与视频的技能。
⚠️ 首次使用必读
1. 获取 API Key
访问 https://ai.deepsop.com/ 注册并登录,然后创建你的 API Key。
2. 设置环境变量
在使用前,你必须先设置自己的 API Key:
# Linux/macOS/Git Bash (Windows)
export AI_ARTIST_TOKEN="sk-your_api_key_here"
# Windows PowerShell
$env:AI_ARTIST_TOKEN="sk-your_api_key_here"
或在项目根目录放一个 .env 文件(需 pip install python-dotenv,脚本会自动加载):
AI_ARTIST_TOKEN=sk-your_api_key_here
FEISHU_WEBHOOK_URL= # 可选,用于结果通知
3. 验证配置
验证配置是否正确:
python3 scripts/test_config.py
详细配置说明请查看下方"环境配置"章节。
快速开始
python3 scripts/generate_image.py "提示词"
意图澄清指南(重要)
调用前必须做的事:当用户的请求涉及参数复杂的模型,或关键信息缺失时,先向用户提问确认意图,再执行生成,避免浪费配额生成不符合预期的作品。
通用判断流程
- 先分辨媒介:图片 vs 视频(关键词:"画/生成图片/海报/插画" → 图片;"视频/动画/片段/动起来" → 视频)。
- 判断输入材料:
- 纯文字 → 文生模式(TEXT)
- 有一张首帧图 → 首帧图生视频(FIRST&LAST)
- 有首尾两张图 → 首尾帧控制(FIRST&LAST,需首帧+尾帧)
- 有参考视频 → 续写(CONTINUATION)、编辑(EDIT)、参考生成(FEATURE/REFERENCE)
- 有多张参考图(要求角色/元素一致性) → 参考图模式(REFERENCE)
- 若用户意图不明确或关键材料缺失,必须提问,不要擅自假设。
按模型列出"必须澄清的关键点"
所有视频模型通用:
- 时长(秒)? 比例?(16:9 横屏 / 9:16 竖屏 / 1:1 正方)
- 是否需要生成声音 / 配音 / 音乐?
- 提示词含有人物时,是否希望保持角色一致性?
klingV3Omni(最复杂):5 种生成类型 + 多镜头模式,务必确认:
- 生成类型:文生(TEXT)/ 首尾帧(FIRST&LAST)/ 参考图生视频(REFERENCE)/ 编辑已有视频(EDIT)/ 参考视频再创作(FEATURE)?
- 镜头模式:单镜头(single)/ 智能多镜头(multi)/ 自定义分镜(customize,需要用户给出每个分镜的描述 + 时长)?
- 生成模式:
std标准 /pro专家级? - 若是 EDIT/FEATURE:需要参考视频 URL,并确认"是否保留原音"(
keep_original_soundyes/no)
W2.6r / W2.7r(参考视频模式):
- 参考图片 + 参考视频的总数 ≤ 5,询问用户是否都准备好了 URL / 本地文件
- 是否想保留原视频的角色音色?
- 希望迁移到什么场景?迁移的主体是什么?(让用户把场景描述写进 prompt)
W2.7i(图生视频,支持续写):
- 输入是"一张首帧图"要让它动起来?→ FIRST&LAST(可选提供尾帧,让首尾过渡更可控)
- 输入是"一段已有视频"要让它继续播?→ CONTINUATION(需要
first_clip_url) - 动作/运镜希望如何展开?请用户描述(写进 prompt)
W2.6t / W2.7t(文生视频):
- 是否需要多镜头叙事?若是 →
shot_type="multi"(智能分镜) - 是否有反向提示词(不希望出现的内容)?
- 是否需要智能改写提示词(
prompt_extend=True,默认 false)? - 是否需要传入自定义音频?
V3.1Fast(V3.1 系列的复杂款):
- 是否需要翻译为英文提示词(
enhance_prompt)? - 是否允许生成人物(
personGeneration=allow_adult/dont_allow)? - 图像缩放模式(
resize_mode=pad/crop)? - 时长 4 秒还是 8 秒?
V3.1FB / V3.1PB:时长固定 8 秒,不必问;但要确认比例 / 分辨率。
S1.5Pro(影视级):
- 是否追求"音画同步 + 口型对齐"?(说明场景是否包含对话)
- 时长在 4-12 秒之间,默认 10 秒,可问用户。
图片复杂款 W2.7 / W2.7Pro / N2 / 3.1Nano2-Evo:
- 有无参考图?做"风格迁移"、"角色一致性"、"文字渲染"时参考图能显著提升质量。
- 是否需要特定比例?(默认 1:1,横图/竖图需指定)
- 质量档位(1K/2K/4K,详见每个模型表)
提问姿态(给 Claude 的指令)
- 一次最多问 2-3 个最关键的问题,别堆 10 个选项让用户懵。
- 优先问对画面/成本影响最大的参数(生成类型 > 时长 > 分辨率 > 次要参数)。
- 提供默认建议,让用户说"就这样"也能继续,不要强制用户全部自选。
示例:"我打算用
klingV3Omni做参考图生视频,比例 16:9、时长 10s、生成声音。你有几张想作为参考的图片吗?要不要保留原音?" - 材料缺失时必须停下来要素材(URL / 本地文件路径),不要用占位符或假 URL 代替。
- 用户若说"随便/都行",按默认值直接执行,并在生成后告知用了哪些默认。
何时可以不提问直接执行
- 用户请求非常明确(提示词清晰 + 指定了模型 + 提供了必要的参考材料 URL)
- 用户明确说"快速来一张就行" / "随便出个视频":用默认模型与默认参数,生成后告知用了什么。
- 用户只要一张插画/头像/风景图 → 直接用默认
3.1Nano2-Evo图片模型。
参考图/视频上传流程
当用户提供本地文件作为参考图或参考视频时,需要先调用文件上传 API 转换为可访问的 URL:
文件上传 API
Metadata
Not sure this is the right skill?
Describe what you want to build — we'll match you to the best skill from 16,000+ options.
Find the right skillPaste this into your clawhub.json to enable this plugin.
{
"plugins": {
"official-2393970875-deepsop-artist": {
"enabled": true,
"auto_update": true
}
}
}Related Skills
voice-clone
声音复刻技能,使用 AI Artist API 进行音色克隆和语音合成。支持查询已有音色、上传音频创建新音色、使用指定音色合成语音。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你的 API Key! 获取 API Key:访问 https://ai.deepsop.com/ 注册登录后创建。 触发场景: - 用户要求生成语音,如"用蔡总的音色说..."、"生成一段语音"、"语音合成"等。 - 用户要求克隆音色,如"上传音频创建音色"、"复刻这个声音"、"创建我的音色"等。 - 用户查询已有音色,如"有哪些音色"、"列出音色"、"查看音色列表"等。 - 用户指定音色名称或 ID 进行语音合成。 - 用户发送语音消息后要求用该声音合成其他内容。
ai-image-generator
AI 图片与视频异步生成技能,调用 AI Artist API 根据文本提示词生成图片或视频,自动轮询直到任务完成。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你自己的 API Key! 获取 API Key:访问 https://ai.deepsop.com/ 注册登录后创建。 支持图片模型:DeepSop系列图片模型(S4.5、S5.0L、N1、N2系列、W2.7系列等,共11个模型)。 支持视频模型:DeepSop系列视频模型(S1.5Pro、Sora2系列、Veo3.1系列、Wan2.6/Wan2.7系列、Kling V3 Omni等,共15个模型)。 触发场景: - 用户要求生成图片,如"生成一匹狼"、"画一只猫"、"风景画"、"帮我画"等。 - 用户要求生成视频,如"生成视频"、"文生视频"、"图生视频"、"生成一段...的视频"等。 - 用户指定具体模型(详见下方模型列表)。 - 用户上传参考图/参考视频时,自动先调用文件上传 API 转换为可访问 URL。
ai-image-generator
AI 图片与视频异步生成技能,调用 AI Artist API 根据文本提示词生成图片或视频,自动轮询直到任务完成。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你自己的 API Key! 获取 API Key:访问 https://ai.deepsop.com/ 注册登录后创建。 支持图片模型:DeepSop系列图片模型(S4.5、S5.0L、N1、N2系列、W2.7系列等,共11个模型)。 支持视频模型:DeepSop系列视频模型(S1.5Pro、Sora2系列、Veo3.1系列、Wan2.6/Wan2.7系列、Kling V3 Omni等,共15个模型)。 触发场景: - 用户要求生成图片,如"生成一匹狼"、"画一只猫"、"风景画"、"帮我画"等。 - 用户要求生成视频,如"生成视频"、"文生视频"、"图生视频"、"生成一段...的视频"等。 - 用户指定具体模型(详见下方模型列表)。 - 用户上传参考图/参考视频时,自动先调用文件上传 API 转换为可访问 URL。
human-ai-collab
人机协作台技能。用户输入自然语言销售指令,AI自动分析拆解任务参数,调用 KocGo 平台接口提交任务,等待后查询 AiWa 挖掘客户数据,生成 xlsx 文件并返回。触发场景:用户说「帮我找客户」「挖掘XXX行业客户」「找XXX个客户」「提交任务」等与客户挖掘、销售任务相关的指令。需要提前配置环境变量 KOCGO_API_KEY。