ClawKit Logo
ClawKitReliability Toolkit
Back to Registry
Official Verified

ai-image-generator

AI 图片与视频异步生成技能,调用 AI Artist API 根据文本提示词生成图片或视频,自动轮询直到任务完成。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你自己的 API Key! 获取 API Key:访问 https://ai.deepsop.com/ 注册登录后创建。 支持图片模型:**3.1Nano2-Evo(默认)**、S5.0L、N2、W2.7、W2.7Pro、Nano2-Beta-Evo。 支持视频模型:**V3.1FB(默认)**、S1.5Pro、V3.1PB、V3.1Fast、W2.6t / W2.6i / W2.6r、klingV3Omni、W2.7t / W2.7i / W2.7r。 查看当前服务端激活的模型请运行:`python3 scripts/generate_image.py --list-models`。 触发场景: - 用户要求生成图片,如"生成一匹狼"、"画一只猫"、"风景画"、"帮我画"等。 - 用户要求生成视频,如"生成视频"、"文生视频"、"图生视频"、"生成一段...的视频"等。 - 用户指定模型:N2、S5.0L、W2.7、W2.7Pro、3.1Nano2-Evo、Nano2-Beta-Evo、S1.5Pro、V3.1FB、V3.1PB、V3.1Fast、W2.6t、W2.6i、W2.6r、klingV3Omni、W2.7t、W2.7i、W2.7r。 - 用户上传参考图/参考视频时,自动先调用文件上传 API 转换为可访问 URL。

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/2393970875/deepsop-artist
Or

AI Image Generator

异步生成 AI 图片与视频的技能。

⚠️ 首次使用必读

1. 获取 API Key

访问 https://ai.deepsop.com/ 注册并登录,然后创建你的 API Key。

2. 设置环境变量

在使用前,你必须先设置自己的 API Key:

# Linux/macOS/Git Bash (Windows)
export AI_ARTIST_TOKEN="sk-your_api_key_here"

# Windows PowerShell
$env:AI_ARTIST_TOKEN="sk-your_api_key_here"

或在项目根目录放一个 .env 文件(需 pip install python-dotenv,脚本会自动加载):

AI_ARTIST_TOKEN=sk-your_api_key_here
FEISHU_WEBHOOK_URL=  # 可选,用于结果通知

3. 验证配置

验证配置是否正确:

python3 scripts/test_config.py

详细配置说明请查看下方"环境配置"章节。

快速开始

python3 scripts/generate_image.py "提示词"

意图澄清指南(重要)

调用前必须做的事:当用户的请求涉及参数复杂的模型,或关键信息缺失时,先向用户提问确认意图,再执行生成,避免浪费配额生成不符合预期的作品。

通用判断流程

  1. 先分辨媒介:图片 vs 视频(关键词:"画/生成图片/海报/插画" → 图片;"视频/动画/片段/动起来" → 视频)。
  2. 判断输入材料
    • 纯文字 → 文生模式(TEXT)
    • 有一张首帧图 → 首帧图生视频(FIRST&LAST)
    • 有首尾两张图 → 首尾帧控制(FIRST&LAST,需首帧+尾帧)
    • 有参考视频 → 续写(CONTINUATION)、编辑(EDIT)、参考生成(FEATURE/REFERENCE)
    • 有多张参考图(要求角色/元素一致性) → 参考图模式(REFERENCE)
  3. 若用户意图不明确或关键材料缺失,必须提问,不要擅自假设。

按模型列出"必须澄清的关键点"

所有视频模型通用

  • 时长(秒)? 比例?(16:9 横屏 / 9:16 竖屏 / 1:1 正方)
  • 是否需要生成声音 / 配音 / 音乐?
  • 提示词含有人物时,是否希望保持角色一致性?

klingV3Omni(最复杂):5 种生成类型 + 多镜头模式,务必确认:

  • 生成类型:文生(TEXT)/ 首尾帧(FIRST&LAST)/ 参考图生视频(REFERENCE)/ 编辑已有视频(EDIT)/ 参考视频再创作(FEATURE)?
  • 镜头模式:单镜头(single)/ 智能多镜头(multi)/ 自定义分镜(customize,需要用户给出每个分镜的描述 + 时长)?
  • 生成模式std 标准 / pro 专家级?
  • 若是 EDIT/FEATURE:需要参考视频 URL,并确认"是否保留原音"(keep_original_sound yes/no)

W2.6r / W2.7r(参考视频模式)

  • 参考图片 + 参考视频的总数 ≤ 5,询问用户是否都准备好了 URL / 本地文件
  • 是否想保留原视频的角色音色?
  • 希望迁移到什么场景?迁移的主体是什么?(让用户把场景描述写进 prompt)

W2.7i(图生视频,支持续写)

  • 输入是"一张首帧图"要让它动起来?→ FIRST&LAST(可选提供尾帧,让首尾过渡更可控)
  • 输入是"一段已有视频"要让它继续播?→ CONTINUATION(需要 first_clip_url
  • 动作/运镜希望如何展开?请用户描述(写进 prompt)

W2.6t / W2.7t(文生视频)

  • 是否需要多镜头叙事?若是 → shot_type="multi"(智能分镜)
  • 是否有反向提示词(不希望出现的内容)?
  • 是否需要智能改写提示词(prompt_extend=True,默认 false)?
  • 是否需要传入自定义音频?

V3.1Fast(V3.1 系列的复杂款)

  • 是否需要翻译为英文提示词(enhance_prompt)?
  • 是否允许生成人物(personGeneration=allow_adult/dont_allow)?
  • 图像缩放模式(resize_mode=pad/crop)?
  • 时长 4 秒还是 8 秒?

V3.1FB / V3.1PB:时长固定 8 秒,不必问;但要确认比例 / 分辨率。

S1.5Pro(影视级)

  • 是否追求"音画同步 + 口型对齐"?(说明场景是否包含对话)
  • 时长在 4-12 秒之间,默认 10 秒,可问用户。

图片复杂款 W2.7 / W2.7Pro / N2 / 3.1Nano2-Evo

  • 有无参考图?做"风格迁移"、"角色一致性"、"文字渲染"时参考图能显著提升质量。
  • 是否需要特定比例?(默认 1:1,横图/竖图需指定)
  • 质量档位(1K/2K/4K,详见每个模型表)

提问姿态(给 Claude 的指令)

  • 一次最多问 2-3 个最关键的问题,别堆 10 个选项让用户懵。
  • 优先问对画面/成本影响最大的参数(生成类型 > 时长 > 分辨率 > 次要参数)。
  • 提供默认建议,让用户说"就这样"也能继续,不要强制用户全部自选。 示例:"我打算用 klingV3Omni 做参考图生视频,比例 16:9、时长 10s、生成声音。你有几张想作为参考的图片吗?要不要保留原音?"
  • 材料缺失时必须停下来要素材(URL / 本地文件路径),不要用占位符或假 URL 代替。
  • 用户若说"随便/都行",按默认值直接执行,并在生成后告知用了哪些默认。

何时可以不提问直接执行

  • 用户请求非常明确(提示词清晰 + 指定了模型 + 提供了必要的参考材料 URL)
  • 用户明确说"快速来一张就行" / "随便出个视频":用默认模型与默认参数,生成后告知用了什么。
  • 用户只要一张插画/头像/风景图 → 直接用默认 3.1Nano2-Evo 图片模型。

参考图/视频上传流程

当用户提供本地文件作为参考图或参考视频时,需要先调用文件上传 API 转换为可访问的 URL:

文件上传 API

Metadata

Stars4473
Views0
Updated2026-05-01
View Author Profile
AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill
Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-2393970875-deepsop-artist": {
      "enabled": true,
      "auto_update": true
    }
  }
}
Safety NoteClawKit audits metadata but not runtime behavior. Use with caution.

Related Skills

voice-clone

声音复刻技能,使用 AI Artist API 进行音色克隆和语音合成。支持查询已有音色、上传音频创建新音色、使用指定音色合成语音。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你的 API Key! 获取 API Key:访问 https://ai.deepsop.com/ 注册登录后创建。 触发场景: - 用户要求生成语音,如"用蔡总的音色说..."、"生成一段语音"、"语音合成"等。 - 用户要求克隆音色,如"上传音频创建音色"、"复刻这个声音"、"创建我的音色"等。 - 用户查询已有音色,如"有哪些音色"、"列出音色"、"查看音色列表"等。 - 用户指定音色名称或 ID 进行语音合成。 - 用户发送语音消息后要求用该声音合成其他内容。

2393970875 4473

ai-image-generator

AI 图片与视频异步生成技能,调用 AI Artist API 根据文本提示词生成图片或视频,自动轮询直到任务完成。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你自己的 API Key! 获取 API Key:访问 https://ai.deepsop.com/ 注册登录后创建。 支持图片模型:DeepSop系列图片模型(S4.5、S5.0L、N1、N2系列、W2.7系列等,共11个模型)。 支持视频模型:DeepSop系列视频模型(S1.5Pro、Sora2系列、Veo3.1系列、Wan2.6/Wan2.7系列、Kling V3 Omni等,共15个模型)。 触发场景: - 用户要求生成图片,如"生成一匹狼"、"画一只猫"、"风景画"、"帮我画"等。 - 用户要求生成视频,如"生成视频"、"文生视频"、"图生视频"、"生成一段...的视频"等。 - 用户指定具体模型(详见下方模型列表)。 - 用户上传参考图/参考视频时,自动先调用文件上传 API 转换为可访问 URL。

2393970875 4473

ai-image-generator

AI 图片与视频异步生成技能,调用 AI Artist API 根据文本提示词生成图片或视频,自动轮询直到任务完成。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你自己的 API Key! 获取 API Key:访问 https://ai.deepsop.com/ 注册登录后创建。 支持图片模型:DeepSop系列图片模型(S4.5、S5.0L、N1、N2系列、W2.7系列等,共11个模型)。 支持视频模型:DeepSop系列视频模型(S1.5Pro、Sora2系列、Veo3.1系列、Wan2.6/Wan2.7系列、Kling V3 Omni等,共15个模型)。 触发场景: - 用户要求生成图片,如"生成一匹狼"、"画一只猫"、"风景画"、"帮我画"等。 - 用户要求生成视频,如"生成视频"、"文生视频"、"图生视频"、"生成一段...的视频"等。 - 用户指定具体模型(详见下方模型列表)。 - 用户上传参考图/参考视频时,自动先调用文件上传 API 转换为可访问 URL。

2393970875 4473

human-ai-collab

人机协作台技能。用户输入自然语言销售指令,AI自动分析拆解任务参数,调用 KocGo 平台接口提交任务,等待后查询 AiWa 挖掘客户数据,生成 xlsx 文件并返回。触发场景:用户说「帮我找客户」「挖掘XXX行业客户」「找XXX个客户」「提交任务」等与客户挖掘、销售任务相关的指令。需要提前配置环境变量 KOCGO_API_KEY。

2393970875 4473