Official Verified

ai-image-generator

AI 图片与视频异步生成技能，调用 AI Artist API 根据文本提示词生成图片或视频，自动轮询直到任务完成。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你自己的 API Key！获取 API Key：访问 https://ai.deepsop.com/ 注册登录后创建。支持图片模型：**3.1Nano2-Evo（默认）**、S5.0L、N2、W2.7、W2.7Pro、Nano2-Beta-Evo。支持视频模型：**V3.1FB（默认）**、S1.5Pro、V3.1PB、V3.1Fast、W2.6t / W2.6i / W2.6r、klingV3Omni、W2.7t / W2.7i / W2.7r。查看当前服务端激活的模型请运行：`python3 scripts/generate_image.py --list-models`。触发场景： - 用户要求生成图片，如"生成一匹狼"、"画一只猫"、"风景画"、"帮我画"等。 - 用户要求生成视频，如"生成视频"、"文生视频"、"图生视频"、"生成一段...的视频"等。 - 用户指定模型：N2、S5.0L、W2.7、W2.7Pro、3.1Nano2-Evo、Nano2-Beta-Evo、S1.5Pro、V3.1FB、V3.1PB、V3.1Fast、W2.6t、W2.6i、W2.6r、klingV3Omni、W2.7t、W2.7i、W2.7r。 - 用户上传参考图/参考视频时，自动先调用文件上传 API 转换为可访问 URL。

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/2393970875/deepsop-artist

Download Source Code (.zip)

AI Image Generator

异步生成 AI 图片与视频的技能。

⚠️ 首次使用必读

1. 获取 API Key

访问 https://ai.deepsop.com/ 注册并登录，然后创建你的 API Key。

2. 设置环境变量

在使用前，你必须先设置自己的 API Key：

# Linux/macOS/Git Bash (Windows)
export AI_ARTIST_TOKEN="sk-your_api_key_here"

# Windows PowerShell
$env:AI_ARTIST_TOKEN="sk-your_api_key_here"

或在项目根目录放一个 .env 文件（需 pip install python-dotenv，脚本会自动加载）：

AI_ARTIST_TOKEN=sk-your_api_key_here
FEISHU_WEBHOOK_URL=  # 可选，用于结果通知

3. 验证配置

验证配置是否正确：

python3 scripts/test_config.py

详细配置说明请查看下方"环境配置"章节。

快速开始

python3 scripts/generate_image.py "提示词"

意图澄清指南（重要）

调用前必须做的事：当用户的请求涉及参数复杂的模型，或关键信息缺失时，先向用户提问确认意图，再执行生成，避免浪费配额生成不符合预期的作品。

通用判断流程

先分辨媒介：图片 vs 视频（关键词："画/生成图片/海报/插画" → 图片；"视频/动画/片段/动起来" → 视频）。
判断输入材料：
- 纯文字 → 文生模式（TEXT）
- 有一张首帧图 → 首帧图生视频（FIRST&LAST）
- 有首尾两张图 → 首尾帧控制（FIRST&LAST，需首帧+尾帧）
- 有参考视频 → 续写（CONTINUATION）、编辑（EDIT）、参考生成（FEATURE/REFERENCE）
- 有多张参考图（要求角色/元素一致性） → 参考图模式（REFERENCE）
若用户意图不明确或关键材料缺失，必须提问，不要擅自假设。

按模型列出"必须澄清的关键点"

所有视频模型通用：

时长（秒）？比例？（16:9 横屏 / 9:16 竖屏 / 1:1 正方）
是否需要生成声音 / 配音 / 音乐？
提示词含有人物时，是否希望保持角色一致性？

klingV3Omni（最复杂）：5 种生成类型 + 多镜头模式，务必确认：

生成类型：文生（TEXT）/ 首尾帧（FIRST&LAST）/ 参考图生视频（REFERENCE）/ 编辑已有视频（EDIT）/ 参考视频再创作（FEATURE）？
镜头模式：单镜头（single）/ 智能多镜头（multi）/ 自定义分镜（customize，需要用户给出每个分镜的描述 + 时长）？
生成模式：std 标准 / pro 专家级？
若是 EDIT/FEATURE：需要参考视频 URL，并确认"是否保留原音"（keep_original_sound yes/no）

W2.6r / W2.7r（参考视频模式）：

参考图片 + 参考视频的总数 ≤ 5，询问用户是否都准备好了 URL / 本地文件
是否想保留原视频的角色音色？
希望迁移到什么场景？迁移的主体是什么？（让用户把场景描述写进 prompt）

W2.7i（图生视频，支持续写）：

输入是"一张首帧图"要让它动起来？→ FIRST&LAST（可选提供尾帧，让首尾过渡更可控）
输入是"一段已有视频"要让它继续播？→ CONTINUATION（需要 first_clip_url）
动作/运镜希望如何展开？请用户描述（写进 prompt）

W2.6t / W2.7t（文生视频）：

是否需要多镜头叙事？若是 → shot_type="multi"（智能分镜）
是否有反向提示词（不希望出现的内容）？
是否需要智能改写提示词（prompt_extend=True，默认 false）？
是否需要传入自定义音频？

V3.1Fast（V3.1 系列的复杂款）：

是否需要翻译为英文提示词（enhance_prompt）？
是否允许生成人物（personGeneration=allow_adult/dont_allow）？
图像缩放模式（resize_mode=pad/crop）？
时长 4 秒还是 8 秒？

V3.1FB / V3.1PB：时长固定 8 秒，不必问；但要确认比例 / 分辨率。

S1.5Pro（影视级）：

是否追求"音画同步 + 口型对齐"？（说明场景是否包含对话）
时长在 4-12 秒之间，默认 10 秒，可问用户。

图片复杂款 W2.7 / W2.7Pro / N2 / 3.1Nano2-Evo：

有无参考图？做"风格迁移"、"角色一致性"、"文字渲染"时参考图能显著提升质量。
是否需要特定比例？（默认 1:1，横图/竖图需指定）
质量档位（1K/2K/4K，详见每个模型表）

提问姿态（给 Claude 的指令）

一次最多问 2-3 个最关键的问题，别堆 10 个选项让用户懵。
优先问对画面/成本影响最大的参数（生成类型 > 时长 > 分辨率 > 次要参数）。
提供默认建议，让用户说"就这样"也能继续，不要强制用户全部自选。示例："我打算用 klingV3Omni 做参考图生视频，比例 16:9、时长 10s、生成声音。你有几张想作为参考的图片吗？要不要保留原音？"
材料缺失时必须停下来要素材（URL / 本地文件路径），不要用占位符或假 URL 代替。
用户若说"随便/都行"，按默认值直接执行，并在生成后告知用了哪些默认。

何时可以不提问直接执行

用户请求非常明确（提示词清晰 + 指定了模型 + 提供了必要的参考材料 URL）
用户明确说"快速来一张就行" / "随便出个视频"：用默认模型与默认参数，生成后告知用了什么。
用户只要一张插画/头像/风景图 → 直接用默认 3.1Nano2-Evo 图片模型。

参考图/视频上传流程

当用户提供本地文件作为参考图或参考视频时，需要先调用文件上传 API 转换为可访问的 URL：

文件上传 API

Read Full Documentation on GitHub

Metadata

Author@2393970875

Stars4473

Updated2026-05-01

View Author Profile

AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill

Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-2393970875-deepsop-artist": {
      "enabled": true,
      "auto_update": true
    }
  }
}

Safety NoteClawKit audits metadata but not runtime behavior. Use with caution.

Related Skills

voice-clone

声音复刻技能，使用 AI Artist API 进行音色克隆和语音合成。支持查询已有音色、上传音频创建新音色、使用指定音色合成语音。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你的 API Key！获取 API Key：访问 https://ai.deepsop.com/ 注册登录后创建。触发场景： - 用户要求生成语音，如"用蔡总的音色说..."、"生成一段语音"、"语音合成"等。 - 用户要求克隆音色，如"上传音频创建音色"、"复刻这个声音"、"创建我的音色"等。 - 用户查询已有音色，如"有哪些音色"、"列出音色"、"查看音色列表"等。 - 用户指定音色名称或 ID 进行语音合成。 - 用户发送语音消息后要求用该声音合成其他内容。

2393970875 4473