brightdata-research
Use when the user asks to batch-search candidates, verify public web evidence, dedupe results, and organize them into Feishu/Lark docs. Use especially for requests like "继续搜更多并追加到飞书", "帮我批量找一批候选并整理到飞书", "搜索+抓取+汇总+落文档/落表", "帮我调研一批XX平台", "扩展候选池", even if the user does not explicitly name this skill. Also use when the user says "检查飞书文档里有没有重复" or "去重" in the context of a research document — this skill covers dedup-and-cleanup as a sub-workflow. Do NOT use for: single-page summaries, one-off Q&A, pure code tasks, or tasks that don't involve batch research + structured output.
Install via CLI (Recommended)
clawhub install openclaw/skills/skills/16miku/brightdata-researchbrightdata-research
GitHub: https://github.com/16Miku/brightdata-research-skill ClawHub: https://clawhub.ai/16miku/brightdata-research
把"批量搜索 + 网页抓取 + 候选验证 + 结构化整理 + 飞书追加写入"做成一个稳定、可复用的研究流水线。
执行模式
本 skill 有两种执行模式。根据环境状态自动选择。
Mode A — 直接执行
前提:搜索、抓取、飞书写入能力均已就绪。 行为:跳过环境准备,直接进入 Step 0 开始研究流程。
Mode B — 环境准备 + 执行
前提:首次使用,或 preflight 发现缺少关键能力。
行为:先按 references/environment-checklist.md 逐项检查并修复,然后进入 Mode A。
环境准备的自动修复顺序见 references/lark-cli-install-and-auth.md 和 references/brightdata-mcp-setup.md。
核心原则
- 搜索和抓取可以并行。
- 最终去重、风险分层、飞书写入必须由主代理串行完成。
- 先汇总,再写入。 不要边搜索边直接写飞书。
- 保留 evidence。 每条候选都应尽量保留公开证据链接。
- 环境不齐就降级。 缺搜索、抓取、飞书、subagent 或 git/worktree 条件时,明确说明并切到 fallback。
- 不要依赖脆弱的 shell 多行拼接。 写飞书时优先构造稳定的完整 Markdown。
- 上下文复用。 如果当前对话已有历史候选池或目标文档信息,直接复用,不要重复询问用户。
标准工作流
Step 0. 明确本轮目标
从用户请求或历史上下文提取:
- 研究主题
- 目标数量
- 范围 / 国家 / 语言 / 模型范围
- 已有候选池或目标飞书文档
- 是"继续追加"还是"新建文档"
- 是否允许使用 subagent
上下文复用规则: 如果当前对话里已经出现过目标文档 URL/ID、历史候选列表、或研究主题,直接复用这些信息,不要再问用户"请提供文档 ID"。
Step 1. Preflight 环境检查
按 references/environment-checklist.md 检查:
| 能力 | 检查方式 | 缺失时行为 |
|---|---|---|
| 搜索 | 检查 BrightData MCP 工具或 CLI 是否可用 | 不能扩充候选池,只能验证用户给定名单 |
| 抓取 | 检查 BrightData scrape 工具或 CLI 是否可用 | 只输出低置信度线索 |
| 飞书写入 | 检查 lark-cli / lark-doc skill 是否可用 | 先输出 Markdown,告知用户未写入飞书 |
| 目标文档 | 检查上下文是否有 doc_id / URL | 询问用户:新建还是追加 |
| 历史去重 | 尝试读取已有文档内容 | 只做本轮内部去重,声明无法保证历史去重 |
| subagent | 检查 git 仓库和 HEAD 是否可解析 | 改为主代理串行执行 |
如果缺失项可自动修复(如 lark-cli 未安装),按 Mode B 修复后继续。 如果缺失项无法自动修复(如用户未提供 API token),明确告知用户并降级。
Step 2. 制定搜索批次
把任务拆成多个独立批次:
- 不同 query 变体
- 不同语言关键词
- 不同来源入口(官网、文档、pricing、help、faq、terms、privacy)
- 不同平台类别关键词(gateway、aggregator、relay、OpenAI-compatible API 等)
Step 3. 并行搜索与初筛
优先使用 BrightData 搜索和抓取工具:
- 搜索候选平台
- 获取官网、文档页、定价页、条款页等公开入口
- 记录标题、URL、摘要、来源 query
初筛时保留高相关候选,剔除明显无关页、镜像页、纯广告页。
Step 4. 去重
去重分两阶段:
阶段 A — 本轮内部去重:
- 域名规范化:去掉 www/http(s)/尾部斜杠,统一小写
- 品牌别名识别:同一平台可能有多个域名或品牌名(如 openrouter.ai 和 OpenRouter),应识别为同一候选
- 保留证据更完整、官网性更强的一条
阶段 B — 历史去重(如果能读取历史文档):
- 读取已有飞书文档内容
- 提取历史候选名单(名称 + 域名)
- 与本轮候选交叉比对
- 已在历史文档中出现的,不重复写入,但在去重说明中列出
如果无法读取历史文档,只做阶段 A,并明确声明。
Step 5. 结构化字段提取
默认推荐字段:
- 名称
- 官网
- 文档/API 页
- 定价页或价格线索
- 支持模型证据
- OpenAI-compatible / 统一 API 兼容证据
- 初步风险等级
- 备注
如果用户有自定义字段,优先满足用户字段 schema。
Step 6. 风险分层
使用 checklist 式评分:
| 维度 | 有=1分 | 无=0分 |
|---|---|---|
| 可访问的官网 | 1 | 0 |
| 公开 API 文档 | 1 | 0 |
| 定价页或明确价格信息 | 1 | 0 |
| Terms of Service / Privacy Policy | 1 | 0 |
| 可查证的公司/团队主体 | 1 | 0 |
| OpenAI-compatible 或统一 API 兼容证据 | 1 | 0 |
分层规则:
- A / 较低风险(5-6 分):公开资料完整,文档与能力证据充足
- B / 中风险(3-4 分):有一定公开证据,但部分维度需补验
- C / 高风险 / 待验证(0-2 分):主要依赖搜索摘要,暂不适合高置信纳入
每条候选附一句风险原因。
Step 7. 主代理统一收口
主代理负责:
- 汇总所有候选
- 最终去重
- 字段格式统一
- 风险口径统一
- 决定哪些算"新增不重复候选"
- 生成最终写入飞书的 Markdown
Step 8.
Metadata
Not sure this is the right skill?
Describe what you want to build — we'll match you to the best skill from 16,000+ options.
Find the right skillPaste this into your clawhub.json to enable this plugin.
{
"plugins": {
"official-16miku-brightdata-research": {
"enabled": true,
"auto_update": true
}
}
}Related Skills
image-downloader
当用户需要按关键词批量下载图片、从 Bing 或多个图片来源收集候选、保存图片到本地目录、避免重复下载,或希望复用当前仓库里的现成图片下载流程时使用。遇到类似“帮我按关键词下载 10 张图片”“批量抓取 Bing 图片并保存到本地”“从多个来源收集图片候选再下载”“需要下载摘要和保存目录”这类请求时,应主动使用这个 skill。
auto-remotion
从已有录屏/产品演示视频生成官网宣传片的工作流。 当用户提到以下场景时触发: - "把录屏转成宣传片"、"用录屏做产品视频" - "把演示视频做成官网介绍" - "Remotion 切片"、"视频分镜" - "产品宣传视频生成"、"screen recording to promo video" - "多个视频合并成宣传片"、"产品视频剪辑" - 用户想用 Remotion 把长视频切成短片段做宣传片 本技能覆盖从原始录屏素材到完整 Remotion 宣传片的完整流程: 环境准备 → 目标确认 → 素材识别(人工/自动)→ 分镜策划 → 结构化规格 → Remotion 实现 → 字幕轨 → 中文配音(edge-tts)→ BGM → 渲染出片 每个阶段都有具体检查清单、常见问题和决策框架。 **本 skill 不适用的情况**(见"不适用场景"章节): - 从技术文档/幻灯片生成视频(无源视频素材) - 需要 AI 生成视频画面本身(仅处理已有素材的剪辑组合)
arxiv-paper-writer
Use this skill whenever the user wants Claude Code to write, scaffold, compile, debug, or review an arXiv-style academic paper, especially survey papers with LaTeX, BibTeX citations, TikZ figures, tables, and PDF output. This skill should trigger for requests like writing a full paper, creating an arXiv paper project, turning a research topic into a LaTeX manuscript, reproducing the Paper-Write-Skill-Test agent-survey workflow, or setting up a Windows/Linux Claude Code paper-writing loop.
Mapping-Skill
AI/ML 人才搜索、论文作者发现、实验室成员爬取、GitHub 研究者挖掘与个性化招聘邮件生成 skill。只要用户提到查找 AI/ML PhD、研究员、工程师,抓取实验室成员、OpenReview/CVF 会议作者、GitHub 网络研究者,提取主页/Scholar/GitHub/邮箱/研究方向,识别华人、分类去重,或把结果导入飞书多维表格并批量生成邮件,就应该优先使用这个 skill;即使用户没有明确说“使用 Mapping-Skill”,只要任务属于这些复合工作流,也应触发。
Wechat Auto Publishing
Skill by 16miku