Official Verified

wechat-article-collector

微信公众号文章批量采集工具。通过 Browser Harness 连接用户已登录的微信公众号后台，自动提取文章列表、去重、下载全文并保存到本地知识库。适用于个人公众号内容备份、知识库构建、文章管理等场景。

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/adchina2025/wechat-article-collector

Download Source Code (.zip)

微信公众号文章采集器

通过 Browser Harness 自动采集微信公众号文章，支持去重、全文下载、本地存储。

功能特性

✅ 自动连接已登录的微信公众号后台
✅ 提取原创文章列表（标题、日期、链接）
✅ 智能去重（对比本地已收录文章）
✅ 批量下载文章全文
✅ 保存为 Markdown 格式
✅ 支持翻页获取所有文章

前置条件

Browser Harness 已安装（必需依赖）
- 项目地址：https://github.com/browser-use/browser-harness
- 安装位置：~/.openclaw/workspace/browser-harness
- 命令行工具：browser-harness（已在 PATH）
- Chrome 远程调试已授权
- 安装方法：
```
cd ~/.openclaw/workspace
git clone https://github.com/browser-use/browser-harness
cd browser-harness
uv tool install -e .
browser-harness --setup
```
微信公众号后台已登录
- 在 Chrome 中打开 https://mp.weixin.qq.com
- 登录你的公众号账号
- 保持浏览器打开

使用方法

1. 快速采集（一键完成）

cd ~/.openclaw/workspace/skills/wechat-article-collector
python3 scripts/collect_articles.py

脚本会自动：

连接到微信公众号后台
进入原创文章页面
提取所有文章列表
对比本地知识库去重
下载新文章全文
保存到 ~/.openclaw/workspace/knowledge/wechat/gh_<公众号ID>/

2. 分步执行

步骤 1：提取文章列表

python3 scripts/extract_article_list.py

输出：/tmp/all_articles.json

步骤 2：去重并下载

python3 scripts/download_new_articles.py

读取 /tmp/all_articles.json，对比本地知识库，下载新文章。

配置

编辑 config.json 自定义设置：

{
  "save_dir": "~/.openclaw/workspace/knowledge/wechat/gh_511119f160d8",
  "mp_url": "https://mp.weixin.qq.com/cgi-bin/appmsgcopyright?action=orignal&type=1&token=YOUR_TOKEN",
  "sleep_between_downloads": 1.5
}

文件结构

wechat-article-collector/
├── SKILL.md                    # 本文件
├── config.json                 # 配置文件
├── scripts/
│   ├── collect_articles.py    # 一键采集脚本
│   ├── extract_article_list.py # 提取文章列表
│   ├── download_new_articles.py # 下载新文章
│   └── utils.py               # 工具函数
└── README.md                   # 详细文档

输出格式

每篇文章保存为独立的 Markdown 文件：

YYYY-MM-DD_文章标题.md

文件内容：

# 文章标题

**发布日期**: YYYY-MM-DD

**原文链接**: http://mp.weixin.qq.com/s/xxxxx

---

文章正文内容...

故障排查

问题 1：Browser Harness 连接失败

症状：daemon alive — run browser-harness --setup to attach

解决：

browser-harness --doctor
browser-harness --setup

问题 2：提取不到文章列表

症状：Total: 0 articles

原因：未登录或未进入原创文章页面

解决：

在 Chrome 中手动打开 https://mp.weixin.qq.com
登录公众号
点击左侧菜单"原创管理" → "原创声明"
重新运行脚本

问题 3：文章内容提取失败

症状：❌ 提取失败 (len=0)

原因：页面加载慢或选择器不匹配

解决：

增加 time.sleep() 等待时间
检查微信公众号文章页面结构是否变化
更新选择器：#js_content 或 .rich_media_content

高级用法

自定义保存目录

python3 scripts/collect_articles.py --save-dir ~/Documents/公众号备份

只提取列表不下载

python3 scripts/extract_article_list.py --output /tmp/my_articles.json

指定公众号 ID

python3 scripts/collect_articles.py --account-id gh_abc123def456

依赖

Browser Harness: 浏览器自动化
Python 3.10+: 脚本运行环境
Chrome: 已登录微信公众号后台

注意事项

登录态：必须在 Chrome 中保持微信公众号后台登录
速率限制：下载间隔建议 ≥1.5 秒，避免触发反爬
文件命名：自动过滤特殊字符，避免文件系统冲突
去重逻辑：基于文件名模糊匹配，建议定期清理重复文件

扩展应用场景

Read Full Documentation on GitHub

Metadata

Author@adchina2025

Stars4473

Updated2026-05-01

View Author Profile

AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill

Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-adchina2025-wechat-article-collector": {
      "enabled": true,
      "auto_update": true
    }
  }
}

Safety NoteClawKit audits metadata but not runtime behavior. Use with caution.

Related Skills

shanghai-hua

上海话（沪语）对话 Skill（默认模式）。支持日常对话、问候、情感表达、美食、职场吐槽、上海本地特色文化等场景。说"普通话模式"可切换到正常普通话模式。触发词包括：侬、阿拉、啥、哪能、今朝、蛮、忒、扎劲、轧闹猛、白相、吃生活、扎台型、坍台、拎不清、拆烂污、捣浆糊、豁翎子、接翎子、小龙花、摸鱼、搭子、噶山湖等上海话特有词汇。

adchina2025 4473