silas_wechat_article_search
微信公众号文章搜索与解析。搜狗微信+新榜双源搜索,Python脚本解析全文(零Node依赖),Serper转载兜底。
Install via CLI (Recommended)
clawhub install openclaw/skills/skills/aohoyo/silas-wechat-article-search微信公众号文章搜索与解析 v2.0
搜索微信公众号文章 → 解析全文 → 评分 → 入库知识库。
搜索源(按优先级)
源1:搜狗微信(主力,零依赖)
curl -s "https://weixin.sogou.com/weixin?type=2&query=关键词" \
-H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
用 Python 正则提取标题和链接,返回搜狗中间链接列表。
源2:新榜(补充)
curl -s "https://google.serper.dev/search" \
-H "X-API-KEY: $SERPER_API_KEY" \
-d '{"q":"site:newrank.cn 关键词","num":10}'
源3:Serper 转载兜底
当微信原文无法解析时,搜索转载版:
curl -s "https://google.serper.dev/search" \
-H "X-API-KEY: $SERPER_API_KEY" \
-d '{"q":"文章标题","num":5}'
优先选新浪/搜狐/网易等全文转载。
内容解析(Python 脚本)
核心脚本:scripts/parse_article.py
依赖
pip3 install requests beautifulsoup4
用法
python3 scripts/parse_article.py "https://mp.weixin.qq.com/s/xxxxx"
python3 scripts/parse_article.py "URL" --save
python3 scripts/parse_article.py "URL" --save --output article.json
输出 JSON
{
"title": "文章标题",
"author": "公众号名称",
"publish_time": "2026-04-18",
"content": "正文全文...",
"word_count": 5594,
"images_count": 21,
"images": ["url1", "url2", ...],
"url": "原始链接",
"parsed_at": "2026-04-18 22:00:00"
}
原理
- iPhone UA 绕过微信验证(关键!)
- BeautifulSoup 解析
rich_media_content提取正文 - 段落结构保留,过滤 <10 字的噪声
- 图片提取:
data-src属性(微信防盗链图)
微信原文解析失败时
- Serper 搜转载版(新浪/搜狐/网易)
- web_fetch 抓转载全文
- browser-search 兜底
入库流程
1. 搜索
选词(从 web-keywords.json)→ 搜狗搜索 → 新榜补充 → 合并去重
2. 解析
对每篇目标文章:
a. 先用 Python 脚本解析微信原文
b. 失败 → Serper 搜转载 → web_fetch 抓全文
c. 提取:标题、作者、正文、图片
3. 评分
5 维度评分(同 web-search 技能标准):
- 数据密度 30%、实操性 25%、时效性 20%、相关性 15%、来源权威 10%
- < 5.0 不入库
- ≥ 8.5 通知管理员
4. 去重
a. feishu_search_doc_wiki 搜索知识库标题
b. memory/collect-log.json 查历史
c. URL + 标题去重
5. 入库
a. 读 wiki-directory-manager 技能匹配目录
b. feishu_create_doc 创建文档(标题不带评分)
c. 正文格式:
> 来源:URL
> 发布日期:YYYY-MM-DD
> 采集日期:YYYY-MM-DD
> 评分:X.X 🟢/🟡/🟠/🔴
正文内容...
d. 有信息量图片 → 保存本地 → feishu_doc_media insert
e. 写多维表格索引(目录必须和实际一致)
图片处理
- 保存标准:数据图表/流程图/对比截图/产品截图
- 跳过:装饰图/广告/头像/logo
- 每篇最多 10 张,单张 <20MB
- 保存路径:
/tmp/openclaw/images/
踩坑指南
- 微信验证码:iPhone UA 可绕过,Desktop UA 会被拦截
- 搜狗中间链接:不能直接 web_fetch,需先解析跳转或用 Python 脚本
- 微信图片防盗链:
data-src是真实地址,但直接访问需要 Referer - 频繁请求被封:搜狗搜索间隔 3-5 秒
- 转载版内容可能有删减:优先用微信原文,转载版做兜底
- 不要用 Node.js:Python 脚本足够,避免 cheerio 依赖
- save_to_feishu.py 不用:飞书写入用 agent 原生工具(feishu_create_doc)
频率
Cron:每小时第22分钟(ID: de3ee2d3) 每次 1 个关键词,搜索 → 解析 → 评分 → 入库
Metadata
Not sure this is the right skill?
Describe what you want to build — we'll match you to the best skill from 16,000+ options.
Find the right skillPaste this into your clawhub.json to enable this plugin.
{
"plugins": {
"official-aohoyo-silas-wechat-article-search": {
"enabled": true,
"auto_update": true
}
}
}Related Skills
openclaw-sync
OpenClaw 数据轻量同步技能。基于 rclone + cron,支持 70+ 云存储后端, 定时备份 workspace 数据,资源占用极低。
aliyun-oss
阿里云 OSS 对象存储技能。支持文件上传、下载、列出、删除、获取 URL 等操作。 两层架构:Node.js SDK(优先)→ ossutil CLI。
qq-email
QQ 邮箱智能管理工具。支持收发邮件、搜索筛选、附件处理,以及 AI 智能整理功能(自动摘要、分类、优先级排序、待办提取)。当用户需要操作 QQ 邮箱、查收邮件、发送邮件、整理收件箱或处理邮件相关任务时使用此技能。
qiniu-kodo
七牛云 KODO 对象存储技能。支持文件上传、下载、列出、删除、获取 URL 等操作。 三层架构:MCP 工具(优先)→ Node.js SDK → qshell CLI。
silas_clash
Clash/Mihomo 代理管理。安装配置、查看状态、切换模式/节点、测速、外网失败时自动代理。