OpenClaw News Homepage Fetcher

使用本技能时，应把任务理解为**“从主流新闻网站首页出发，进入当天重点文章，提取正文，翻译成中文，并整理成可直接进入 Word 的日报素材”**，而不是单纯做搜索引擎聚合。

何时使用

在以下场景中触发本技能：

用户要求抓取每日新闻、早报、晚报、国际新闻汇总、新加坡新闻汇总或中国新闻汇总。
用户要求从 BBC、CNA、联合早报、新华社、人民网、路透社等主流媒体首页点击进入新闻正文。
用户要求提取文章全文、保留出处、翻译成中文，并进一步生成 Word 文档或 Word-ready 中间稿。
用户要求按国家、地区、媒体类别或栏目汇总新闻，并去重后输出日报。

不适用场景

在以下场景中，不要把本技能作为主方法：

用户只要单篇文章摘要，而不需要首页导航式抓取。
用户要求抓取社交媒体帖子、论坛内容或非新闻站点。
用户要求绕过付费墙、登录墙或访问限制。
用户要求实时高频监控、秒级推送或全站爬虫式抓取。

先读取哪些参考文件

默认先读以下文件，再开始执行。

文件	何时读取	作用
`references/source_catalog.md`	每次选新闻源时	查看主流站点链接、优先级和使用建议
`references/source_manifest.yaml`	需要程序化配置站点时	读取机器可读的站点清单
`references/translation_docx_spec.md`	需要翻译、摘要、生成 Word-ready 输出时	对齐字段规范、中文风格和文档结构
`templates/daily_news_digest_template.md`	需要生成最终汇编时	复用日报模板

默认工作流

按以下顺序执行，不要跳步。

确定新闻范围。 先判断用户要国际新闻、新加坡新闻、中国新闻、财经新闻，还是综合日报；再决定抓取的媒体组合和每个媒体的篇数上限。
打开首页或频道首页。 优先从站点首页进入；必要时补充 world、asia、china、singapore、business 等频道页。
筛选候选链接。 只保留正文型文章链接，排除直播页、纯视频页、播客页、评论页、注册页、专题聚合页和广告页。
进入文章正文。 提取标题、作者、发布时间、栏目、正文段落、原始链接和站点名。
执行正文清洗。 删除导航、推荐阅读、广告、社交按钮、版权尾注和重复段落；保留对理解事件有用的图片说明或关键引述。
执行去重。 若多家媒体报道同一事件，保留多源版本，但避免同一媒体同一事件的重复卡片；对重复稿使用统一事件标签。
生成中文结果。 对英文原文生成中文标题、中文摘要和中文全文译文；对中文原文生成标准化摘要。
组装日报。 按国际、新加坡、中国、财经等栏目编排，输出为 Word-ready Markdown、结构化 JSON 或直接 DOCX 所需中间稿。
标记异常。 遇到付费墙、正文缺失、脚本加载失败或链接失效时，写入失败说明，不要伪造内容。

首页抓取规则

默认采用“首页优先、频道补充、正文确认”的策略。

链接选择

优先点击以下位置的链接：

首页主卡片或 Hero 区块。
Latest / Top Stories / World / Asia / Singapore / China / Business 列表。
栏目页前两屏内的正文型文章卡片。

默认跳过以下链接：

Opinion / Comment / Editorial。
Live updates / Live blog。
Video、Podcast、Photo gallery。
Newsletter、Subscribe、Sign in。
Tag 页面、专题页、作者主页、列表分页页。

文章完整性判断

只有在下列条件至少满足大部分时，才把文章纳入最终结果：

标题明确
来源可识别
正文至少提取到数个实质段落
时间信息可见或可以从页面元数据获得
页面不是纯视频或纯图库

翻译与输出规则

中文翻译和 Word 编排时，严格遵循 references/translation_docx_spec.md。最低要求如下：

保留原文标题和原文链接。
生成中文标题、120 至 220 字中文摘要和中文正文。
保留作者、时间、栏目和来源。
对不确定信息保留原文中的不确定性表达。
不得把摘要写成评论或观点稿。

默认输出字段

每篇文章至少产出以下字段：

字段	说明
source_name	来源媒体
source_region	来源地区
section	频道或栏目
article_url	原文链接
title_original	原始标题
title_zh	中文标题
published_at	发布时间
author	作者或机构
language_original	原文语言
summary_zh	中文摘要
body_zh	中文正文
keywords_zh	中文关键词
extraction_note	抓取备注或异常说明

质量门槛

始终满足以下要求：

可追溯。 每篇文章都必须保留来源和链接。
可核查。 不要补写未从页面获得的信息。
可阅读。 中文标题和摘要必须通顺，不要只做机械直译。
可筛选。 区分突发、政策、国际、财经、科技、社会等主题标签。
可交付。 最终结果必须能直接进入 Word 文档，而不是一堆无结构文本。

站点访问与限制处理

遇到付费墙或登录墙时，记录为“受限页面”，然后换抓其他可访问稿件。
遇到动态渲染正文时，优先使用浏览器正文视图；必要时回退到页面源码提取，但不要执行不受信任脚本。
遇到首页重复卡片时，优先保留正文更完整、发布时间更清晰的版本。
遇到纯快讯、正文极短的内容时，可纳入“快讯栏”，但不要冒充完整文章。

openclaw-news-homepage-fetcher

Install via CLI (Recommended)

OpenClaw News Homepage Fetcher

何时使用

不适用场景

先读取哪些参考文件

默认工作流

首页抓取规则

链接选择

文章完整性判断

翻译与输出规则

默认输出字段

质量门槛

站点访问与限制处理

推荐默认配置

标准每日综合版

中文优先版

Metadata

Related Skills

ashare-market-data-fetcher