ClawKit Logo
ClawKitReliability Toolkit
Back to Registry
Official Verified

url-reader

智能读取任意URL内容,支持微信公众号、小红书、今日头条、抖音、淘宝、天猫、京东、百度等中国主流平台,自动识别平台类型并提取核心内容。自动保存内容为Markdown,下载图片到本地。

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/justao/url-reader
Or

URL Reader - 智能网页内容读取器

一键读取任意URL的内容,自动识别平台类型,智能选择最佳读取策略,自动保存内容和图片到本地

默认保存目录

/Users/ys/laoyang知识库/nickys/素材/

保存格式:

素材/
└── 2026-01-30_文章标题/
    ├── content.md      # Markdown内容
    ├── img_01.webp     # 图片1
    ├── img_02.webp     # 图片2
    └── ...

核心技术方案

三层读取策略(自动降级)

┌─────────────────────────────────────────────────────────────────┐
│                     URL Reader 技术架构                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  用户输入 URL                                                    │
│       ↓                                                         │
│  ┌─────────────┐                                                │
│  │ 平台识别器   │ → 识别URL所属平台(微信/小红书/淘宝等)           │
│  └─────────────┘                                                │
│       ↓                                                         │
│  ┌─────────────────────────────────────────────────────────────┐│
│  │                    策略选择器                                ││
│  │  ┌───────────┐  ┌───────────┐  ┌───────────┐               ││
│  │  │ 策略1     │  │ 策略2     │  │ 策略3     │               ││
│  │  │ Firecrawl │→│ Jina      │→│ Playwright │               ││
│  │  │ (首选)    │  │ (备选)    │  │ (兜底)    │               ││
│  │  └───────────┘  └───────────┘  └───────────┘               ││
│  └─────────────────────────────────────────────────────────────┘│
│       ↓                                                         │
│  ┌─────────────┐                                                │
│  │ 内容提取器   │ → 提取标题、正文、作者、时间等                   │
│  └─────────────┘                                                │
│       ↓                                                         │
│  ┌─────────────┐                                                │
│  │ 格式化输出   │ → Markdown 格式                                │
│  └─────────────┘                                                │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

策略1:Firecrawl API(首选)

特点

  • AI 驱动的网页抓取
  • 自动处理 JavaScript 渲染
  • 自动绕过反爬机制
  • 直接返回干净的 Markdown
  • 支持 96% 的网站

API 调用

from firecrawl import Firecrawl

app = Firecrawl(api_key="fc-YOUR_API_KEY")
result = app.scrape(url, formats=["markdown"])

定价

  • 免费:500 页/月
  • 付费:按量计费

策略2:Jina Reader API(备选)

特点

  • 完全免费
  • 无需 API Key
  • 支持动态渲染
  • 返回 Markdown 格式

使用方式

https://r.jina.ai/{原始URL}

策略3:Playwright 浏览器自动化(兜底)

特点

  • 支持登录态保持
  • 可处理任何网站
  • 需要首次手动登录

适用场景

  • 微信公众号(需要登录)
  • 需要登录的平台
  • 前两种策略都失败时

使用方式

方式1:直接对话

用户:帮我读取这个链接 https://mp.weixin.qq.com/s/xxxxx
用户:看看这个小红书 https://www.xiaohongshu.com/explore/xxxxx
用户:读一下这个网页 https://example.com/article

方式2:命令行调用

/url-reader https://example.com/article

支持的平台

Metadata

Author@justao
Stars1865
Views0
Updated2026-03-03
View Author Profile
AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill
Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-justao-url-reader": {
      "enabled": true,
      "auto_update": true
    }
  }
}
Safety NoteClawKit audits metadata but not runtime behavior. Use with caution.