web-data-extractor
网页数据采集器,支持 CSS 选择器/XPath 提取、批量抓取、自动分页、数据导出(CSV/JSON/Markdown)。
Install via CLI (Recommended)
clawhub install openclaw/skills/skills/careytian-ai/web-data-extractor网页数据采集器 v1.0.0
从网页批量提取结构化数据,支持多种选择器和导出格式。
功能特性
1. CSS 选择器提取
// 提取所有标题
web_fetch({"url": "https://example.com"})
// 使用 CSS 选择器提取特定元素
2. XPath 提取
// 支持 XPath 路径提取复杂结构
3. 批量抓取
- 自动分页处理
- URL 列表批量处理
- 并发控制
4. 数据导出
- CSV 格式
- JSON 格式
- Markdown 表格
快速使用示例
// 提取文章列表
const articles = extractData({
url: "https://blog.example.com",
selector: ".article-card",
fields: {
title: "h2.title",
link: "a[href]",
date: ".publish-date"
}
})
// 导出为 CSV
exportToCSV(articles, "output.csv")
// 导出为 JSON
exportToJSON(articles, "output.json")
// 批量抓取多页
const allData = scrapeMultiple({
baseUrl: "https://example.com/page/",
pages: 10,
selector: ".item"
})
使用场景
- 市场调研 - 抓取竞品价格、产品信息
- 内容聚合 - 收集多源内容
- 数据分析 - 提取公开数据集
- 舆情监控 - 追踪 mentions、评论
- SEO 分析 - 抓取关键词排名
注意事项
- 遵守目标网站的 robots.txt
- 控制抓取频率,避免被封
- 仅抓取公开数据
定制开发
需要定制化数据采集、清洗或自动化工作流?
📧 联系:careytian-ai@github
许可证
MIT-0
Metadata
Not sure this is the right skill?
Describe what you want to build — we'll match you to the best skill from 16,000+ options.
Find the right skillPaste this into your clawhub.json to enable this plugin.
{
"plugins": {
"official-careytian-ai-web-data-extractor": {
"enabled": true,
"auto_update": true
}
}
}Related Skills
smart-chatbot-builder
智能聊天机器人构建器,快速创建客服/销售/内部助手聊天机器人,支持知识库、多轮对话、API 集成。
content-batch-processor
批量内容处理工具,支持文本格式化、摘要生成、关键词提取、多语言翻译等批量操作。
automation-workflow-builder
自动化工作流构建器,设计并执行跨平台自动化流程,支持触发器、条件判断、多步骤操作。
zh-search-pro
中文搜索增强工具,整合百度、必应、微信、知乎等中文搜索引擎,支持高级搜索语法和时间过滤。
gumroad-product-images
Generate professional product cover images (600x600) and preview/showcase images (1280x720) for Gumroad digital products. Use when creating, updating, or batch-generating Gumroad product images including covers, previews, and thumbnails. Generates HTML templates with modern dark-theme designs, then screenshots them to PNG using Edge headless. Supports custom color themes, badges, content lists, and CTA buttons. No external API or AI image generation needed.