网页数据采集器

Name: 网页数据采集器
Rating: 5 (4460 reviews)
Author: careytian-ai

web-data-extractor

by careytian-ai

网页数据采集器，支持 CSS 选择器/XPath 提取、批量抓取、自动分页、数据导出（CSV/JSON/Markdown）。

4.5k数据与存储未扫描2026年4月6日

安装

claude skill add --url https://github.com/openclaw/skills

必需命令行工具

web_fetchreadwrite

文档

网页数据采集器 v1.0.0

从网页批量提取结构化数据，支持多种选择器和导出格式。

功能特性

1. CSS 选择器提取

javascript

// 提取所有标题
web_fetch({"url": "https://example.com"})
// 使用 CSS 选择器提取特定元素

2. XPath 提取

javascript

// 支持 XPath 路径提取复杂结构

3. 批量抓取

自动分页处理
URL 列表批量处理
并发控制

4. 数据导出

CSV 格式
JSON 格式
Markdown 表格

快速使用示例

javascript

// 提取文章列表
const articles = extractData({
  url: "https://blog.example.com",
  selector: ".article-card",
  fields: {
    title: "h2.title",
    link: "a[href]",
    date: ".publish-date"
  }
})

// 导出为 CSV
exportToCSV(articles, "output.csv")

// 导出为 JSON
exportToJSON(articles, "output.json")

// 批量抓取多页
const allData = scrapeMultiple({
  baseUrl: "https://example.com/page/",
  pages: 10,
  selector: ".item"
})

使用场景

市场调研 - 抓取竞品价格、产品信息
内容聚合 - 收集多源内容
数据分析 - 提取公开数据集
舆情监控 - 追踪 mentions、评论
SEO 分析 - 抓取关键词排名

注意事项

遵守目标网站的 robots.txt
控制抓取频率，避免被封
仅抓取公开数据

定制开发

需要定制化数据采集、清洗或自动化工作流？

📧 联系：careytian-ai@github

许可证

MIT-0

网页数据采集器

安装

文档

网页数据采集器 v1.0.0

功能特性

1. CSS 选择器提取

2. XPath 提取

3. 批量抓取

4. 数据导出

快速使用示例

使用场景

注意事项

定制开发

许可证

相关 Skills

资深架构师

技术栈评估

资深数据科学家

相关 MCP 服务

PostgreSQL 数据库

SQLite 数据库

Firecrawl 智能爬虫

评论