网页数据采集器

web-data-extractor

by careytian-ai

网页数据采集器,支持 CSS 选择器/XPath 提取、批量抓取、自动分页、数据导出(CSV/JSON/Markdown)。

4.5k数据与存储未扫描2026年4月6日

安装

claude skill add --url https://github.com/openclaw/skills

必需命令行工具

web_fetchreadwrite

文档

网页数据采集器 v1.0.0

从网页批量提取结构化数据,支持多种选择器和导出格式。

功能特性

1. CSS 选择器提取

javascript
// 提取所有标题
web_fetch({"url": "https://example.com"})
// 使用 CSS 选择器提取特定元素

2. XPath 提取

javascript
// 支持 XPath 路径提取复杂结构

3. 批量抓取

  • 自动分页处理
  • URL 列表批量处理
  • 并发控制

4. 数据导出

  • CSV 格式
  • JSON 格式
  • Markdown 表格

快速使用示例

javascript
// 提取文章列表
const articles = extractData({
  url: "https://blog.example.com",
  selector: ".article-card",
  fields: {
    title: "h2.title",
    link: "a[href]",
    date: ".publish-date"
  }
})

// 导出为 CSV
exportToCSV(articles, "output.csv")

// 导出为 JSON
exportToJSON(articles, "output.json")

// 批量抓取多页
const allData = scrapeMultiple({
  baseUrl: "https://example.com/page/",
  pages: 10,
  selector: ".item"
})

使用场景

  1. 市场调研 - 抓取竞品价格、产品信息
  2. 内容聚合 - 收集多源内容
  3. 数据分析 - 提取公开数据集
  4. 舆情监控 - 追踪 mentions、评论
  5. SEO 分析 - 抓取关键词排名

注意事项

  • 遵守目标网站的 robots.txt
  • 控制抓取频率,避免被封
  • 仅抓取公开数据

定制开发

需要定制化数据采集、清洗或自动化工作流?

📧 联系:careytian-ai@github


许可证

MIT-0

相关 Skills

技术栈评估

by alirezarezvani

Universal
热门

对比框架、数据库和云服务,结合 5 年 TCO、安全风险、生态活力与迁移复杂度做量化评估,适合技术选型、栈升级和替换路线决策。

帮你系统比较技术栈优劣,不只看功能,还把TCO、安全性和生态健康度一起量化,选型和迁移决策更稳。

数据与存储
未扫描17.5k

资深数据科学家

by alirezarezvani

Universal
热门

覆盖实验设计、特征工程、预测建模、因果推断与模型评估,适合用 Python/R/SQL 做 A/B 测试、时序分析和生产级 ML 落地,支撑数据驱动决策。

从 A/B 测试、因果分析到预测建模一条龙搞定,既有硬核统计方法也懂业务沟通,特别适合把数据结论真正落地。

数据与存储
未扫描17.5k

资深架构师

by alirezarezvani

Universal
热门

适合系统设计评审、ADR记录和扩展性规划,分析依赖与耦合,权衡单体或微服务、数据库与技术栈选型,并输出Mermaid、PlantUML、ASCII架构图。

搞系统设计、技术选型和扩展规划时,用它能更快理清架构决策与依赖关系,还能直接产出 Mermaid/PlantUML 图,方案讨论效率很高。

数据与存储
未扫描17.5k

相关 MCP 服务

by Anthropic

热门

PostgreSQL 是让 Claude 直接查询和管理你的数据库的 MCP 服务器。

这个服务器解决了开发者需要手动编写 SQL 查询的痛点,特别适合数据分析师或后端开发者快速探索数据库结构。不过,由于是参考实现,生产环境使用前务必评估安全风险,别指望它能处理复杂事务。

数据与存储
86.9k

SQLite 数据库

编辑精选

by Anthropic

热门

SQLite 是让 AI 直接查询本地数据库进行数据分析的 MCP 服务器。

这个服务器解决了 AI 无法直接访问 SQLite 数据库的问题,适合需要快速分析本地数据集的开发者。不过,作为参考实现,它可能缺乏生产级的安全特性,建议在受控环境中使用。

数据与存储
86.6k

by Firecrawl

热门

Firecrawl 是让 AI 直接抓取网页并提取结构化数据的 MCP 服务器。

它解决了手动写爬虫的麻烦,让 Claude 能直接访问动态网页内容。最适合需要实时数据的研究者或开发者,比如监控竞品价格或抓取新闻。但要注意,它依赖第三方 API,可能涉及隐私和成本问题。

数据与存储
6.5k

评论