alphapai-scraper

by clawdbotrr

登录 Alpha派并抓取最近 N 小时点评,保存原文、结构化归档并建立本地索引;也可以用精确检索、向量检索或混合检索查询最近 N 天的历史点评库并生成手机友好摘要,可选发送到飞书。

3.7k搜索与获取未扫描2026年3月23日

安装

claude skill add --url github.com/openclaw/skills/tree/main/skills/clawdbotrr/alphapai-scraper

文档

AlphaPai Scraper

这个 skill 现在包含两类能力:

  1. 抓取 Alpha派最近 N 小时点评,保存原文、结构化记录、摘要
  2. 查询已经归档的 Alpha派点评库,按主题和时间窗口生成检索摘要

何时使用

  • 用户要抓取 Alpha派最近 1 小时或最近 N 小时点评
  • 用户要自动登录 Alpha派并复用 token / cookies / 账号密码
  • 用户要把原文归档成可检索的本地索引
  • 用户要问“最近一周关于英伟达的所有点评”这类历史查询
  • 用户要把摘要发回飞书
  • 用户要把这个 skill 打包成可迁移、可发布的版本

默认规则

  • 如果用户没有指定时间窗口,默认抓取最近 1 小时
  • 如果用户明确说“抓最近 3 小时”,运行时传 --hours 3
  • 如果用户要查询历史点评库,默认查最近 7
  • 原文、结构化记录、索引库、摘要默认都保存到 ~/.openclaw/data/alphapai-scraper
  • 飞书发送默认关闭,只有配置了 webhook 才发送

认证优先级

优先按下面顺序尝试,成功一个就继续:

  1. 已缓存 storage state
  2. USER_AUTH_TOKEN
  3. cookies.json
  4. 账号密码
  5. 本机 Chrome Profile

如果目的是“最稳且最可迁移”,优先向用户要 USER_AUTH_TOKEN。 如果 token 没有,再要 cookies.json。 账号密码方案留作最后,因为可能遇到验证码或页面变更。 如果用户愿意做一次人工登录引导,也可以运行 scripts/bootstrap_session.py 先缓存会话,后续任务直接复用。

首次配置

优先只读以下文件,不要把示例文件整段贴回对话:

  • config/settings.example.json
  • config/token.example.json
  • config/cookies.example.json
  • config/credentials.example.json

首次使用时,让用户把示例文件复制为本地文件并填写:

  • config/settings.local.json
  • config/token.local.json
  • config/cookies.local.json
  • config/credentials.local.json

已有旧版 config/token.json 时,脚本也会兼容读取。 如果想快速初始化,也可以直接运行 scripts/init_config.py 生成 settings.local.json

运行方式

标准抓取:

bash
python3 /Users/bot/.openclaw/workspace/skills/alphapai-scraper/scripts/run.py --hours 1

查询最近 7 天关于英伟达的点评:

bash
python3 /Users/bot/.openclaw/workspace/skills/alphapai-scraper/scripts/run.py --query 英伟达 --days 7

如果用户明确想只走向量模糊召回:

bash
python3 /Users/bot/.openclaw/workspace/skills/alphapai-scraper/scripts/run.py --query 英伟达 --days 7 --query-mode vector

如果想看浏览器过程,追加:

bash
--headed

如果只要文件,不发飞书,追加:

bash
--skip-feishu

抓取策略

浏览器启动优先顺序:

  1. Playwright 无状态浏览器
  2. 本机 Chrome Profile 兜底

内容提取优先顺序:

  1. 点击条目抓弹窗正文
  2. 打开详情链接抓正文
  3. 回退到卡片正文

输出

  • 原文:<output.base_dir>/raw/YYYYMMDD_HHMMSS.md|txt
  • 结构化:<output.base_dir>/normalized/YYYYMMDD_HHMMSS.json
  • 索引库:<output.base_dir>/index/alphapai.sqlite
  • 向量索引:<output.base_dir>/index/vector/
  • 摘要:<output.base_dir>/reports/YYYYMMDD_HHMMSS_summary.md|txt
  • 查询摘要:<output.base_dir>/reports/YYYYMMDD_HHMMSS_query_summary.md
  • 运行元数据:<output.base_dir>/runtime/*.json

查询规则

  • 默认使用 hybrid 模式,合并 SQLite + FTS5 精确检索和本地 Chroma 向量召回
  • 如果用户明确要“只精确搜”或“只模糊搜”,可以分别传 --query-mode exact--query-mode vector
  • 会先按最近 N 天过滤,再对标题和正文做全文检索,并补充向量召回
  • 内置少量实体别名,例如 英伟达 / NVIDIA / NVDA / Blackwell / GB200
  • 如果没有命中,固定返回:alphapai最近N天没有相关点评

飞书

如果 feishu.enabled=true 且配置了 webhook_url,脚本会自动发送抓取摘要或查询摘要。 如果没有 webhook,只保留本地文件。

打包与发布

发布前不要直接上传带有真实 token/cookies 的技能目录。

先执行:

bash
python3 /Users/bot/.openclaw/workspace/skills/alphapai-scraper/scripts/package_skill.py

这会生成一个去敏后的可发布副本,默认输出到:

bash
/Users/bot/.openclaw/workspace/skills/dist/alphapai-scraper

后续如果用户确认已经登录 ClawHub,再用这个去敏副本发布。 如果本机已经安装并登录 ClawHub,也可以直接运行 scripts/publish_skill.py 一键发布。

相关 Skills

agent-browser

by chulla-ceja

热门

Browser automation CLI for AI agents. Use when the user needs to interact with websites, including navigating pages, filling forms, clicking buttons, taking screenshots, extracting data, testing web apps, or automating any browser task. Triggers include requests to "open a website", "fill out a form", "click a button", "take a screenshot", "scrape data from a page", "test this web app", "login to a site", "automate browser actions", or any task requiring programmatic web interaction.

搜索与获取
未扫描3.7k

接口规范

by alexxxiong

热门

API 规范管理工具 - 跨项目 API 文档的初始化、更新、查询与搜索。Triggers: 'API文档', 'API规范', '接口文档', '路由解析', 'apispec', 'API lookup', 'API search'.

搜索与获取
未扫描3.7k

investment-research

by caijichang212

热门

Perform structured investment research (投研分析) for a company/stock/ETF/sector using a repeatable framework: fundamentals (basic/财务报表与商业模式), technical analysis (技术指标与关键价位), industry research (行业景气与竞争格局), valuation (估值对比/情景), catalysts and risks, and produce a professional research report + actionable plan. Use when the user asks for: equity/ETF analysis, earnings/financial statement breakdown, peer/industry comparison, valuation ranges, bull/base/bear scenarios, technical trend/support-resistance, or a full research memo.

搜索与获取
未扫描3.7k

相关 MCP 服务

by Anthropic

热门

Puppeteer 是让 Claude 自动操作浏览器进行网页抓取和测试的 MCP 服务器。

这个服务器解决了手动编写 Puppeteer 脚本的繁琐问题,适合需要自动化网页交互的开发者,比如抓取动态内容或做端到端测试。不过,作为参考实现,它可能缺少生产级的安全防护,建议在可控环境中使用。

搜索与获取
82.9k

网页抓取

编辑精选

by Anthropic

热门

Fetch 是 MCP 官方参考服务器,让 AI 能抓取网页并转为 Markdown 格式。

这个服务器解决了 AI 直接处理网页内容时格式混乱的问题,适合需要让 Claude 分析在线文档或新闻的开发者。不过作为参考实现,它缺乏生产级的安全配置,你得自己处理反爬虫和隐私风险。

搜索与获取
82.9k

Brave 搜索

编辑精选

by Anthropic

热门

Brave Search 是让 Claude 直接调用 Brave 搜索 API 获取实时网络信息的 MCP 服务器。

如果你想让 AI 助手帮你搜索最新资讯或技术文档,这个工具能绕过传统搜索的限制,直接返回结构化数据。特别适合需要实时信息的开发者,比如查 API 更新或竞品动态。不过它依赖 Brave 的 API 配额,高频使用可能受限。

搜索与获取
82.9k

评论