1. External API
对外 API 对接
公开 API 让其他系统能查询来源、任务、最新执行结果与平台能力,也能用 dry-run 模式模拟采集、解析、排程与 robots 检查。
- 一致的 response envelope,方便前端、排程器与第三方系统处理错误。
- 模拟端点默认不写入正式数据,适合测试与教学。
- OpenAPI-style JSON 可供工程团队快速理解端点与范例。
2. Governance Pipeline
数据治理与合规检查
每个来源都能记录法务审查、robots.txt、排程节奏、解析规则与采集结果。平台将这些记录串接成可追踪流程,避免数据来源不明或规则失控。
- 支持 API、RSS、XPath、CSS selector 与 headless browser 类型来源。
- 可记录 Proxy、User-Agent、Cookie、Rate Limit 与 CAPTCHA 策略。
- run history 与 alert 让运营人员快速追踪异常。
3. Web System
网页版管理台
Web App 让用户从浏览器查看来源、任务、Worker run、告警与 Elasticsearch 模板。登录身份由集中会员 API 验证,本项目不保存账号密码。
- 管理台部署在 `/app`,与官方页和 API 共用同一子域。
- 使用集中会员 access token 后才可读取受保护数据。
- 仪表板数据可作为 demo、验收与后续正式数据库串接基础。