Feature Overview

从来源审查到数据交付,让采集流程可控且可审计。

平台把外部 API、数据治理、排程管理、质量检查、Elasticsearch 模板与网页管理台整合在一起,让一般用户可以清楚掌握数据来源、任务状态与风险。

企业数据平台总览
API 对接流程

1. External API

对外 API 对接

公开 API 让其他系统能查询来源、任务、最新执行结果与平台能力,也能用 dry-run 模式模拟采集、解析、排程与 robots 检查。

  • 一致的 response envelope,方便前端、排程器与第三方系统处理错误。
  • 模拟端点默认不写入正式数据,适合测试与教学。
  • OpenAPI-style JSON 可供工程团队快速理解端点与范例。

2. Governance Pipeline

数据治理与合规检查

每个来源都能记录法务审查、robots.txt、排程节奏、解析规则与采集结果。平台将这些记录串接成可追踪流程,避免数据来源不明或规则失控。

  • 支持 API、RSS、XPath、CSS selector 与 headless browser 类型来源。
  • 可记录 Proxy、User-Agent、Cookie、Rate Limit 与 CAPTCHA 策略。
  • run history 与 alert 让运营人员快速追踪异常。
数据治理流程
网页系统画面

3. Web System

网页版管理台

Web App 让用户从浏览器查看来源、任务、Worker run、告警与 Elasticsearch 模板。登录身份由集中会员 API 验证,本项目不保存账号密码。

  • 管理台部署在 `/app`,与官方页和 API 共用同一子域。
  • 使用集中会员 access token 后才可读取受保护数据。
  • 仪表板数据可作为 demo、验收与后续正式数据库串接基础。