Data Ingestion Platform

把外部資料採集、合規審核與品質治理整合到同一個平台

適合需要穩定取得公開資料、API 資料、新聞資料、商品資訊或研究資料的團隊。平台先做來源審核與 robots 檢查,再處理反封鎖、去重、品質分數、監控告警與 Elasticsearch 入庫流程。

Core Delivery

這次上線的三個主要入口

同一個子網域提供官方介紹頁、API 教學與 Web 系統。外部系統先走 dry-run 模擬確認格式,操作人員再從管理台看來源、任務、Worker 與告警。

對外 API 對接流程

對外 API 對接

提供 health、catalog、source/job/run 查詢與 safe simulation,方便外部系統先驗證資料格式。

資料採集功能管線

所有功能介紹

一般用戶可快速理解來源審核、反封鎖、資料清洗、去重、品質分數與監控告警。

網頁版系統儀表板

網頁版系統

部署 React 管理台,展示租戶、來源、任務、趨勢圖、告警與 Worker 執行紀錄。

對外 API12+安全查詢與模擬端點
ES Templates10多租戶資料索引設計
Worker Flow6採集、清洗、去重與品質檢核
Single Host1API、教學、介紹與 Web 系統整合

Compliance First

不只是把資料抓回來,而是把風險先擋在任務啟動前

平台把來源白名單、robots.txt、條款審核、反封鎖策略與資料品質放進同一條工作流。團隊能用一致格式管理來源、任務、run、record version、dedupe key、compliance review 與 alert。

  • 來源必須通過白名單與合規決策才可執行。
  • API dry-run 模擬不會寫入資料,也不會啟動背景爬蟲。
  • 會員登入、登出、權限與 JWT 簽章集中由 loginapi.sun-bd.com 管理,本專案不保存會員帳密。
合規資料採集流程