Feature Overview

從來源審查到資料交付,讓採集流程可控且可稽核。

平台把外部 API、資料治理、排程管理、品質檢查、Elasticsearch 模板與網頁管理台整合在一起,讓一般用戶可以清楚掌握資料來源、任務狀態與風險。

企業資料平台總覽
API 對接流程

1. External API

對外 API 對接

公開 API 讓其他系統能查詢來源、任務、最新執行結果與平台能力,也能用 dry-run 模式模擬採集、解析、排程與 robots 檢查。

  • 一致的 response envelope,方便前端、排程器與第三方系統處理錯誤。
  • 模擬端點預設不寫入正式資料,適合測試與教學。
  • OpenAPI-style JSON 可供工程團隊快速理解端點與範例。

2. Governance Pipeline

資料治理與合規檢查

每個來源都能記錄法務審查、robots.txt、排程節奏、解析規則與採集結果。平台將這些紀錄串接成可追蹤流程,避免資料來源不明或規則失控。

  • 支援 API、RSS、XPath、CSS selector 與 headless browser 類型來源。
  • 可記錄 Proxy、User-Agent、Cookie、Rate Limit 與 CAPTCHA 策略。
  • run history 與 alert 讓營運人員快速追蹤異常。
資料治理流程
網頁系統畫面

3. Web System

網頁版管理台

Web App 讓使用者從瀏覽器查看來源、任務、Worker run、告警與 Elasticsearch 模板。登入身份由集中會員 API 驗證,本專案不保存帳號密碼。

  • 管理台部署在 `/app`,與官方頁與 API 共用同一子網域。
  • 使用集中會員 access token 後才可讀取受保護資料。
  • 儀表板資料可作為 demo、驗收與後續正式資料庫串接基礎。

Detailed Modules

主要模組

下列模組對應日常使用情境,從資料來源設定到結果品質控管,都可以在同一平台完成。

索引模板管理

建立 tenants、sources、jobs、runs、records、alerts 等索引規格,降低正式部署時的資料結構風險。

排程與預覽

用 cron 取得下一次執行時間,讓任務頻率與資料來源限制更容易被確認。

解析規則建議

輸入 URL 或 sample HTML 後,可取得 CSS selector 與 XPath 建議,縮短規則建立時間。

品質與去重

透過 hash 與 similarity 比對降低重複資料,讓後續分析更穩定。

合規檢查

集中記錄 legal review、robots、rate limit 與來源風險,讓採集決策有依據。

監控告警

用 run history、CAPTCHA、HTTP 403、legal review due 等訊號提示營運人員處理。