索引模板管理
建立 tenants、sources、jobs、runs、records、alerts 等索引規格,降低正式部署時的資料結構風險。
1. External API
公開 API 讓其他系統能查詢來源、任務、最新執行結果與平台能力,也能用 dry-run 模式模擬採集、解析、排程與 robots 檢查。
2. Governance Pipeline
每個來源都能記錄法務審查、robots.txt、排程節奏、解析規則與採集結果。平台將這些紀錄串接成可追蹤流程,避免資料來源不明或規則失控。
3. Web System
Web App 讓使用者從瀏覽器查看來源、任務、Worker run、告警與 Elasticsearch 模板。登入身份由集中會員 API 驗證,本專案不保存帳號密碼。
Detailed Modules
下列模組對應日常使用情境,從資料來源設定到結果品質控管,都可以在同一平台完成。
建立 tenants、sources、jobs、runs、records、alerts 等索引規格,降低正式部署時的資料結構風險。
用 cron 取得下一次執行時間,讓任務頻率與資料來源限制更容易被確認。
輸入 URL 或 sample HTML 後,可取得 CSS selector 與 XPath 建議,縮短規則建立時間。
透過 hash 與 similarity 比對降低重複資料,讓後續分析更穩定。
集中記錄 legal review、robots、rate limit 與來源風險,讓採集決策有依據。
用 run history、CAPTCHA、HTTP 403、legal review due 等訊號提示營運人員處理。