SeaTunnel

类型：数据采集与同步引擎
复用规则：稳定复用的组件说明页
所属层：数据治理层
官方网站：https://seatunnel.apache.org/
开源仓库地址：https://github.com/apache/seatunnel

当前定位

SeaTunnel 是当前方案数据治理层的统一采集与同步组件，负责结构化与非结构化数据的批量、增量和 CDC 接入。

主要职责

批量同步
增量同步
CDC 接入
多源系统统一接入

与其他组件关系

上游连接数据库、数据仓库、业务系统和文件类数据源。
向下把采集结果交给 dbt Core、Apache Tika 等治理组件进一步处理。
与 OpenMetadata 协同登记数据源、任务来源和数据资产上下文。
与 MinIO、PostgreSQL 等基础设施能力配套使用。

适合场景

业务系统数据接入
文档和对象数据同步
AI 数据底座的数据采集链路

边界

不替代元数据治理中枢
不替代结构化数据建模和非结构化解析能力

采用规则

当前方案默认以 SeaTunnel 作为统一采集与同步引擎，不为不同业务域分别引入多套正式采集组件。
采集任务优先围绕 AI 消费场景建设，不把所有企业数据都无差别纳入。
SeaTunnel 负责“接进来”，不负责把数据直接变成最终知识或应用结果。

治理注意点

批量、增量和 CDC 任务需要清晰记录数据来源、同步频率和失败重试策略。
采集链路要保留来源系统、时间戳和任务信息，支撑问题定位和审计。
不同数据等级应在进入治理层前就明确访问范围和脱敏要求。
采集失败、延迟和重复数据要有补偿与质量校验机制。

1. 用户与渠道层

2. 统一接入与流量治理层

3. 门户与应用层

4. Agent 编排层

5. 数据治理层

6. 知识与检索层

7. 模型网关与推理层

8. 治理与观测层

9. 基础设施层

SeaTunnel

当前定位

主要职责

与其他组件关系

适合场景

边界

采用规则

治理注意点

关联文档

参考资料

SeaTunnel ​

当前定位 ​

主要职责 ​

与其他组件关系 ​

适合场景 ​

边界 ​

采用规则 ​

治理注意点 ​

关联文档 ​

参考资料 ​

SeaTunnel

当前定位

主要职责

与其他组件关系

适合场景

边界

采用规则

治理注意点

关联文档

参考资料