方案
主题:企业级智能体开源系统方案
适用范围:几万人规模企业、全私有化部署、平台化复用、多业务线共用底座
组件清单见 组件。当前方案对应的许可证与开源状态见 开源状态与许可证说明。如需从“能力完整性与规范约束”而不是“组件选型”角度查看体系,请看 企业智能体能力与规范体系。如需单独查看企业结构化与非结构化数据如何治理后供给给 AI 系统,请看 数据治理层(企业 AI 数据底座)。全站跳转入口见 文档索引。组件与协议的详细说明页采用稳定路径维护,可持续复用。
一、方案定位
这套方案不是单个 AI 应用,而是企业级智能体平台。目标是提供统一的模型服务、统一的数据治理与知识服务、统一的 Agent 编排、统一的门户入口、统一的观测评测与安全治理能力,支撑多个部门、多类场景持续复用。
建设目标分成六个:
- 统一模型接入与推理能力,避免业务系统直接耦合模型
- 统一结构化与非结构化数据治理与 AI 数据供给能力
- 统一知识接入、检索、重排与权限控制
- 统一 Agent 编排与工具调用框架
- 统一门户、应用发布与用户交互体验
- 统一审计、评测、监控、权限与安全治理
二、设计原则
先把原则定死,否则组件会越堆越乱。
- 所有模型调用统一经过
LiteLLM - 结构化与非结构化数据先进入统一数据治理层,再供给给
RAG / 搜索 / 查询 / Agent - 所有知识接入和检索统一收敛到企业知识平面
- 主平台中枢采用
Dify、RAGFlow或Coze Studio三选一,不长期并行建设多套主底座 LangChain负责复杂定制场景与核心业务编排LlamaIndex负责知识工程、检索编排与复杂 RAG 能力Letta仅用于少量长期记忆型 Agent,不作为全平台默认运行时- 协议层采用
MCP + A2A组合,分别承载 agent-to-tool 和 agent-to-agent 互操作 - 门户层独立建设,不与模型层、RAG 层、编排层耦合
- 安全、审计、权限、评测从第一天内建,不后补
三、总体架构
建议采用九层架构。
- 用户与渠道层
- 统一接入与流量治理层
- 门户与应用层
- Agent 编排层
- 数据治理层
- 知识与检索层
- 模型网关与推理层
- 治理与观测层
- 基础设施层
可以理解为:
用户/系统入口 -> APISIX -> 门户工作台/BFF -> Agent/Workflow 编排 -> agentgateway(按需) -> MCP / A2A / 远程Agent / 工具 -> LiteLLM -> vLLM/Qwen
上图用于快速回答三个问题:系统一共分几层、当前定下来的组件各在哪一层、从入口到模型的主路径如何穿层。
四、技术栈清单
详细链接版清单见 组件。
1. 模型与推理
- 推理服务:
vLLM - 模型网关:
LiteLLM - 主模型:
Qwen3.5 27B FP8 - 代码模型:
Qwen3-Coder-Next - Embedding:
Qwen/Qwen3-Embedding-8B - Reranker:
Qwen/Qwen3-Reranker-8B - 安全模型:
Qwen3Guard-Stream-8B
2. 主平台路线
- 主平台中枢:
Dify、RAGFlow或Coze Studio - 门户与交互:
AgentifUI
3. 定制化与高级 Agent 能力
- 生产级 Agent Runtime:
LangGraph - 通用工程编排:
LangChain - 知识工程与复杂 RAG:
LlamaIndex - 长期记忆 Agent:
Letta
4. 协议与互操作
- Agent-to-tool / context:
MCP - Agent-to-agent:
A2A
5. 数据治理与 AI 数据底座
- 元数据治理与资产目录:
OpenMetadata - 数据采集与同步:
SeaTunnel - 结构化数据治理:
dbt Core - 非结构化解析:
Apache Tika
6. 接入治理、评测与授权
- 统一入口网关与流量治理:
APISIX - AI 原生协议网关:
agentgateway - LLM 观测与评测:
LangFuse - 压测与容量验证:
k6 - 授权与策略裁决:
Casbin
7. 基础设施
- 关系数据库:
PostgreSQL - 缓存与会话:
Redis - 对象存储:
MinIO - 默认向量检索:
Weaviate - 大规模向量检索演进:
Milvus - 全文 / 混合检索兼容:
Elasticsearch - 容器平台:
K3s - 可观测:
OpenTelemetry + Prometheus + Grafana + Loki - 企业现有能力复用:
SSO / IAM、KMS / 证书体系
五、组件职责边界
这是这套方案最关键的部分。
如果只记一个边界口径,应记住这一句:APISIX 负责北向统一入口,AgentifUI 负责门户与 BFF,agentgateway 负责内部 AI 协议网关,LiteLLM 负责唯一模型入口。
1. 推理层
vLLM职责:统一承载大模型推理服务,负责模型加载、GPU 调度、并发推理、吞吐优化 边界:不直接暴露给业务系统,不承载权限、审计、业务逻辑模型组合
Qwen3.5 27B FP8:企业通用主模型,承担问答、总结、分析、流程理解Qwen3-Coder-Next:研发助手、SQL/脚本生成、代码类任务Qwen/Qwen3-Embedding-8B:统一向量化Qwen/Qwen3-Reranker-8B:统一重排Qwen3Guard-Stream-8B:输入输出安全审查、越权请求检测、内容风险识别
2. 模型网关层
LiteLLM职责:- 统一 OpenAI 兼容接口
- 模型路由
- 配额和限流
- 故障切换
- 请求日志和成本统计
- 面向上层屏蔽底层模型差异 边界:不做复杂业务编排,不持有知识库
这层必须成为唯一模型入口。
3. 统一接入与流量治理层
APISIX职责:- 作为统一北向入口,承载门户、BFF、知识服务、Agent 服务和运维接口的流量接入
- 提供路由转发、限流、熔断、灰度、审计和插件化治理能力
- 与企业
SSO / IAM协同,承担入口级认证接入和安全前置能力 边界: - 不替代
LiteLLM的模型路由和模型治理 - 不替代
Casbin的细粒度授权裁决 - 不承载业务工作流编排和知识索引逻辑
agentgateway职责:- 作为内部 AI 原生协议网关,承接
MCP、A2A和相关 southbound 协议接入 - 提供统一的协议路由、认证、授权和可观测边界
- 在复杂场景下承接
OpenAPI -> MCP、远程 Agent 接入和内部 LLM 协议治理 边界: - 不替代
APISIX的北向公网入口职责 - 不替代
LiteLLM的默认模型治理中心角色 - 不承载业务应用目录和门户北向统一语义
- 作为内部 AI 原生协议网关,承接
4. 编排层
Dify职责:- 快速构建业务应用
- 面向业务团队交付低代码 Agent、Chatflow、Workflow
- 适合知识助手、服务台助手、流程助手等标准场景 边界:
- 不作为企业全部核心流程引擎
- 不独占知识底座
- 不承载所有复杂企业逻辑
Coze Studio职责:- 快速构建 Agent、工作流和面向业务的智能应用
- 适合作为主平台路线之一,承载标准化场景交付 边界:
- 不作为企业全部核心流程引擎
- 不与其他主平台路线长期并行建设
- 不替代门户层和统一控制面
LangGraph职责:- 作为生产级 Agent Runtime,承载长时运行、有状态工作流和失败恢复
- 支持人工介入、检查点、恢复、持久化执行与复杂状态控制
- 适合作为自研复杂 Agent 服务的核心运行时 边界:
- 不替代主平台中枢的低代码交付能力
- 不直接替代知识工程与检索层
LangChain职责:- 面向复杂场景的工程化开发框架
- 承载复杂工具编排、业务状态控制、异步任务和深度集成 边界:
- 作为定制化业务编排能力,不应替代主平台中枢
- 在复杂生产场景下,通常与
LangGraph组合使用,而不是替代LangGraph
LlamaIndex职责:- 面向复杂知识源的接入、索引、查询与检索编排
- 承载复杂 RAG、结构化数据检索和知识工程能力 边界:作为知识工程层,不承担门户层和统一应用发布职责
Letta职责:- 长期记忆 Agent
- 个体化上下文和持续状态管理
- 适合高价值、长周期、多轮协作助手 边界:不要把它作为所有应用统一基础
5. 协议与互操作层
MCP职责:- 作为 agent-to-tool / context 标准协议,统一工具、资源、提示词和上下文能力接入
- 连接主平台、自研 Agent、知识服务与外部系统工具能力 边界:
- 不承担 agent-to-agent 协作职责
- 不替代主平台编排和权限治理
A2A职责:- 作为 agent-to-agent 标准协议,支持跨系统、跨框架 Agent 之间的发现、协作和任务交换
- 适合远程 Agent 调用、跨团队能力编排和多 Agent 分工场景 边界:
- 不替代工具协议
- 不替代门户层和主平台控制面
建议将 MCP + A2A 视为互补协议层:MCP 负责接工具和上下文,A2A 负责接远程 Agent。
6. 数据治理层
OpenMetadata职责:- 统一数据源登记
- 元数据目录、标签、责任人、血缘与资产管理
- 作为企业 AI 数据底座的数据治理中枢 边界:
- 不直接替代检索引擎
- 不直接承担在线 RAG 编排
SeaTunnel职责:- 承担结构化与非结构化数据的批量、增量和 CDC 同步
- 统一源系统接入规范和同步链路 边界:
- 不替代元数据治理中枢
- 不替代数据目录和权限裁决
dbt Core职责:- 承担结构化数据的标准化建模、口径统一和治理后数据层产出
- 形成面向 AI 查询和分析场景的
Curated数据层 边界: - 仅作为结构化数据治理与建模能力
- 不替代元数据目录,不替代非结构化知识工程
Apache Tika职责:- 承担 PDF、Office、HTML 等非结构化文档的文本与元数据抽取
- 作为非结构化知识进入治理层前的标准解析入口 边界:
- 不替代知识索引引擎
- 不替代复杂文档编排和 RAG 检索
当前数据治理层推荐采用轻中型组合:OpenMetadata + SeaTunnel + dbt Core + Apache Tika。这套组合负责把企业原始数据治理成可供 RAG / 搜索 / 查询 / Agent 使用的标准数据资产和数据服务。
7. 知识与 RAG 层
Dify、RAGFlow或Coze Studio职责:- 作为当前阶段主平台中枢,承载标准化场景应用、知识接入与检索主链路
- 统一知识源生命周期管理、检索编排和应用发布主路径 边界:
- 不与其他主平台路线长期并行建设
- 不承担门户层全部控制面职责
建议将主平台中枢定义为企业知识与应用主平面,而不是“某个应用自己的知识库工具”。
- 检索底座建议
Weaviate:作为当前默认向量检索与混合检索底座Milvus:作为大规模知识库和高吞吐检索阶段的演进底座Elasticsearch:作为全文检索与混合检索兼容项,适合特定主平台路线或对全文检索要求较高的场景
原则上不默认同时长期并行建设 Weaviate + Milvus + Elasticsearch 三套主检索底座:
- 当前默认路线:
Weaviate - 大规模演进路线:
Milvus - 全文 / 混合检索兼容路线:
Elasticsearch
8. 门户与交互层
AgentifUI职责:- 企业统一 AI 门户
- 多应用入口、聊天入口、工作台和应用目录
- 用户会话交互、应用分发、反馈提交和应用发现 边界:
- 不持有核心编排逻辑
- 不直接耦合底层模型
- 通过统一 BFF / API 层对接 Dify、RAGFlow、Coze Studio、自研服务以及协议层能力
这层如果后续发现能力不足,原则上也要继续沿“自建门户壳”方向演进。
9. 评测与观测层
LangFuse职责:- Prompt、Trace、工具调用观测
- 交互回放
- 离线评测样本管理
- 应用效果分析 边界:
- 不替代基础监控
- 不替代日志平台和系统级可观测体系
k6职责:- 对入口网关、门户 BFF、知识服务、Agent 服务和模型接口做压测与容量验证
- 为灰度、扩容和发布前验证提供统一压测脚本与基线 边界:
- 不参与生产请求链路
- 不替代长期在线监控和可观测体系
六、数据治理与基础设施收敛结果
结合当前讨论,数据治理层与基础设施层都不再追求“全都自建”,而是优先复用企业现有能力,并对平台新增组件做最小收敛。
1. 复用企业现有能力
- 身份认证:复用企业现有 SSO / IAM 体系
- 密钥与证书:复用企业现有 KMS / 证书体系
这些能力在当前方案中不作为新增自建组件设计重点,只定义与平台的集成边界。
2. 当前方案确定采用的组件
- 数据治理中枢:
OpenMetadata - 数据采集与同步:
SeaTunnel - 结构化数据治理:
dbt Core - 非结构化解析:
Apache Tika - 关系数据库:
PostgreSQL - 缓存与会话:
Redis - 对象存储:
MinIO - 统一入口网关与流量治理:
APISIX - 生产级 Agent Runtime:
LangGraph - 默认向量检索:
Weaviate - 大规模向量检索演进:
Milvus - 全文 / 混合检索兼容:
Elasticsearch - 容器平台:
K3s - 可观测:
OpenTelemetry + Prometheus + Grafana + Loki - 压测与容量验证:
k6 - 策略引擎:
Casbin - 协议层:
MCP + A2A
当前数据治理层推荐采用轻中型组合:
OpenMetadata + SeaTunnel + dbt Core + Apache Tika
这组组件负责统一数据源登记、采集同步、结构化治理、非结构化解析和数据资产发布,作为当前方案面向 RAG / 搜索 / 查询 / Agent 的企业 AI 数据底座。
检索底座采用分层收敛策略:
- 默认检索底座:
Weaviate - 大规模阶段演进:
Milvus - 全文 / 混合检索兼容:
Elasticsearch
3. 当前阶段暂不纳入标准底座的组件
- 消息总线 / 独立作业总线:当前暂不选型,待异步任务和事件规模提升后再评估
七、数据治理与基础设施分工说明
1. OpenMetadata
作为统一数据治理中枢,承载数据源登记、元数据目录、标签、责任人、血缘和数据资产目录。
2. SeaTunnel
作为统一采集与同步引擎,承载结构化与非结构化数据的批量、增量和 CDC 接入。
3. dbt Core
作为结构化数据治理与建模层,承载结构化数据标准化、主题建模、口径统一和治理后数据层产出。
4. Apache Tika
作为非结构化解析组件,承载 PDF、Office、HTML 等文档的文本与元数据抽取。
5. LangGraph
作为生产级 Agent Runtime,承载长时运行、有状态工作流、失败恢复、检查点和人工介入能力。
6. PostgreSQL
作为平台主数据库,承载配置、元数据、状态、权限映射、运营数据和平台后台数据。
7. Redis
作为运行时加速层,承载缓存、会话、短期状态、限流计数和幂等控制。
8. MinIO
作为对象存储,承载知识原文件、用户上传附件、导出结果和文件型中间产物。
9. Weaviate
作为当前方案默认的向量检索与混合检索底座,支持企业知识库和智能体检索场景。
10. Milvus
作为大规模阶段的向量检索演进底座,适合更高规模知识库、更高吞吐和更强隔离需求的场景。
11. Elasticsearch
作为全文检索与混合检索兼容项,适合全文搜索要求较高或特定主平台路线需要配套全文/向量混合检索的场景。
12. APISIX
作为统一入口网关与流量治理层,承载门户、BFF、知识服务、Agent 服务和运维接口的北向接入、路由、限流、熔断、灰度与审计。
13. agentgateway
作为内部 AI 原生协议网关,负责 MCP、A2A 和相关 southbound 协议的统一接入、路由与治理。
14. K3s
作为当前阶段的平台运行底座,承载门户、编排服务、观测组件和 AI 应用服务部署。
15. OpenTelemetry + Prometheus + Grafana + Loki
作为平台可观测底座,覆盖指标、日志和统一埋点标准;与 LangFuse 共同构成平台级与 AI 级双层观测体系。
16. k6
作为统一压测与容量验证工具,覆盖入口网关、门户 BFF、知识服务、Agent 服务和模型接口,服务于扩容基线、版本发布前验证和容量规划。
17. Casbin
作为统一授权与策略裁决引擎,重点覆盖应用访问、知识权限、工具调用权限和多租户/部门级授权控制。
八、推荐分层后的正式方案
1. 统一接入与流量治理平面
APISIXagentgateway- 北向统一入口、路由治理、限流、熔断、灰度和入口审计
- 内部
MCP / A2A / southbound协议接入、路由与治理
2. 模型服务平面
vLLM- Qwen 模型族
- GPU 集群调度
3. 模型网关平面
LiteLLM- 路由、配额、熔断、审计、统一 API
4. 协议与互操作平面
MCPA2A- 工具接入、上下文接入、远程 Agent 协作
5. 数据治理平面
OpenMetadataSeaTunneldbt CoreApache Tika- 数据源登记、采集同步、结构化治理、非结构化解析、元数据目录、数据资产发布
6. 知识服务平面
Dify、RAGFlow或Coze StudioQwen/Qwen3-Embedding-8BQwen/Qwen3-Reranker-8BWeaviateMilvusElasticsearch- 基于治理后数据资产的文档同步、切片、索引、向量检索、全文检索、混合检索、权限过滤
7. Agent 运行与编排平面
- 标准化场景:
Dify、RAGFlow或Coze Studio - 生产级 Agent Runtime:
LangGraph - 通用定制编排:
LangChain - 知识工程与复杂 RAG:
LlamaIndex - 特殊长期记忆场景:
Letta
8. 门户与应用发布平面
AgentifUI- 企业 SSO
- 应用中心
- 应用目录
- 会话入口
- 反馈与运营后台
对应的前台形态,应更接近统一工作台,而不是单一聊天页:
9. 评测、治理与验证平面
LangFusek6- 安全审查模型
Qwen3Guard-Stream-8B Casbin- 审计、评测、内容合规、质量回放和容量验证
九、核心业务链路
一个标准请求的链路建议是这样:
- 用户通过门户进入某个智能应用
- 请求先进入
APISIX,执行入口级路由、限流、审计和灰度治理 APISIX与企业SSO / IAM协同完成认证接入,并把请求转发到门户 BFF 或统一 API 层- 门户层完成组织身份识别、应用权限校验和会话上下文初始化
- 编排层判断是标准平台应用还是定制 Agent 服务
- 如需工具、上下文或外部资源,优先通过
agentgateway承接MCP调用路径 - 如需跨 Agent 协作或远程能力编排,优先通过
agentgateway承接A2A调用路径 - 如需知识增强或数据查询,优先使用数据治理层发布的 AI 数据服务和治理后数据资产
- 请求进入主平台的知识检索链路或受控查询链路
- 检索前按用户权限、部门、数据标签做过滤
- 召回结果经过
Qwen/Qwen3-Reranker-8B重排 - 编排层组织上下文和工具调用计划
- 模型请求统一发往
LiteLLM LiteLLM路由到对应vLLM + Qwen模型- 输入输出经过
Qwen3Guard-Stream-8B或策略审查 - 全链路写入
LangFuse与审计系统 - 结果返回门户并支持用户反馈、人工接管和追踪回放
十、适合优先落地的场景
建议先做三类,不要一上来做全能平台。
1. 企业知识助手
- 面向全员
- 查制度、流程、产品文档、FAQ、项目资料
- 价值最明确,适合作为第一阶段
2. 服务台与内部支持助手
- IT、HR、财务共享服务
- 工单分诊、标准问答、流程指引、表单补全
- 能快速体现效率提升
3. 研发与数据助手
- 面向研发、运维、数据团队
- 代码生成、SQL 辅助、日志分析、知识检索
- 可充分发挥
Qwen3-Coder-Next
十一、部署拓扑建议
几万人企业建议至少按三套环境建设:
devstagingprod
生产环境建议分区部署:
1. 推理区
- GPU 节点
vLLM- 模型缓存和镜像仓库
2. 平台服务区
APISIXLiteLLMDify、RAGFlow或Coze StudioOpenMetadataSeaTunneldbt CoreApache TikaLangGraph- 自研 LangChain 服务
- LlamaIndex 知识工程服务
MCPServer / GatewayA2AClient / ServerLangFuseCasbin- 门户 BFF
3. 数据区
PostgreSQLRedisMinIOWeaviateMilvusElasticsearch
4. 观测区
- Prometheus
- Grafana
- Loki
- OpenTelemetry Collector
5. 企业集成区
- 企业现有 SSO / IAM
- 企业现有 KMS / 证书体系
- 审计日志与安全审查服务
十二、高可用与容量建议
几万人企业,真正难点不是注册用户数,而是峰值并发和知识规模。
建议设计目标至少包括:
- 门户、网关、编排、知识服务都支持水平扩容
APISIX至少双实例部署,配置与路由变更纳入版本控制- 核心服务最少双实例
- 数据库主从或高可用集群
- Redis 哨兵或集群
- 默认检索底座按
Weaviate规划独立部署并支持扩展 - 大规模阶段可演进到
Milvus - 如需全文 / 混合检索兼容,再单独评估
Elasticsearch - 数据治理任务与在线推理链路隔离部署
- GPU 推理集群按模型拆池
- 主模型、代码模型、审查模型分别部署,避免相互抢资源
- 发布前使用
k6对入口网关、门户 BFF、知识检索链路和模型接口做基线压测
模型池建议至少拆成三类:
- 通用推理池:
Qwen3.5 27B FP8 - 代码推理池:
Qwen3-Coder-Next - 安全审查池:
Qwen3Guard-Stream-8B
十三、安全与治理框架
这是企业级方案必须单列的一章。
1. 身份与权限
- 接企业统一 SSO / IAM
- 入口统一收敛到
APISIX - 应用级权限
- 知识库级权限
- 工具级权限
- 数据标签权限
身份由企业现有体系提供,入口级接入和流量治理由 APISIX 负责,细粒度授权由 Casbin 统一裁决。
2. 数据安全
- 文档入库分类分级
- 敏感字段脱敏
- 检索前权限过滤
- 输出前内容审查
3. 行为审计
- 用户请求
- 检索命中
- Prompt 摘要
- 模型调用
- 工具执行
- 人工介入
- 安全命中记录
4. 发布治理
- Prompt 版本化
- 知识库版本化
- 模型路由版本化
- 压测基线达标后再进入灰度
- 先评测后灰度
- 再正式发布
十四、现有组件的主要风险与取舍
1. Dify / RAGFlow / Coze Studio 职责可能重叠
解决方式:
- 当前方案按企业路线三选一,不作为并行多底座建设
- 不在同一平台中长期维持多套主知识平面
- 编排与知识链路围绕主平台统一
2. LangChain / LlamaIndex / Letta 同时使用会复杂度过高
解决方式:
LangChain负责通用编排LlamaIndex负责知识工程与复杂 RAGLetta限定在长期记忆 Agent- 不把三者都放进所有应用的默认运行路径
3. MCP 与 A2A 的边界容易混淆
解决方式:
MCP统一承担 agent-to-tool / context 接入A2A统一承担 agent-to-agent 协作- 不用
A2A直接替代工具接入,也不用MCP替代远程 Agent 协作
4. AgentifUI 可能不足以承载完整企业门户
解决方式:
- 把它定义为起步前端壳
- 核心控制点放在自研 BFF 和统一身份层
- 前端可替换,后端契约不变
5. LangFuse 只能解决 LLM 观测,不解决整个平台运维
解决方式:
- 必须叠加基础设施级 observability 体系
6. 基础设施组件过度建设的风险
解决方式:
- 身份和密钥优先复用企业现有能力
- 入口网关能力统一收敛到
APISIX - 消息总线、独立全文检索等非必要组件暂不前置建设
- 保持平台底座足够完整,但不过度超前设计
7. 数据治理层过重导致运维复杂度过高的风险
解决方式:
- 当前方案采用轻中型组合:
OpenMetadata + SeaTunnel + dbt Core + Apache Tika - 优先解决数据源登记、采集、治理和发布,不一次性堆叠过多大数据治理组件
- 先满足
RAG / 搜索 / 查询 / Agent的核心数据供给需求,再按规模演进
8. LangChain + LangGraph 与 Weaviate + Milvus + Elasticsearch 同时全量并行的复杂度风险
解决方式:
LangGraph作为生产级运行时,LangChain作为工程化开发框架,职责分层,不混用- 默认检索底座采用
Weaviate Milvus仅作为大规模阶段演进底座Elasticsearch仅作为全文 / 混合检索兼容项,不默认与其他检索底座长期并行
9. Elasticsearch 的许可证边界风险
解决方式:
- 在方案中把它定义为兼容项,而不是默认主底座
- 正式落地前结合企业法务和许可证口径再最终确认
- 如果企业对许可证边界更敏感,就继续把它限定为兼容项,并在正式落地前单独确认
十五、建议的实施路线
阶段一:PoC
- 打通知识助手
- 建立
vLLM + LiteLLM + 主平台(Dify / RAGFlow / Coze Studio) + MCP + LangFuse - 接 1 到 2 个业务部门
- 建基础权限和审计
阶段二:试点生产
- 对接企业现有 SSO / IAM
- 引入
APISIX收敛统一入口和灰度治理 - 建门户统一入口
- 引入
Qwen3Guard-Stream-8B - 建评测集、灰度发布和运营看板
- 用
k6建立核心链路压测基线 - 增加服务台类场景
阶段三:平台化
- 引入自研 BFF
- 收敛知识平面和应用发布规范
- 支持多业务线、多租户、多应用目录
- 增加代码助手、数据助手等专业型应用
阶段四:规模化治理
- 模型路由优化
- 成本优化
- 安全审查闭环
- 更细粒度权限和数据治理
- 建立平台运营体系
十六、一句话收敛
这套正式方案可以概括为:
vLLM + Qwen构成推理底座APISIX构成统一入口网关与流量治理层LiteLLM构成统一模型网关Dify、RAGFlow或Coze Studio构成主平台中枢MCP + A2A构成互操作协议层OpenMetadata + SeaTunnel + dbt Core + Apache Tika构成企业 AI 数据治理底座Weaviate构成当前默认检索底座,Milvus作为大规模演进,Elasticsearch作为全文 / 混合检索兼容项LangGraph + LangChain构成生产级 Agent 运行与定制化业务编排层LlamaIndex构成知识工程与复杂 RAG 能力层Letta构成长期记忆 Agent 能力层AgentifUI构成门户交互层PostgreSQL + Redis + MinIO + K3s构成运行基础设施LangFuse + k6 + Casbin + 平台观测体系构成观测评测与企业治理层
