7. 模型网关与推理层

定位：负责模型统一入口、模型路由、配额治理和推理执行。
当前承载组件：LiteLLM、vLLM、Qwen 模型族。

一、本层定义

模型网关与推理层是平台里所有模型能力的标准供给面。

它负责把聊天、代码、Embedding、Reranker 和安全模型能力以统一接口方式提供给上层，同时把模型路由、配额、回退和推理执行从业务逻辑里剥离出来。

二、本层功能

提供统一模型调用入口。
执行模型路由、配额、限速和失败回退。
承载在线推理和批量推理执行。
为知识层提供 Embedding / Reranker 能力，为编排层提供生成式能力。

三、当前承载组件

当前方案保持收敛：以 LiteLLM 作为统一模型入口，以 vLLM 作为主要推理执行引擎，以 Qwen 模型族承担当前主要模型能力。

四、上下游关系

上游层级：

下游层级：

推荐链路为：

编排 / 检索请求 -> LiteLLM -> vLLM -> Qwen 模型 -> 观测与配额记录

五、边界

本层不负责：

不承载业务会话和应用页面逻辑。
不替代编排层做流程编排。
不直接处理源数据治理和知识资产发布。
不替代细粒度权限引擎做业务级授权判断。

六、关键链路

1. 生成式推理链路

编排层调用统一模型入口。
LiteLLM 根据模型目录、策略和配额选择下游。
vLLM 执行推理并返回结果。
观测层记录调用成本、时延和质量信息。

2. 检索辅助链路

知识层请求 Embedding 或 Reranker 能力。
模型层按统一方式提供相应模型能力。
返回向量或重排结果供知识层继续处理。

七、治理要求

模型目录、用途和配额要清晰区分，避免应用随意硬编码模型。
安全模型、Embedding 和主生成模型的用途边界要明确。
观测数据应能追踪到应用、用户、模型和版本策略。
模型变更要配合回归评估和发布门槛，不直接在生产流量上裸切。

八、部署与发布要求

模型网关和推理执行建议分层部署，避免职责混杂。
GPU 资源、批量任务和在线请求应区别规划。
模型发布要支持灰度、回退和容量预估。
接口协议保持统一，避免上层应用依赖某个特定推理后端细节。

九、风险与取舍

如果每个应用自己选模型和直连推理服务，后续治理几乎无法收敛。
模型能力覆盖面越大，越需要清晰区分默认模型和条件模型。
把检索模型、生成模型和安全模型混成一个黑盒入口，会降低排障效率。

1. 用户与渠道层

2. 统一接入与流量治理层

3. 门户与应用层

4. Agent 编排层

5. 数据治理层

6. 知识与检索层

7. 模型网关与推理层

8. 治理与观测层

9. 基础设施层

7. 模型网关与推理层

一、本层定义

二、本层功能

三、当前承载组件

四、上下游关系

五、边界

六、关键链路

1. 生成式推理链路

2. 检索辅助链路

七、治理要求

八、部署与发布要求

九、风险与取舍

十、关联文档

参考资料

7. 模型网关与推理层 ​

一、本层定义 ​

二、本层功能 ​

三、当前承载组件 ​

四、上下游关系 ​

五、边界 ​

六、关键链路 ​

1. 生成式推理链路 ​

2. 检索辅助链路 ​

七、治理要求 ​

八、部署与发布要求 ​

九、风险与取舍 ​

十、关联文档 ​

参考资料 ​

7. 模型网关与推理层

一、本层定义

二、本层功能

三、当前承载组件

四、上下游关系

五、边界

六、关键链路

1. 生成式推理链路

2. 检索辅助链路

七、治理要求

八、部署与发布要求

九、风险与取舍

十、关联文档

参考资料