跳转到内容

1MCP 系统架构

愿景:一个统一、可靠的代理,使多个 MCP 服务器看起来像一个,简化 AI 助手集成,同时保持安全性和性能。

🎯 目的与背景

问题:AI 助手需要连接到多个 MCP 服务器,但管理数十个单独的连接是复杂、不可靠且安全密集的。

解决方案:1MCP 充当统一的代理/多路复用器,将多个 MCP 服务器聚合在单个可靠的接口后面。

成功指标

  • 可靠性:通过适当的错误处理实现稳定运行
  • 性能:高效地将请求转发到后端服务器
  • 安全性:OAuth 2.1 认证和安全默认设置
  • 简单性:单个配置文件,易于部署

📏 系统约束

硬性约束

  • 单个二进制文件:必须作为单个可执行文件部署,无外部依赖
  • MCP 协议:必须 100% 兼容 MCP 最新规范
  • Stdio 传输:后端服务器通过 stdio 或可流式传输的 http 通信 (安全边界)
  • 配置:所有配置通过单个 JSON 文件,可热重载

软性约束

  • 并发连接:处理多个同时的客户端连接
  • 后端服务器:每个实例支持多个 MCP 服务器
  • 网络:在企业防火墙后工作 (仅 HTTP/SSE)
  • 启动时间:快速启动以进行开发迭代
  • 依赖项:最少的外部依赖以确保安全

为何有这些约束

  • 单个二进制文件:企业部署要求 - 无复杂设置
  • 多传输:后端服务器支持 stdio、HTTP 和可流式传输的 HTTP 传输
  • 热重载:需要零停机配置更新

🏗️ 架构原则

原则 1:可靠性优于性能

  • 即使单个后端失败,系统也必须保持运行
  • 优雅降级优于快速失败
  • 具有重试逻辑和超时的连接管理

原则 2:默认安全

  • 除非明确禁用,否则所有端点都需要认证
  • 后端服务器在具有安全传输协议的隔离进程中运行
  • 对所有外部数据进行输入清理
  • 日志中无敏感数据

原则 3:简单性优于灵活性

  • 单一部署模型,不可配置
  • 尽可能约定优于配置
  • 显式行为而非隐式行为

原则 4:对客户端透明

  • MCP 协议合规性 - 客户端不知道它是一个代理
  • 错误消息保留后端服务器上下文
  • 无协议修改或扩展

🔄 决策框架

在评估新功能或更改时,请问:

可靠性问题

  • 这会降低系统可用性吗?
  • 如果此组件失败会怎样?
  • 系统可以在没有它的情况下继续运行吗?

安全性问题

  • 这会扩大攻击面吗?
  • 这会泄露敏感信息吗?
  • 我们是否在维护深度防御?

简单性问题

  • 这会增加配置复杂性吗?
  • 这会使部署更困难吗?
  • 我们可以用现有的模式解决这个问题吗?

兼容性问题

  • 这会破坏 MCP 协议合规性吗?
  • 现有客户端会继续工作吗?
  • 我们是否在保留后端服务器接口?

📊 质量属性场景

可靠性场景

  • 情况:后端 MCP 服务器在请求处理期间崩溃
  • 响应:系统检测到故障,将服务器标记为不可用,如果适用,在其他服务器上重试请求
  • 衡量:<5 秒恢复,客户端收到适当的错误,系统保持可用
  • 当前:带有健康检查的连接池,指数退避重试

安全性场景

  • 情况:客户端尝试在没有适当授权的情况下访问 MCP 服务器
  • 响应:OAuth 令牌验证,范围检查,请求被拒绝并返回 403
  • 衡量:零未经授权的访问,所有尝试都与客户端上下文一起记录
  • 当前:具有基于范围的授权的 OAuth 2.1,会话管理

性能场景

  • 情况:多个并发客户端向后端服务器发出请求
  • 响应:高效的请求转发,适当的错误处理,异步处理
  • 衡量:可靠的请求处理,系统保持响应
  • 当前:具有适当错误处理的 Express.js,异步请求转发

可维护性场景

  • 情况:将新的 MCP 服务器添加到配置文件中
  • 响应:热重载检测到更改,生成新的服务器进程,更新路由
  • 衡量:<30 秒可用,零停机
  • 当前:带有去抖动重载的文件系统监视,优雅的进程管理

🚫 系统边界与反模式

我们是什么

  • MCP 协议代理:忠实实现 MCP 规范
  • 认证网关:OAuth 2.1 安全层
  • 连接多路复用器:多对多客户端到服务器
  • 进程管理器:后端服务器的生命周期管理

我们不是什么

  • 业务逻辑引擎:无数据转换或业务规则
  • 缓存层:每个请求都到后端 (目前)
  • 服务网格:不是通用的服务通信层
  • 数据库:不持久化存储应用程序数据

集成边界

我们避免的反模式

  • 共享数据库:实例之间无共享状态
  • 网络依赖:运行时不调用外部服务
  • 协议扩展:无 MCP 协议修改
  • 同步链:请求路径中无阻塞调用
  • 全局状态:所有状态都是请求范围或配置

🗺️ 演进策略

阶段 1:单实例代理 (当前)

  • 范围:每次部署一个 1MCP 实例
  • 功能:HTTP/SSE 传输,OAuth,基本连接池
  • 约束:无水平扩展,仅本地配置

阶段 2:增强功能 (未来)

  • 范围:基于用户反馈的其他操作功能
  • 功能:增强的监控,高级配置选项
  • 迁移:向后兼容,可选增强

阶段 3:高级功能 (未来)

  • 范围:用于企业用例的高级功能
  • 功能:增强的安全性,操作改进
  • 迁移:配置扩展,无协议更改

演进原则

  • 向后兼容性:现有部署继续工作
  • 渐进增强:新功能是可选的
  • 零停机:所有迁移都支持热升级
  • 配置驱动:通过配置启用功能

⚡ 架构验证

自动化架构测试

typescript
// 示例:架构测试强制执行我们的边界
describe('架构约束', () => {
  test('传输层中无业务逻辑', () => {
    // 静态分析确保传输仅处理 HTTP/认证
  });

  test('所有外部调用都使用断路器', () => {
    // 验证是否使用了弹性模式
  });

  test('存储库之外无直接数据库访问', () => {
    // 强制执行数据访问模式
  });
});

架构指标

  • 依赖违规:0 (由测试强制执行)
  • 圈复杂度:<10 每个函数 (linting)
  • 安全扫描:0 高/严重漏洞
  • API 兼容性:100% MCP 协议合规性
  • 测试覆盖率:>90% 关键路径

持续验证

  • 架构测试在 CI/CD 管道中运行
  • 拉取请求中的依赖分析
  • 每次构建都进行安全扫描
  • 性能回归测试

🔍 可观察性与监控

健康指标

  • 系统健康:所有核心组件正常运行
  • 后端健康:单个 MCP 服务器状态
  • 连接健康:客户端连接池状态
  • 配置健康:配置文件有效性和重载状态

关键指标

  • 可用性:系统正常运行时间百分比
  • 延迟:请求响应时间分布
  • 吞吐量:每秒请求容量
  • 错误率:失败请求百分比
  • 资源使用:内存、CPU、连接数

监控指标

  • 严重:系统不可用,认证失败,配置错误
  • 警告:后端服务器断开连接,重复请求失败
  • 信息:配置已重载,新的客户端连接,成功操作

🚨 故障模式与恢复

故障类别

后端服务器故障

  • 症状:进程崩溃,无响应,无效响应
  • 检测:健康检查,请求超时,错误模式
  • 恢复:进程重启,连接重试,优雅降级
  • 升级:从轮换中移除,提醒操作员

配置故障

  • 症状:无效的 JSON,缺少服务器,权限错误
  • 检测:文件解析错误,验证失败
  • 恢复:保留以前的有效配置,记录错误
  • 升级:禁用热重载,需要手动干预

资源耗尽

  • 症状:高内存使用,达到连接限制,响应缓慢
  • 检测:资源监控,性能下降
  • 恢复:连接节流,优雅降级,负载削减
  • 升级:服务重启,水平扩展

安全漏洞

  • 症状:认证绕过,未经授权的访问,令牌泄露
  • 检测:安全监控,异常检测,审计日志
  • 恢复:立即隔离服务,撤销令牌,取证分析
  • 升级:完全关闭服务,事件响应程序

恢复期望

  • 后端重新连接:自动重试逻辑
  • 配置重载:立即检测和应用
  • 安全事件:立即认证失败响应
  • 系统恢复:根据需要重启和重载

此架构作为我们的决策框架。如有疑问,请参考我们的原则和约束。所有更改都应加强这些基础,而不是削弱它们。

基于 Apache 2.0 许可发布