性能优化指南

LLM 延迟优化、上下文控制和并发管理。

性能优化指南

OpenVort 的主要性能瓶颈在于 LLM 的首 Token 响应时间(TTFT),而非工具执行耗时。本文介绍多种优化策略以提升整体响应速度。

核心瓶颈

在典型的 AI 员工工作流中,LLM 推理占总耗时的 80% 以上。工具调用(文件操作、Shell 命令等)通常在毫秒到秒级完成,而 LLM 的 TTFT 可能需要数秒甚至更长。

优化策略

1. 使用 Claude 的 Prompt Caching

Claude 支持提示词缓存,在多轮对话中可减少 50-70% 的 TTFT。系统会自动将对话历史中的稳定部分(系统提示、工具定义等)标记为可缓存内容,从第二轮对话开始即可享受缓存加速。

2. 命令链式执行

AI 员工在执行 Shell 命令时,会自动将多个独立命令通过 && 串联执行,减少多次工具调用的往返开销。例如:

mkdir -p src/utils && touch src/utils/index.ts && npm run lint

3. 输出截断

工具执行的完整输出会发送给用户,但传递给 LLM 上下文时会进行智能截断,避免大量输出内容占满上下文窗口。

4. 自动上下文压缩

当对话上下文超过 70k tokens 时,系统自动触发上下文压缩(Auto Compact),保留关键信息并丢弃冗余内容,确保后续对话质量不受上下文窗口限制影响。

5. 消除空白等待期

前端在 AI 响应到达前 500ms 即开始显示「思考中...」动画,避免用户在等待期间感觉系统无响应。

6. 批量工具调用

AI 在一次响应中可同时调用多个互不依赖的工具,并行执行以减少总耗时。例如同时读取多个文件、同时执行多个搜索查询。

性能对比

模型平均 TTFT(首轮)平均 TTFT(缓存后)特点
Claude Sonnet3-6s1-3s支持 Prompt Caching,长对话优势明显
通义千问2-5s2-5s无缓存机制,但首轮响应较快

并发管理

多个 AI 员工同时工作时,系统通过请求队列控制 LLM API 并发数,避免触发速率限制。建议根据 API 配额合理设置最大并发数。

最佳实践

  • 优先选择支持 Prompt Caching 的模型用于长会话任务
  • 将复杂任务拆分为多个工作安排,利用多 AI 员工并行处理
  • 定期检查上下文压缩日志,确认关键信息未被丢弃
  • 避免在单次对话中传递超大文件内容,改用文件路径引用