性能优化指南

LLM 延迟优化、上下文控制和并发管理。

OpenVort 的主要性能瓶颈在于 LLM 的首 Token 响应时间（TTFT），而非工具执行耗时。本文介绍多种优化策略以提升整体响应速度。

核心瓶颈

在典型的 AI 员工工作流中，LLM 推理占总耗时的 80% 以上。工具调用（文件操作、Shell 命令等）通常在毫秒到秒级完成，而 LLM 的 TTFT 可能需要数秒甚至更长。

Claude 支持提示词缓存，在多轮对话中可减少 50-70% 的 TTFT。系统会自动将对话历史中的稳定部分（系统提示、工具定义等）标记为可缓存内容，从第二轮对话开始即可享受缓存加速。

AI 员工在执行 Shell 命令时，会自动将多个独立命令通过 && 串联执行，减少多次工具调用的往返开销。例如：

mkdir -p src/utils && touch src/utils/index.ts && npm run lint

工具执行的完整输出会发送给用户，但传递给 LLM 上下文时会进行智能截断，避免大量输出内容占满上下文窗口。

当对话上下文超过 70k tokens 时，系统自动触发上下文压缩（Auto Compact），保留关键信息并丢弃冗余内容，确保后续对话质量不受上下文窗口限制影响。

前端在 AI 响应到达前 500ms 即开始显示「思考中...」动画，避免用户在等待期间感觉系统无响应。

AI 在一次响应中可同时调用多个互不依赖的工具，并行执行以减少总耗时。例如同时读取多个文件、同时执行多个搜索查询。

模型	平均 TTFT（首轮）	平均 TTFT（缓存后）	特点
Claude Sonnet	3-6s	1-3s	支持 Prompt Caching，长对话优势明显
通义千问	2-5s	2-5s	无缓存机制，但首轮响应较快

多个 AI 员工同时工作时，系统通过请求队列控制 LLM API 并发数，避免触发速率限制。建议根据 API 配额合理设置最大并发数。