AI 辅助编程中的 LLM 选择最佳实践

2025-05-04 · AI · AI, LLM, 编程, 选型, 最佳实践

AI 辅助编程中的 LLM 选择最佳实践

看开发阶段、试不同模型、管好成本，最终找到最适合自己的方案

软件开发有不同阶段，每个阶段需要 AI 的不同能力。开发分成四个阶段，并给出如何选择模型的建议：

1. 设计与架构阶段

需求：这个阶段你需要一个能深度思考、有丰富知识的模型，帮助理解业务需求并设计架构。
推荐模型：OpenAI o1、Gemini 2.5 Pro、DeepSeek R1
为什么选这些：这些模型推理能力强，能帮你做出清晰的早期决策
成本建议：这里值得用高级模型，因为好的架构能省下后期改动的麻烦

2. 开发阶段

需求：写代码时，需要模型能理解代码模式、建议补全、解释实现
推荐模型：Gemini 2.5 Pro、GPT-4o、Grok 3
额外亮点：Claude 3.7 Sonnet 虽然基准测试分数不最高，但很多开发者喜欢，建议多试试
成本建议：简单编码用中档模型就够，复杂任务再用高级模型

3. 测试阶段

需求：写测试时，模型要能发现边缘情况、写出可靠的测试代码
推荐模型：Claude 3.7、OpenAI o1、GPT-4o Mini
成本建议：普通测试用中档模型，复杂或关键测试用高级模型

4. 部署与审查阶段

需求：审查大段代码时，模型要有大上下文窗口，能一次看懂整个代码库
推荐模型：Gemini 2.5 Pro、GPT-4o Mini、GPT-4.1、OpenAI o1
成本建议：高级模型能加快审查速度，节省时间，值得投资

实用建议：如何选到适合的模型

除了按阶段选模型，还有一些实用技巧：

从小模型开始：先试试中档模型（如 Claude 3 Haiku 或 GPT-3.5），不够用再升级
任务分模型：在 Cline 中，可以为不同任务设置不同模型。比如头脑风暴用高级模型，日常编码用中档，写文档用便宜的
关注花销：用 Cline 的 token 计数器，看看哪些任务花钱多，优化模型选择
别只看分数：基准测试（如 MMLU Pro、Big CodeBench）只是参考，实际用起来可能不一样
多试试：在不重要的项目上实验不同模型，找到感觉
Plan/Act 分开选：Cline 有个 Plan/Act 模式，规划可以用推理强的模型（如 Gemini 2.5 Pro），实现用快又便宜的（如 Gemini 2.5 Flash Preview）