AI 辅助编程中的 LLM 选择最佳实践

AI 辅助编程中的 LLM 选择最佳实践

看开发阶段、试不同模型、管好成本,最终找到最适合自己的方案

软件开发有不同阶段,每个阶段需要 AI 的不同能力。开发分成四个阶段,并给出如何选择模型的建议:

1. 设计与架构阶段

  • 需求:这个阶段你需要一个能深度思考、有丰富知识的模型,帮助理解业务需求并设计架构。

  • 推荐模型:OpenAI o1、Gemini 2.5 Pro、DeepSeek R1

  • 为什么选这些:这些模型推理能力强,能帮你做出清晰的早期决策

  • 成本建议:这里值得用高级模型,因为好的架构能省下后期改动的麻烦

2. 开发阶段

  • 需求:写代码时,需要模型能理解代码模式、建议补全、解释实现

  • 推荐模型:Gemini 2.5 Pro、GPT-4o、Grok 3

  • 额外亮点:Claude 3.7 Sonnet 虽然基准测试分数不最高,但很多开发者喜欢,建议多试试

  • 成本建议:简单编码用中档模型就够,复杂任务再用高级模型

3. 测试阶段

  • 需求:写测试时,模型要能发现边缘情况、写出可靠的测试代码

  • 推荐模型:Claude 3.7、OpenAI o1、GPT-4o Mini

  • 成本建议:普通测试用中档模型,复杂或关键测试用高级模型

4. 部署与审查阶段

  • 需求:审查大段代码时,模型要有大上下文窗口,能一次看懂整个代码库

  • 推荐模型:Gemini 2.5 Pro、GPT-4o Mini、GPT-4.1、OpenAI o1

  • 成本建议:高级模型能加快审查速度,节省时间,值得投资

实用建议:如何选到适合的模型

除了按阶段选模型,还有一些实用技巧:

  • 从小模型开始:先试试中档模型(如 Claude 3 Haiku 或 GPT-3.5),不够用再升级

  • 任务分模型:在 Cline 中,可以为不同任务设置不同模型。比如头脑风暴用高级模型,日常编码用中档,写文档用便宜的

  • 关注花销:用 Cline 的 token 计数器,看看哪些任务花钱多,优化模型选择

  • 别只看分数:基准测试(如 MMLU Pro、Big CodeBench)只是参考,实际用起来可能不一样

  • 多试试:在不重要的项目上实验不同模型,找到感觉

  • Plan/Act 分开选:Cline 有个 Plan/Act 模式,规划可以用推理强的模型(如 Gemini 2.5 Pro),实现用快又便宜的(如 Gemini 2.5 Flash Preview)

Image