阿里 Qwen2.5-Coder-32B PK Claud Sonnet

编程大模型对比

Cursor 编程实测:Qwen2.5-Coder-32B vs Claud-3.5-Sonnet

2024-11-14

ollamaqwen2.5qwenclaud

先说重点:

  1. 能力强:接近闭源一线大模型。
  2. 数据安全友好:对于不能使用联网 AI 编程工具的用户,是即便宜性能又好的选择。
  3. 实战测试:文末会将 Cursor 的默认模型换成 Qwen2.5-Coder-32B,写一个 Nuxt 落地页,并与 Sonnet 对比。

一、能力强

先引用下官方的数据,确实很能打。但是官方的数据可能让人不那么信服,跑分谁不会呢。

picture 0

那就看看其他独立测试的数据吧。这里引用 Paul Gauthier 的 Aider 基准测试 来看看具体成绩:

picture 1

测评描述: 新的 Qwen 2.5 Coder 型号在 Aider 的代码编辑基准测试中表现非常出色。32B Instruct 模型的得分在 GPT-4o 和 3.5 Haiku 之间。
Qwen2.5-Coder-32B 与 GPT-4o 持平(但略落后于 Claude 3.5 Haiku)。


二、安全

为什么企业对上传数据的 AI 编程助手特别敏感?

  1. 代码资产安全
    • 公司核心代码可能包含商业机密。
    • 上传到第三方服务器存在泄露风险。
    • 代码可能被用于训练其他模型的担忧。
  2. 合规要求
    • 金融、医疗等行业有严格的数据管制。
    • 某些项目需要完全的离线环境。
    • 跨境数据传输的合规问题。

Qwen2.5-Coder 的优势

  • 离线部署:代码永远不会离开本地环境。
  • 安全性高:无需担心网络安全问题。
  • 支持私有化部署:可运行在内网。

三、实战测试:开发一个 Nuxt 落地页

使用最近特别火的 Cursor,让 Qwen2.5-Coder-32B PK CLAUDE-3.5-SONNET

测试方法:

  1. 使用 Ollama 本地部署 Qwen2.5-Coder-32B。
  2. 分别使用 Cursor 默认模型和 Qwen2.5,写一个基于 Nuxt.js 的落地页(使用 Tailwind CSS)。

步骤:

  1. 启动 Ollama
    (安装下载模型步骤省略,模型下载前面飞快,最后有亿点点慢。)
    ollama run qwen2.5-coder:32b
    

    好家伙,4090 显存快吃光了!

  2. 初始化 Nuxt 以及 TailwindCSS
    npx nuxi@latest init qwen25
    cd qwen25
    npx nuxi@latest module add tailwindcss
    code .
    
  3. 测试正式开始

第一轮测试

Prompt

  1. 删除所有默认的欢迎组件和示例代码。
  2. 设置基础 layout,需要包含:
    • 响应式导航栏。
    • 页脚。
    • 主内容区域。

结果:

  • Qwen2.5:删除欢迎组件和示例代码成功,但未正确修改 layout 文件,在追问后完成。
  • CLAUDE-3-5-SONNET:一次性完成,审美较强。

界面比较

picture 2

  • Qwen2.5

picture 3

  • CLAUDE-3-5-SONNET

第二轮测试

Prompt: 请继续修改优化这个 Landing Page,需要包含以下部分:

  1. 一个引人注目的 hero section,包含标题、简短描述和 waiting list 按钮。
  2. 风格需为活力动感。

具体要求

  • 使用 Nuxt 3 的最新特性。
  • 遵循移动优先的响应式设计。
  • 使用 Tailwind CSS 进行样式设计。

结果:

picture 4

  • Qwen2.5:基本完成所有指令。
  • CLAUDE-3-5-SONNET:表现明显更胜一筹,审美与实现更优。

五、总结

优势

  • 离线部署保障安全。
  • 性能接近一线最强商业模型。
  • 部署门槛较低(民用卡单张可跑)。

不足

  • 硬件有一定要求(很多平台已经陆续提供,价格也很美丽)。
  • 需要适当追问才能获得最佳结果,与 Claude-Sonnet 存在差距。