DeepSeek V3:685b模型击败GPT-4O和Llama 3.1
去年, DeepSeek LLM的670亿参数引起了浪潮,并在2万亿个代币的广泛数据集中精心培训,英语和中文的理解力。为研究合作设定新的基准测试,DeepSeek通过开放式7B/67B基础和聊天模型来奠定AI社区。现在,如果我告诉您有一个具有6850亿个参数的AI,并且它的表现几乎超过了AI空间中的每个模型,并且是开源的?听起来很有趣吧? DeepSeek随着中国实验室在DeepSeek开发的DeepSeek V3的释放,取得了巨大的飞跃,从而进一步推动了AI创新的界限。它是一个强大的专家(MOE)语言模型,其总参数为671B,每个令牌都激活了37B。
这里令人印象深刻的部分是 - 它的培训仅需550万美元就达到了出色的成本效率!!!
DeepSeek V3根据宽松许可发布,使开发人员下载,修改和集成模型纳入包括商业应用程序在内的不同应用程序。它的多功能性涵盖了一系列基于文本的任务,例如编码,翻译和生成描述性提示的文章或电子邮件,使其成为开发人员和企业的强大工具。
此外, DeepSeek V3在几个关键域中公开可用和封闭的AI型号均优于公开性的AI模型。在CodeForces的竞争性编程中,DeepSeek V3超出了竞争对手,包括Meta的Llama 3.1 405B ,OpenAI的GPT-4O和阿里巴巴的QWEN 2.5 72B。该模型还可以在AIDER Polyglot测试(排行榜上的第二位)中出色,展示了生成与现有项目无缝集成的新代码的无与伦比的能力。
迄今为止最大的飞跃:
- 60令牌/秒(比V2快3倍!)
- 增强功能
- API兼容性完整
- 完全开源的模型和论文
目录
- DeepSeek V3:庞大的开源,6850亿个参数
- 什么是DeepSeek V3?
- 1。高级体系结构:多头潜在注意力和负载平衡
- 2。以前所未有的规模和效率进行预训练
- 3。训练后增强:推理精通的知识蒸馏
- 4。无与伦比的性能和稳定性
- 在不同基准上对DeepSeek V3的评估
- 评估的基准
- DeepSeek-V3的整体表现
- AIDER POLYLOT基准结果
- 关键观察
- DeepSeek V3的聊天网站和API平台
- 如何运行DeepSeek V3?
- 如何在本地运行?
- 通过DeepSeek-Inster Demo设置过程
- LLM DeepSeek插件
- DeepSeek V3实验
- 第一个实验
- 第二实验
- 第三实验
- 结论
DeepSeek V3:庞大的开源,6850亿个参数
您是否知道,有6850亿个参数(主型号的671B和多token预测(MTP)模块权重的14b), DeepSeek V3可以记得您在2017年挑起多少啤酒吗?令人印象深刻吧? Also, as per the creators they have spent $5.5 million to train DeepSeek V3 and if we compare this with OpenAI – OpenAI's CEO, Sam Altman, mentioned that the training cost for GPT-4 was over $100 million .This stark contrast highlights DeepSeek V3's remarkable cost efficiency, achieving cutting-edge performance at a fraction of the expense, making it a game-changer in the AI landscape.
同样,与使用30.8m gpu小时的Llama 3 405B相比,DeepSeek-V3在280万GPU小时(降低11倍的计算)时似乎是一个更强大的模型。
DeepSeek(中国人工智能公司)今天看起来很容易,开放的权重发行了经过预算的笑话的边境级LLM(2048 GPU,持续2个月,600万美元)。
- Andrej Karpathy(@karpathy)2024年12月26日
作为参考,这种能力级别应该需要更接近16k GPU的簇,其中的簇是……https://t.co/ew7q2pq94b
什么是DeepSeek V3?
DeepSeek V3代表了AI体系结构和训练效率的巨大飞跃,从而突破了大规模语言模型的界限。这种开源模型不仅可以提供最先进的性能,而且具有出色的效率和可扩展性。这就是使DeepSeek V3成为杰出创新的原因:
1。高级体系结构:多头潜在注意力和负载平衡
DeepSeek V3建立在其前身DeepSeek V2的验证框架的基础上,采用了多头潜在注意力(MLA)和尖端的DeepSeekmoe架构。这些创新确保有效的推断和具有成本效益的培训。此外,DeepSeek V3采用了无辅助负荷平衡策略,消除了与负载平衡机制相关的典型性能权衡。
该模型还集成了一个多型预测(MTP)目标,从而增强了其同时预测多个令牌的能力。这不仅可以提高性能,还可以实现投机性解码,从而显着加速推理速度。
2。以前所未有的规模和效率进行预训练
DeepSeek V3已在14.8万亿个高质量令牌的广泛数据集中进行了预先训练(为了更好地理解它,100万个令牌约为750,000个单词),该量表远超过了其前辈。使用革命性的FP8混合精度训练框架来实现此预训练,这标志着FP8在超大规模模型中的首次成功应用。结果包括:
- 无缝的GPU利用率:通过算法,框架和硬件的共同设计,DeepSeek V3在跨节点MOE培训中克服了通信瓶颈,从而实现了几乎完整的计算通信重叠。
-
具有成本效益的培训:DeepSeek V3仅2.664亿H800 GPU小时,是最强的开源基本型号,为效率设定了新的标准。预先训练后阶段仅需要额外的0.10万个GPU小时,这使得该过程非常经济。
3。训练后增强:推理精通的知识蒸馏
DeepSeek V3集成了创新的知识蒸馏管线,从而利用了DeepSeek R1系列模型的推理功能。该管道将高级验证和反射模式纳入模型,从而显着提高了其推理性能。此外,对输出样式和长度进行了精心控制,以确保任务之间的多功能性和一致性。
4。无与伦比的性能和稳定性
广泛的评估证实,DeepSeek V3的表现优于所有开源模型和竞争对手领导的封闭式AI系统。尽管规模较大和复杂性,但训练过程非常稳定,在整个周期中没有无法抵消的损失尖峰或回滚。
DeepSeek V3证明了创新和协作的力量,为开发人员和研究人员提供了一种强大,可扩展和成本效益的工具,以应对AI及其他地区的广泛挑战。其开源性质可确保可访问性,为编码,推理和多模式应用程序的突破铺平道路。
这是下载的链接:
模型 | 总参数 | 上下文长度 | 下载 |
DeepSeek-v3 bas | 671b | 128K | 拥抱面 |
DeepSeek-V3 | 671b | 128K | 拥抱面 |
在不同基准上对DeepSeek V3的评估
评估的基准
- MMLU-PRO(精确匹配 - EM):衡量事实和多任务质量检查精度。
- GPQA-Diamond(通过@1):评估精确的QA性能,重点放在更困难的任务上。
- 数学500(EM):测试数学推理和解决问题。
- AIME 2024(通过@1):专注于高级数学竞赛问题。
- CodeForces(百分比):衡量编码竞争技能。
- 经过验证(已解决)的SWE基础:测试软件工程任务解决的精度。
关键观察
-
mmlu-pro
- DeepSeek-V3的准确性为75.9% ,超过了其最接近的竞争对手,例如GPT-4-0513(73.3%)和Claude-3.5(72.6%) 。
- 这显示了其在多任务事实质量检查中的实力。
- GPQA-Diamond
- 同样,DeepSeek-V3的得分最高,达到59.1% ,表现优于其他其他人,例如Claude-3.5( 49.9% )和Qwen2.5( 51.1% )。
- 在高缺陷的质量检查任务上表现出强度的精度。
-
数学500
- 以90.2%的精度为主,远远超过Claude-3.5( 80.0% )和GPT-4-0513( 78.3% )。
- 指示出色的数学推理。
- Aime 2024
- 得分为39.2% ,比GPT-4-0513( 23.3% )和Claude-3.5( 16.0% )高得多。
- 突出了其解决高级竞争级数学问题的能力。
- CodeForces
- 达到51.6% ,表现优于GPT-4-0513( 35.6% )和其他模型。
- 反映强大的编码竞争能力。
- SWE板凳经过验证
- 与GPT-4-0513( 50.8% )竞争42.0% ,优于Claude-3.5( 38.8% )。
- 显示软件工程问题解决问题的能力。
DeepSeek-V3的整体表现
- 一致性和优势: DeepSeek-V3在所有主要基准测试中始终胜过所有主要基准,除了经过验证的SWE-Bench ,GPT-4边缘略有效力。
- 优势:其最强的领域是数学解决问题(数学500)和多任务质量QA(MMLU-PRO) 。
- 优先于先前的版本:对DeepSeek-V2.5的显着改善是显而易见的,尤其是在AIME 2024(39.2%vs. 23.3%)和CodeForces(51.6%vs. 35.6%)中,显示出增强的推理和竞争性编程技能。
该评估强调了DeepSeek-V3在处理复杂推理,高级数学和竞争性编程任务方面的卓越功能。
这也是开放式一代评估:
模型 | 竞技场 | 羊驼毛2.0 |
DeepSeek-V2.5-0905 | 76.2 | 50.5 |
QWEN2.5-72B-INSTRUCT | 81.2 | 49.1 |
Llama-3.1 405b | 69.3 | 40.5 |
GPT-4O-0513 | 80.4 | 51.1 |
Claude-Sonnet-3.5-1022 | 85.2 | 52.0 |
DeepSeek-V3 | 85.5 | 70.0 |
-
竞技场 - 顽强的表演:
- DeepSeek-V3以85.5排名最高,超过Claude-Sonnet-3.5(85.2),并且表现明显优于DeepSeek-V2.5(76.2)。
- 这表明了其在困难的情况下产生全面的,上下文感知的响应的出色能力。
- Alpacaeval 2.0性能:
- DeepSeek-V3以70.0领先,远远领先于Claude-Sonnet-3.5(52.0),第二好的表演者。
- 这表明用户偏好和开放式输出的总体质量有显着改善,从而显示出与用户期望更好的一致性。
-
与竞争对手的比较:
- Qwen2.5(竞技场 - 赫德:81.2,alpacaeval:49.1):
- 在竞技场上表现良好,但在用户偏好方面显着落后,表明与用户友好的响应样式保持较弱。
- GPT-4-0513(Arena-Hard:80.4,Alpacaeval:51.1):
- 在这两个指标上都有竞争力,但与DeepSeek-V3的用户质量不符。
- Llama-3.1(Arena-Hard:69.3,Alpacaeval:40.5):
- 两种基准测试的得分都较低,突出了较弱的开放式一代能力。
- DeepSeek-V2.5(竞技场 - hard:76.2,alpacaeval:50.5):
- 从v2.5到v3的飞跃非常重要,表明响应连贯性和用户偏好一致性方面进行了重大升级。
- Qwen2.5(竞技场 - 赫德:81.2,alpacaeval:49.1):
您也可以参考以更好地了解评估:
链接到DeepSeek V3 Github
AIDER POLYLOT基准结果
以下是AIDER POLYLOT基准结果,该结果评估了模型正确完成任务的能力。评估分为两种输出格式:
- 类似diff的格式(阴影条) :输出类似于代码差异或小更新的任务。
- 整体格式(固体条) :需要生成整个响应的任务。
关键观察
-
表现最好的人:
- O1-2024-11-12(Tingli)以近65%的精度领先基准,在整个任务中显示出非凡的性能。
- DeepSeek Chat V3 Preview和Claude-3.5 SONNET-2024-1022紧随其后,分数在40–50%之间,以两种格式显示出可靠的任务完成。
-
表演者:
- Gemini Exp-12206和Claude-3.5 Haiku-2024-1022在两种格式中得分适中,突出了平衡但平均表现。
- DeepSeek Chat v2.5和Flash-2.0位于较低的中端,与领先的模型相比,任务解决能力较弱。
-
表现较低:
- Y灯,QWEN2.5-CODER 32B-INSTRUCTION和GPT-4O-MINI 2024-07-18的得分最低,精度低于10–15%。这表明处理类似差异和整个格式任务的显着局限性。
-
格式比较:
- 模型通常在整个格式上的性能要比类似diff的格式稍好一些,这意味着全反应生成要比较小的增量变化更好。
- 阴影条(类似于差异格式)始终低于其全格式对应物,表明在此特定能力中存在一致的差距。
DeepSeek Chat V3预览的位置:
- 排名前三名。
- 整个格式的评分约为50%,在类似差异格式中得分略低。
- 这显示了处理完整任务的强大功能,但为改进类似差异的任务的空间留出了空间。
见解:
- 基准强调了评估模型的各种优势和劣势。
- 诸如O1-2024-11-12之类的模型均显示出两种任务形式的优势,而诸如DeepSeek Chat V3 Preview等其他模型主要在全任务中出现Excel。
- 较低的表演者表示需要在细微差别和更广泛的任务处理能力中进行优化。
这最终反映了不同AI系统完成基准任务的多功能性和专业优势。
DeepSeek V3的聊天网站和API平台
- 您可以通过官方网站与DeepSeek-V3进行互动: DeepSeek聊天。
- 此外,他们在DeepSeek平台上提供了与OpenAi兼容的API :链接。
它的成本是API,这取决于令牌:
如何运行DeepSeek V3?
如果您不想使用CHAT UI并希望直接与该模型一起使用,那么您还有一个选择。该模型DeepSeek-V3的所有权重都在拥抱的脸上释放。您可以在此处访问SafetEnsor文件。
型号大小和硬件要求:
首先,该模型具有6710亿个参数,这使得在标准消费级硬件上运行它具有挑战性。如果您的硬件不够强大,建议使用DeepSeek平台直接访问。如果一个人可用,请等待拥抱的空间。
如何在本地运行?
如果您有足够的硬件,则可以使用DeepSeek-Inster演示,SGLANG,LMDEPLOY,TENSORRT-LLM,VLLM,VLLM,AMD GPU,HUAWEI ASCEND NPU在本地运行该模型。
将模型转换为量化版本以减少内存需求,这对低端系统特别有用。
这是您可以将FP8权重转换为BF16的方法:
转换脚本如果您需要BF16
CD推断 python fp8_cast_bf16.py-输入fp8-hf-path/path/path/to/fp8_weights-Output-bf16-hf-path/path/path/to/bf16_weights
通过DeepSeek-Inster Demo设置过程
拥抱Face的Transformers库尚未直接支持该模型。要设置它,您需要:
克隆DeepSeek AI GitHub存储库:
git克隆https://github.com/deepseek-ai/deepseek-v3.git
安装所需的依赖项:
CD DeepSeek-V3/推断 pip install -r要求.txt
下载拥抱面部检查点并在本地运行模型。
请参阅此信息:DeepSeek V3
推荐:
- 如果您拥有功能强大的硬件,请尝试在本地运行该模型以充分探索其潜力。
- 否则,请使用DeepSeek.com Chat UI或其API平台进行无缝访问。
LLM DeepSeek插件
您还可以使用LLM-Deepseek插件访问模型:
#步骤1:安装LLM软件包 !PIP安装LLM #步骤2:安装DeepSeek插件 !llm安装llm-deepseek #步骤3:设置DeepSeek API密钥 !llm键set deepseek #提示时粘贴API密钥 #步骤4:运行DeepSeek聊天模型 ! #步骤5:运行DeepSeek编码器模型 !
DeepSeek V3实验
在DeepSeek平台上,您可以探索网络并进行深入的推理以解决复杂的问题,类似于Openai的方法。
以下是一些提示和输出:
第一个实验
提示:产生一个孩子和足球的SVG
输出:
这是一个简单的SVG代表,表明一个孩子踢足球。你可以
将此代码复制并粘贴到HTML文件或SVG查看器中以查看
图像:
<svg xmlns="“" http: viewbox="“" width="“"> <circle cx="“" cy="“" r="“"></circle> <rect x="“" y="“" width="“" height="“" fill="“#4CAF50”"></rect> <line x1="“" y1="“" x2="“" y2="“" stroke="“#ffffff”" witth="“"></line> </svg> 解释: 孩子用简单的形状表示:头部的圆圈,矩形 适用于身体和胳膊和腿的线。 足球是一个椭圆形的,有两条白线,可以模仿经典的足球 设计。 您可以调整颜色,尺寸和位置以自定义图像 更远。 让我知道您是否想增强或修改它!
第二实验
提示:创建经典蛇游戏
输出:
创建经典蛇游戏涉及使用HTML,CSS和JavaScript
。以下是一个简单的实现:
<meta charset="“" utf-8> <meta name="“" viewport content="“" width="设备宽度,初始尺度="> <title>蛇游戏</title> 身体 { 显示:Flex; Jusify-content:中心; 准项目:中心; 身高:100VH; 保证金:0; 背景色:#000; } 帆布 { 边界:1PX实心#FFF; } <canvas width="“" height="“"> </canvas> <script src="%E2%80%9C" snake.js> </script>
以上是DeepSeek V3:685b模型击败GPT-4O和Llama 3.1的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

本文比较了诸如Chatgpt,Gemini和Claude之类的顶级AI聊天机器人,重点介绍了其独特功能,自定义选项以及自然语言处理和可靠性的性能。

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

文章讨论了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的写作助手,重点介绍了其独特的内容创建功能。它认为Jasper在SEO优化方面表现出色,而AI工具有助于保持音调的组成

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

本文评论了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高级AI语音生成器,重点介绍其功能,语音质量和满足不同需求的适用性。
