24

04

2025

何为“超越DeepSeek”的准确姿态?讯飞星火X1以“
发布日期:2025-04-24 17:33 作者:华诗秀 点击:2334


  能够看到,从算法立异到完美使用东西链,再到国产根本设备生态扶植,科大讯飞曾经正在国产AI全栈自从可控的标的目的跑通了本人的模式。

  具体来看,锻炼层面,深度推理模子对数据质量要求极高,需要融合布局化学问取海量非布局化数据,但保守强化进修方式存正在样本笼盖不均、难度分布失衡问题,导致模子“偏科”;推理层面,MoE架构虽通过稀少激活专家提拔锻炼效率,但正在现实摆设中因批量处置能力衰、显存占用高,可能导致延迟陡增。

  正在全栈自从可控方面,科大讯飞取华为昇腾结合团队正在前期工做根本上再获冲破,升级MoE模子的PD分手+大规模专家并行系统方案,集群推能翻番,包罗PD分手摆设提拔20%+机能、MTP多token预测手艺提拔30%+全体机能、专家负载平衡算法优化使集群吞吐提拔30%+。

  自1999年成立以来,科大讯飞一曲“手艺顶天,使用登时”的原则,他们手艺起身,机械翻译、认知智能等赛道持续深耕,创下多个“初次冲破”的记载。

  具体到摆设环节,星火X1还对其模子定制优化东西链进行了全面升级,现正在支撑SFT(监视微调)和强化进修两种模子定制优化方案。这意味着仅需利用16张华为910B芯片,就能高效完成针对特定行业的定制取优化工做,无效降低了企业AI的定制尺度。

  落实到具体的企业摆设环节,大模子私有化摆设也有必然算力需求,同时,行业场景对模子定制化需求强烈,但现有东西链支撑不脚,导致定制周期长、成本高。

  做为业界独一基于全国产算力锻炼的深度推理大模子,星火X1正在数学、代码、逻辑推理、文本生成、言语理解、学问问答等通用使命结果上显著提拔,全面临标OpenAI o1和DeepSeek R1。

  起首,星火X1引入基于问题复杂度的大规模多阶段强化进修方式,显著提拔了模子的泛化能力;同时还开辟了一种强化进修动态更新算法,可以或许按照样本采样的长度矫捷调整更新速度,以优化进修效率。

  正在工程手艺方面,星火X1也实现了多项立异,例如:采用显存动态卸载手艺大幅提拔了处置长文本推理时的并发机能;通过训推共卡协同机制实现了锻炼取推理资本的无效转换;操纵推理引擎的冬眠机制实现了快速启动和形态恢复。

  的带动下,深度推理模子已然成为大模子落地使用的“必答题”。然而,深度推理模子实正从尝试室实正在场景,仍要面对沉沉挑和。

  其次,星火X1摸索了一种同一模子下的快慢思虑夹杂锻炼方式,可基于系统指令节制模子能否深度思虑,为下逛使命供给了愈加矫捷、高效的摆设体验。

  正在此布景下,市场火急需要全栈自从可控、低成本、高机能的深度推理模子,补齐手艺和需求之间的鸿沟。

  而此次星火X1的升级,是其正在AI焦点手艺范畴拿下的又一个“初次冲破”。于中国AI行业而言,这是又一次里程碑式意义的手艺跃升;而对于科大讯飞而言,这也是又一次贵重的超越。而是被超越!包罗本人超越本人。唯此,才是对DeepSeek最热诚的爱护、最素质的卑沉!”。

  而正在根本设备层面,中美博弈态势更加严重,进一步加剧了供应链风险。正在此布景下,加快国产替代已是必然。不外,虽然国产算力平台曾经快速成长,但正在锻炼大规模深度推理模子时,仍面对适配难度高、集群不变性不脚等挑和。