大模型训练成本高?推理效率低?硬件适配难?
4月1日,百度发布飞桨框架3.0正式版!五大特性专为大模型设计。
作为大模型时代的Infra“基础设施”,深度学习框架的重要性愈发凸显,大模型训练、推理等任务都离不开深度学习框架的优化与支撑。
飞桨框架3.0,从设计理念上实现了从底层硬件适配到顶层开发体验的全面进化,在训练效率、性能、兼容性等关键指标上建立了新标杆。
其中,“动静统一自动并行”、“大模型训推一体”、“科学计算高阶微分”、“神经网络编译器”、“异构多芯适配”这五大技术新特性,系统性解决了当前大模型研发应用面临的分布式策略开发门槛高、训练推理效率低、硬件适配优化难等核心痛点,并为科学智能领域前沿探索提供强大支撑。
◎ 飞桨提出的“动静统一自动并行”技术,大幅降低大模型开发训练成本,让算法创新回归核心价值创造;
◎ “训推一体”设计理念打破了训练与推理的割裂状态,通过全方位深度优化,飞桨框架3.0能够支持众多开源大模型进行高性能推理,并在DeepSeek V3/R1上取得了突出的性能表现。目前,飞桨框架3.0支持文心4.5、文心X1等多款主流大模型,DeepSeek-R1满血版单机部署吞吐提升一倍。通过技术算法创新,飞桨让低时延、高吞吐、低算力成本的推理服务成为了现实;
◎ 在科学智能领域,飞桨框架3.0锚定科学前沿探索需要,提升微分方程求解速度。通过高阶自动微分和神经网络编译器技术,加速微分方程求解,速度比PyTorch开启编译器优化后的2.6版本平均快115%。飞桨还对DeepXDE、Modulus等主流开源科学计算工具进行了广泛适配,并成为 DeepXDE的默认推荐后端。其展现的科学智能潜力在气象预测、生命科学、航空航天等领域具有广泛的应用价值;
◎ 在运算速度上,借助创新研制的神经网络编译器CINN,实现性能的显著提升,在A100平台上RMSNorm算子进行性能测试,相较于采用Python开发接口组合实现的方式,经过编译优化后的算子运行速度提升了4倍;使用超过60个模型进行实验,使用CINN编译器后超60%模型有显著性能提升,平均提升达 27.4%;
◎ 在硬件适配方面,飞桨框架3.0推出了多芯片统一适配方案,构建“一次开发,全栈部署”的生态体系。目前已适配超过60个芯片系列,覆盖训练集群、自动驾驶、智能终端等场景,开发者只需编写一份代码,就可以让程序在不同芯片上顺畅运行,轻松实现业务的跨芯片迁移。
2016年,飞桨首次开源;
2018年,发布1.0版本,训推一体,支持大规模分布式训练和多端推理;
2021 年,2.0 版本发布,动静统一,兼具灵活性与高效性;
今年,飞桨框架3.0发布,专为大模型设计,五大特性系统性解决了大模型研发应用面临的核心痛点,同时更高效支撑科学智能。
截至2024年10月,飞桨文心生态已凝聚1808万开发者,服务了43万家企事业单位,创建了101万个模型。
飞桨框架3.0正式版本已面向开发者开放,并且兼容2.0版本的开发接口,欢迎广大开发者使用和反馈~
原创文章,作者:lishengli,如若转载,请注明出处:https://www.lishengli.com/lee/4295.html