百度云智大会2024:大模型的产业落地实践经验分享
百度(BIDU)
事件
2024年9月25-26日,百度云智大会2024联合英特尔在北京召开,百度智能云分别针对算力、模型、AI应用发布了最新的产品和进展,全面升级百舸AI异构计算平台4.0、千帆大模型平台3.0两大AI基础设施,并升级代码助手、智能客服、数字人三大AI原生应用产品。同时,百度针对汽车、电力、金融等八大行业分享了最新大模型产业落地实践,并带来上百场专题演讲,以及数万平米的智能科技大展。
点评
百度发布百舸4.0,打造适配产业需求的大模型训练平台。百度集团执行副总裁、百度智能云事业群总裁沈抖分享了过去一年大模型从技术变革走向产业变革,大模型和云计算紧密结合正在成为新型的基础设施,大范围的基础设施升级都能带来生产力的巨大跃迁,百度结合自身产业覆盖和云计算的体系优势紧握机会,在算力、模型和应用三个方面都取得了重大进展和领先优势。会上发布百舸AI异构计算平台4.0,助力解决大模型时代的算力挑战,一方面支持百度自身搜索、文心系列大模型等核心业务发展,以及自动驾驶、生命科学等前沿领域的探索,另一方面也支持了外部客户做不同行业多模态大模型的训练。由于过去一年来市场上大模型训练对算力需求越来越大,集群规模越来越大,对推理成本下降的预期也越来越高,GPU的管理以及万卡集群的稳定性和有效性成为行业发展的重中之重。百度结合自身优势对百舸做了大幅升级,提升了万卡集训的稳定性和鲁棒性,并囊括了行业常见通用的模型和工具,联合、支持各行业伙伴和客户开发产业大模型,助力大模型走向产业化。
尺度定律仍在继续,百度将继续发力算力底座建设,目标10万卡训练算力集群。百度认为目前来看尺度定律仍将继续,百度仍将重点发力高密算力集群管理和运维能力的建设,并将向国际一流水准追赶,构建10万卡训练算力集群。GPU集群完全不同于传统的CPU集群,具有极致规模、极致高密、极致互联这三个特征,这些特征也带来了巨额的建设运营成本和超高运维复杂性的严峻挑战。以Meta训练Llama3为例,训练的时候用了1.6万张的GPU卡,平均每3小时出一次故障,绝大多数是GPU硬件引起。百度发布百舸4.0,其在万卡集群下将两种不同芯片混合训练的效率折损控制在5%以内,业内领先。同时百舸4.0降低模型迭代速度,从以往的1.5个月降低至半天。百舸4.0已经具备了成熟的10万卡集群的部署和管理能力,具备10ms级别超高精度网络监控,支持10万卡分钟级故障恢复。百度发布千帆大模型平台3.0。百度千帆大模型平台目前拥有3万+模型精调数,70万+企业应用开发数以及7亿+日均调用次数。此次大会上,百度新发布了千帆大模型平台3.0。其全面升级了企业级RAG,通过和百度云资源的打通,企业级RAG支持无限容量的知识库存储和建设并做到1.5秒内返回结果;全面增强了企业级Agent的开发,允许使用百度自有垂类模型或企业自身训练的模型;重申了Agent是大模型进入生产力场景的最佳产品形态的观点。同时,千帆平台上已经打磨出了8大行业的方案,包括汽车、金融、教育、互联网等行业,并帮助客户提升产品效率,如猎聘基于百度大模型实现招聘全流程提效,人岗匹配度达85%,招聘效率提升50%;高途结合百度模型的飞轮效应将数学判卷准确率提升至95%+并帮助老师提效约40%。
我们认为百度此次云智大会展现了其在大模型赛道全线的能力。百度一直在持续迭代并巩固其行业领先的地位。尽管商业化前景尚不明确,但随着宏观经济好转,大模型大规模商用的时间节点到达,百度有望凭借其先发优势,在广告、Agent、模型训练推理、智能云部署方面率先获得增量收入。
风险
AI商业化发展不及预期,产业应用合作不及预期,算力供给不足,行业竞争加剧。