媒体观察 | 做算力的浪潮信息为什么还要再卷大模型

2023-12-05

避免重复造轮子，前提是轮子已经造得很好。

大模型有多卷？

现在国内已经有180个以上生成式大模型，科技大厂、互联网大厂纷纷入局。今天A厂商发布大模型，各种参数对比下来堪称最强，第二天B厂商发布下来，又刷新了各种记录。最强、最大、强快，有可能只保持一天。这说明什么？基础大模型还有很大的进化空间。

11月27日，算力龙头企业浪潮信息发布了完全开源且可免费商用的源2.0基础大模型，包含1026亿、518亿、21亿不同参数规模，这也是国内首个千亿参数、全面开源的大模型。

作为一家做算力基础设施的公司，为什么如此努力地卷大模型？浪潮信息高级副总裁、AI&HPC总经理刘军表示：最终用户感受到的大模型能力是其在应用层面能力的表现，这些核心能力的本质，是由基础大模型能力所决定的。在他看来，今天模型基础能力与客户预期之间仍有较大的差距，这也是浪潮信息不断探索的原因所在。

GPT4不是天花板，百模大战探索“更优解”

ChatGPT的发布，算得上是AI产业发展的一个重要拐点，很多人将之称为AI的“苹果时刻”。今年3月，OpenAI发布了GPT4，GPT4的能力比GPT3.5有一个巨大的提升，GPT4是当前业界最先进的技术大模型。

但是，即便是当前公认最先进的大模型，GPT4其实也还有很多挑战没有解决。

比如算力短缺，一直是OpenAI在其迅速崛起过程中不得不面对的一个棘手问题。当用户海量涌入的时候，OpenAI已经出现过几次崩溃的情况。为此，OpenAI采用了不同级别的会员收费，对用户进行分层。并且还一度还采用停止注册的方式来限制用户的使用量，缓解算力压力。

再比如AI幻觉。今天的GPT4给出的答案并不完全正确，有时候会有明显的事实错误，有时候也会一本正经地胡说八道。这里面也有很多原因，比如数据来源的问题，再比如不同法律体系、不同价值观下的分歧等等。

GPT4遇到的挑战还有很多，这些都是整个行业正在面临的挑战。今天，看上去大模型这个领域非常卷，但本质上还是处于产业初期。一方面，国产基础大模型的能力和 Open AI 之间存在较大的差距，另一方面即使是最先进的GPT4，现在的能力还处于初级阶段，很多问题依旧在探索开发。

基础大模型基座作为通用人工智能的核心基础设施，被嵌入到智能助手、机器翻译、自动化客服等场景中，从而实现更加个性化、智能化、自适应的服务和应用。IDC预测，到2026年，全球AI计算市场规模将增长到346.6亿美元，生成式AI计算占比从22年4.2%增长到 31.7%。

今年掀起百模大战之后，业界有一种观点认为不应该浪费资源重复造轮子。但前提是轮子已经比较成熟，如果今天的轮子还不好用，就值得更多的企业投入进来，探索各种不同的路径来把轮子造好。所以，最近业内正在形成新的共识：在产业初期，适度的泡沫还是必要的。中国大模型的“百花齐放”是利好的，很大程度它可以激活创新，促进产业生态的繁荣发展。

浪潮信息人工智能软件研发总监吴韶华

“确实在当前大模型百花齐放的态势下，必然大家会有不同的实现路径，也会有理念冲突，这都是特别正常的事情。因为毕竟大家都在探索，都没有出来一条非常有效的路径。” 浪潮信息人工智能软件研发总监吴韶华表示。

浪潮信息为什么也要进来一起卷大模型？浪潮信息左手有做大模型的伙伴，右手有做垂直行业应用的伙伴，可以说既懂底层技术又有上层应用经验。更重要的是作为一家算力基础设施公司，在产业初期，浪潮信息在算力上的探索会给整个产业带来很大的推动力，比如算力资源的高效性、算力集群的可扩展性、算力系统的可持续性，这些都能让算力更充分地释放出来，这对整个产业都有极大的价值。

浪潮信息做大模型主要是两个维度的探索：一是探索路径、方法，比如有什么架构可以节省算力，什么模型可以让数据更精准等等。二是探索边界，今天大模型已经能做很多事，但随着算力、算法、数据的迭代，新的能力也不断被挖掘出来，大模型的上限到底在哪里？

看上去已经很激烈的百模大战，只是生成式AI的起点。大模型的开发是一项异常复杂的系统工程，需从系统层面达以创新，从算力效率、线性扩展、长效稳定等多个方面进行探索。今天，没有哪个企业有绝对的优势，算力、算法、数据三要素都有很大的进化空间，此外还需要更好的应用来落地大模型的价值。也就是说，大模型还要卷，同时应用也要卷，打通一个能持续跑起来的飞轮生态，百模大战的效果才真正实现了。

基因、智商、情商，打造“三高”大模型

作为最早布局大模型的企业之一，浪潮信息早在2019年就推出了中文AI巨量模型“源1.0”，是当时最大参数的大模型。“源”大模型的数据集和清洗经验和帮助国内不少AI团队提升了其大模型的性能表现，比如助力网易伏羲中文预训练大模型“玉言”登顶中文语言理解权威测评基准CLUE分类任务榜单，并在多项任务上超过人类水平。过去的两年，源1.0大模型的智能力与To B领域复杂的服务场景进行深度融合，构建专家级数据中心智能客服大脑，荣获哈佛商业评论鼎革奖。

但是，源1.0开放出来之后，在客户的应用场景中遇到了很多具体的问题。所有这些问题，都是浪潮信息升级源2.0的出发点。此外，GPT4是一个封闭的系统，就是一个黑盒子，大家不知道它是怎么做的。那么，中国的大模型也需要更多的创新，才有机会去超越GPT4。

简单来讲，浪潮信息源2.0在数据、算力、算法三个维度向前迈进了一大步。在懂懂看来，数据决定大模型的基因，算力是决定大模型的智商，算法决定大模型的情商，所以这是“更聪明“的大模型的核心三要素，源2.0就是一个“三高”大模型。

先说说数据。

“在有限的算力资源上，训练数据的质量，直接决定了模型的性能，这个性能主要是指模型的智能化水平在任务上的表现。” 吴韶华强调，数据体量很重要，但是数据质量更重要。在源2.0中，浪潮信息的思路就是进一步提纯数据，让模型能基于更高水平的数据来训练。

具体而言，源2.0通过使用中英文书籍、百科、论文等资料，结合高效的数据清洗流程，为大模型训练提供了高质量的学科专业数据集和逻辑推理数据集。除此之外，为了更高效地获得高质量的代码数据集，浪潮信息提出基于主题词或Q&A问答对自动生成编程题目和答案的数据集生成流程，提高了数据集问题的多样性和随机性；同时提出基于单元测试的数据清洗方法，可以更加高效地获取高质量数据集，提高训练效率。

“我们这套数据构建方法，能够比较有效的解决互联网海量数据清洗问题。我们后续的计划是用我们的模型产生更高质量的数据，然后持续迭代，来提升我们大模型的能力。”刘军表示。

接下来讲一下算法。

传统Transformer结构被业界广泛采用，但是对中文的识别并不是最佳模式。源2.0有一个很大的创新，就是把attention（自注意力）这一层，采用了自研的新型LFA（Localized Filtering-based Attention）结构，中文名字是局部注意力过滤增强机制。考虑到自然语言输入的局部依赖性，LFA通过先强化相邻词之间的关联性，然后再计算全局关联性的方法，有效地解决了传统Transformer结构中对所有输入的文字一视同仁，不能考虑自然语言相邻词之间的强语义关联的问题，能够更好地处理自然语言的语序排列问题，对于中文语境的关联语义理解更准确、更人性，提升了模型的自然语言表达能力，进而提升了模型精度。

“我们发现在源2.0这个阶段，依然是处于研究方向的初级阶段，后面还有很多的可能性。围绕着这个方向，我们团队也会继续研究下去，来尝试进一步的得到更好的模型结构。” 吴韶华表示。

最后再来说说计算。

全球算力紧缺是一个短期内很难缓解的痛点，所以计算的调优，是整个产业都迫切需要突破的瓶颈，而这也恰好正是浪潮信息的优势所在。

为了在各类计算设备上都有一个非常好的计算性能表现，源2.0中提出了非均匀流水并行+优化器参数并行（ZeRO）+数据并行的策略。相较于经典的三维并且方法，创新算法有更好的适用性，显著降低了经典大模型训练过程中对于AI芯片之间的通讯带宽需求，同时还能获得非常高的性能表现。

大模型算力系统并不是算力的简单堆积，其需要解决低时延海量数据交换的挑战；需要解决多台机器均衡计算、避免冷热不均、消弭算力堵点的问题；需要解决在几个月漫长的计算过程中，当单一硬件出现故障时，训练中断、梯度爆炸、算法重新走一遍等等问题。所以，源2.0也不是浪潮信息的最终“答卷”。尽管源2.0已经拥有非常出色的表现，但是在刘军看来，这只是开了个头，未来还有很多值得挖掘的方向，浪潮信息会不断创新升级。

卷大模型还是卷应用？都要从开源中找答案

是应该卷模型还是卷应用？业界是有不同观点的。很多做大模型的企业，都主张应该卷应用。现在百模酣战，是不是可以向前迈一步，开始卷应用了？

从做大模型的企业来看，一定是在自己的模型上卷应用，让模型不断进化，让应用价值不断落地，这是没有错的。

浪潮信息高级副总裁、AI&HPC总经理刘军

那为什么还有那么多企业参与到百模大战当中呢？中国的大模型与GPT4还有或多或少的差距，即使是GPT4也还没有进化到天花板，也依然有很大的提升空间。此外，刘军认为未来的生成式AI是多元化生态，每个基础大模型可能会有不同的擅长领域。

所以，放到整个产业的视角来看，大模型和应用都要卷：一方面需要继续提升基础大模型的能力，因为只有基础大模型做好了才能更好地实现行业落地；另一方面，需要在应用落地方面继续创新。只有大模型侧和应用侧同时发力，双轮驱动，生成式AI的发展甚至是中国的AI产业才会有更好的前景。

双轮驱动，怎么卷才能最高效？答案是：开源。

在移动互联网时代，有一个封闭的iOS系统，还有一个开源的安卓系统。苹果很强大，自己就支撑了一个生态。但安卓更强大，开放的安卓系统吸引更多的手机厂商，更多的开发者，也衍生出一个更庞大的生态。

今年上半年，Meta的LLaMA开源，给业界开了一个好头。正是看到开源的能量，国内的大模型也纷纷加入开源的阵营。这一次源2.0也彻底开源，并且这是行业首个千亿开源大模型。

“完全免费、完全可商用、不需要授权、最彻底的开源。”吴韶华表示，浪潮信息希望通过开源真正的能够普惠产业用户，个人开发者，让大家能够通过源2.0构建更强的AI系统。

刘军强调，开源最本质的好处是让整个产业能够协同发展，“回顾过去所有成功的开源项目，都是因为整个社区共同贡献的结果。”

首先，开源可以建立一个高效的反馈闭环，通过应用反哺大模型，加速大模型的进化。

浪潮信息希望通过开源吸引更多的开发者进来，同时发起了大模型共训计划，开发者可以在源2.0上自由地开发，如果遇到问题可以反馈给浪潮信息，尽快地提升模型的能力。

其次，开源可以更广泛地赋能行业、赋能企业，加速大模型价值的落地。

优秀开源模型是吸引开发者、繁荣生态的关键因素。以开放的心态开源，给开发者更强有力的支持，他们可以直接调用API、中文数据集、模型训练代码等，大大降低开发者将大模型能力适配不同场景的难度，加速应用的落地，让企业尽快吃到AI时代的红利。

所以，无论是卷大模型还是卷应用，开源都是一条光明大道。

结束语

在诸多大模型中，浪潮信息也卷了进来。与其它大模型不同之处，就是其在计算方面的优势，通过算力的产品和技术的创新推动数字化、智能化的发展。

源从1.0进化到2.0，给产业打个样，通过智算的力量去训练生成式AI大模型，浪潮信息的很多探索成果，可以赋能加速AI产业化和产业AI化的进步。

源2.0采用全面开源策略，全系列模型参数和代码均可免费下载使用。

代码开源链接

https://github.com/IEIT-Yuan/Yuan-2.0

论文链接

https://github.com/IEIT-Yuan/Yuan-2.0/blob/main/docs/Yuan2.0_paper.pdf

注：本文转载自科技媒体《懂懂笔记》

上一篇：AICC2023人工智能计算大会智算开放标准高峰论坛举行

下一篇：2023人工智能计算大会丨吉利汽车研究院陈勇分享洞见

返回列表