大模型的定义

大模型是指具有大规模参数和复杂计算结构的机器学习模型,拥有数十亿甚至数千亿个参数

大模型的设计目的:为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。

大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。

大模型和小模型有什么区别?

小模型通常指参数较少、层数较浅的模型,它们具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的场景,例如移动端应用、嵌入式设备、物联网等。

而当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,其表现出了一些未能预测的、更复杂的能力和特性,模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为“涌现能力”。

具备涌现能力的机器学习模型就被认为是独立意义上的大模型,这也是其和小模型最大意义上的区别。

AI 大模型的三大特征:泛化性、通用性、涌现性

相比小模型,大模型通常参数较多、层数较深,具有更强的表达能力和更高的准确度,但也需要更多的计算资源和时间来训练和推理,适用于数据量较大、计算资源充足的场景,例如云端计算、高性能计算、人工智能等。

大模型的核心突破是什么?

与传统AI仅能处理单一任务相比,大模型技术通过其庞大的参数规模、强大的泛化能力对多模态数据的支持,展现出类似人类的通用智能**“涌现”能力**,能够学习多个领域知识、处理多种数据和任务。

OpenAI提出的“规模定律”(Scaling Law)驱动了大模型的快速发展,

规模定律即:模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系,性能会随着这三个因素的指数增加而线性提高

  1. 模型参数规模:随着模型参数数量增加,模型的表现会有显著提升。但这种提升会在一定程度上出现递减效应,即每增加一倍的参数数量所带来的性能提升会逐渐减小。
  2. 计算量:增加训练计算量(通常通过增加训练步数或更复杂的模型结构)也可以提升模型性能。这种提升同样存在递减效应。
  3. 数据量增加训练数据量同样能够提升模型性能,并且在某些情况下,数据量的增加比增加参数数量或计算量更为有效。
  4. 组合效应:最理想的情况是同时增加模型的参数规模、计算量和数据量,这样可以最大化模型的性能提升。

通俗而言就是“大力出奇迹”。

传统AI模型参数量通常在数万至数亿之间,大模型的参数量则至少在亿级,并已发展到过万亿级的规模。

image-20240701190534784

大模型相关概念区分

大模型(Large Model,也称基础模型,即Foundation Model),是指具有大量参数和复杂结构的机器学习模型,能够处理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。

超大模型:超大模型是大模型的一个子集,它们的参数量远超过大模型。

大语言模型(Large Language Model):通常是具有大规模参数和计算能力的自然语言处理模型,例如 OpenAI 的 GPT-3 模型。这些模型可以通过大量的数据和参数进行训练,以生成人类类似的文本或回答自然语言的问题。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。

GPT(Generative Pre-trained Transformer):GPT 和ChatGPT都是基于Transformer架构的语言模型,但它们在设计和应用上存在区别:GPT模型旨在生成自然语言文本并处理各种自然语言处理任务,如文本生成、翻译、摘要等。它通常在单向生成的情况下使用,即根据给定的文本生成连贯的输出。

ChatGPT:ChatGPT则专注于对话和交互式对话。它经过特定的训练,以更好地处理多轮对话和上下文理解。ChatGPT设计用于提供流畅、连贯和有趣的对话体验,以响应用户的输入并生成合适的回复。

大模型的发展历程

大模型的发展历程可以追溯到早期的深度学习模型,并随着计算能力的提升和大数据的积累逐渐演进。以下是大模型发展的几个重要阶段:

image-20240701190534784

早期深度学习模型

在大模型之前,深度学习已经在图像和语音识别等领域取得了显著成果。早期的卷积神经网络(CNN)和递归神经网络(RNN)在特定任务上表现出色,但这些模型的参数数量和复杂度相对较小,主要应用于单一任务。

代表性模型:

  • LeNet(1998年):LeNet是最早的CNN模型之一,主要用于手写数字识别。
  • AlexNet(2012年):AlexNet在ImageNet比赛中取得了突破性胜利,显著推动了深度学习的发展。

转折点:Transformer模型

2017年,Transformer模型的提出标志着深度学习领域的一个重要转折点。Transformer引入了自注意力机制,极大地提高了模型在处理自然语言任务时的性能,并成为后续大模型的基础架构。

代表性模型:

  • Transformer(2017年):由Vaswani等人提出,引入了自注意力机制和多头注意力机制,显著提升了自然语言处理的效果。

预训练和微调:BERT和GPT

Transformer的成功带来了预训练和微调范式的兴起。这一阶段的代表模型包括BERT和GPT系列,它们通过在大规模数据上进行预训练,再在特定任务上进行微调,展示了强大的迁移学习能力。

代表性模型:

  • BERT(2018年):由Google提出,通过双向编码器表示实现了在多个NLP任务上的显著提升。
  • GPT(2018年):由OpenAI提出,采用生成预训练策略,通过单向生成实现了强大的文本生成能力。

大模型时代的开启:GPT-3

2020年,OpenAI发布了GPT-3,标志着大模型时代的正式开启。GPT-3拥有1750亿参数,展示了前所未有的生成和理解能力,使得大模型在NLP领域的应用取得了突破性进展。

代表性模型:

  • GPT-3(2020年):OpenAI的GPT-3模型通过大规模预训练和参数扩展,展示了在多种任务上的强大性能。

解释chatgpt工作原理

多模态模型的发展

随着大模型技术的不断进步,研究者开始探索多模态模型,这些模型能够处理和理解多种数据形式(如文本、图像、音频等),进一步提升了AI的应用范围和智能水平。

代表性模型:

  • DALL-E(2021年):由OpenAI提出,能够根据文本描述生成图像,展示了文本到图像生成的强大能力。
  • CLIP(2021年):由OpenAI提出,能够同时处理文本和图像,并实现跨模态理解和生成。

生成式模型的发展

生成式模型是大模型的重要分支,通过学习数据的分布来生成新的数据。这些模型在图像生成、文本生成、音频生成等领域展现了强大的能力。

代表性模型:

  • Diffusion模型:一种通过逐步添加噪声并逆向去噪的方式生成图像的模型,展示了高质量图像生成的潜力。
  • ChatGPT(2022年):基于GPT架构,专注于对话和交互,通过微调优化对话质量,提供流畅的对话体验。

国内外大模型对比

ChatGPT成功原因简要分析

ChatGPT的成功并非偶然,而是多因素综合作用的结果,凸显了战略方向和执行路径的至关重要性。

首先,OpenAI自非营利向半营利模式转型,为ChatGPT这一明确商业化方向的产品提供了有力的市场导向。其次,OpenAI始终秉持实现安全的通用人工智能(Artificial General Intelligence,AGI)的初心,由创始团队用第一性原理定位研发路线,成功突破各种技术瓶颈,从而确立在通用AI领域的领先地位

资金投入与发展策略为 ChatGPT成功带来至关重要的影响

资金投入与发展策略为 ChatGPT成功带来至关重要的影响

在数据方面,GPT-3模型训练了高达45TB的数据,涵盖数千万本文学作品。资金上,从GPT-1到ChatGPT的开发周期中,总投入资金高达数十亿美元,这些资金主要用于数据采集、模型训练、运营以及人力资源。算力方面,OpenAI通过与微软Azure的合作,动用了大约1万块NVIDIA A100 GPU,确保模型能够高效运行。

更不可或缺的是人才因素。ChatGPT团队由87名全球顶尖的AI专家组成,主要毕业于斯坦福、伯克利和麻省理工等名校,其中5人被评选为2023年度“AI 2000全球人工智能学者”。综上所述,ChatGPT的成功是多维度要素,包括初心、数据、资金、算力和人才,共同作用下的必然结果。

通用基础大语言模型的价值与自研卡点如下

图3-1 通用基础大语言模型的价值与自研卡点

在通用基础大语言模型的研发和应用方面,价值与挑战并存(如图3-1所示)。

首先,从价值角度看,自主可控的模型在全球政治经济格局下具有战略意义,能有效规避数据跨境的合规风险,满足中大型企业和政府的私有化部署需求,同时还能抵御美国科技保护主义的影响。更进一步,如能成功开发,其将像“超级大脑”一样,成为具有巨大商业价值的资产

面临的主要卡点包括

  1. 美国的芯片禁令导致的高端AI算力不足
  2. 中文高质量数据资源相较于英文的明显不足
  3. 研发过程中必要的技术和工程能力,例如分布式训练和模型蒸馏等
  4. 此外,如何将“know-how”数据有效转化为问答能力,还需要大量的提示工程师投入。

综合来看,虽有巨大价值等待挖掘,但也需面对一系列复杂的挑战和限制因素。

中国自研通用基础大语言模型

在2023年3月,OpenAI发布了具有GPT-4架构的ChatGPT,实现了多模态交互、显著优化了长文本理解与生成能力,并在可控性方面取得了重大突破,此举在全球科技界引发了强烈震荡。

与此同时,中国的科技与投资界也高度关注这一趋势,百度紧跟其后,发布了“文心一言”产品。尽管在产品功能、成熟度和用户并发处理等方面与ChatGPT尚有较大差距,但百度的这一行动标志着中国在新一轮全球“科技军备竞赛”中积极的探索与表态。

目前,百度已启动了应用程序编程接口的开放测试,并针对B端市场进行战略定位。其它科技巨头如360、阿里、华为、商汤、京东、科大讯飞、字节跳动等也在加速动作,各自从自身业务生态出发,选择了不同的战略路径。

国内外大模型发展

全球政治经济局势看,自主研发通用预训练大语言模型具有至关重要的战略价值,它是确保网络安全和信息安全的基础。

自研可行性角度来看,考虑到算力、数据、算法、人才和资金等多个要素,中国仅有少数头部企业具备进行此类研发的资格。可以预见,未来大模型技术将成为各大企业竞相争夺的关键资源,谁能在这场竞赛中领跑,不仅在应用层有更多的营收话语权,甚至在算力层也将具有明显优势。

从自研通用预训练大语言模型(Large Language Model,LLM)的必要性角度,自主可控是确保网络和信息安全的基础,而自研模型在全球政治经济格局下具有战略意义。

可行性角度,鉴于研发LLM所需的算力、数据、算法、人才和资金,仅有少数中国顶级互联网公司具备相应条件。各大参与者根据自身业务生态选择不同的战略路线,但一个大胆的假设是,未来拥有先进的大模型和生态系统的企业将更有可能在应用层到算力层掌握营收话语权。

图3-2 中国大语言模型产业价值链

图3-2 中国大语言模型产业价值链

整个价值链不仅依赖于算法和模型,更离不开算力基础设施和数据基础设施的支持。算力基础设施提供了大模型训练和运行所需的底层能力,而数据基础设施则为模型提供丰富的训练数据和用户反馈,共同构建了一个健壮和高效的大语言模型产业生态系统。

硬件资源全面对比

OpenAI以其对前沿AI技术的领导地位,使用了800张NVIDIA A100显卡,总耗电量达到1500千瓦时,以实现其GPT系列模型的高效训练。

Google则依靠了自家开发的TPU v4,部署了1000张显卡,总耗电量约为1300千瓦时,以支持其各类大规模机器学习项目。

Meta采用了NVIDIA的V100显卡,共计900张,总耗电量达到1400千瓦时,支持其虚拟现实和增强现实等先进技术的研发。

中国科技巨头百度则选择了AMD的Instinct MI100显卡,共部署了700张,耗电量大约1200千瓦时,以推动其自动驾驶和智能搜索等关键业务的进展。

清华大学也在AI领域发挥了重要作用,采用了600张NVIDIA的A30显卡,总耗电量约为1000千瓦时,用于支持各类学术研究和创新项目。

总体而言,从上述各大公司和机构的硬件资源配置可以看出,显卡类型、数量和耗电量的选择反映了各自的技术方向和战略目标。无论是选择业界领先的显卡产品,还是自主开发硬件,都体现了大语言模型训练领域竞争的激烈和多样化。这一竞赛不仅推动了硬件技术的进步,也为AI的未来发展奠定了坚实的基础。

研发路径与技术对比

在大语言模型(LLMs)的全球竞技场中,ChatGPT与Google的Gopher、LaMDA,以及Meta的Llama等构成了国际标杆

而国内则由百度的“文心一言”、360的大语言模型、阿里的“通义千问”和商汤的“商量”等引领潮流。

从对话和文本生成能力的角度,ChatGPT暂居优势,但这并非因为技术壁垒不可逾越。实际上,Google等国外企业因战略和技术理念选择了不同的发展路径,这是其暂时落后的主因。随着新技术的不断涌现,赶超ChatGPT并非不可能。相对而言,百度等国内企业在数据集、计算能力和工程化方面存在短板,短期内难以实现对国外模型的迎头赶上,这更多地需要国内AI产业全链条的协同进步。

在影响大语言模型性能的因素方面,训练数据、模型规模(即参数数量)、生成算法和优化技术被认为是核心变量。

然而,如何准确量化这些因素对模型性能的具体影响,目前还处于探索阶段,没有明确的结论。总体来看,世界顶级的大语言模型在技术层面上尚未拉开明显的差距。

图3-3 国内外主要大语言模型研发路径与技术对比

商业路径对比

ChatGPT

在战略业务拓展方面,ChatGPT已经形成了明确且差异化的商业路线,主要围绕API、订阅制和战略合作(例如与微软的Bing、Office等软件的嵌入合作)三大营收模式(如图3-4所示)。在用户数据积累、产品布局和生态建设等方面已具备明显的先发优势。

在C端生态布局方面,ChatGPT采取双管齐下的战略。一方面,通过引进各种上游插件来增强应用能力,目标打造成一个super APP以吸引更多用户。另一方面,通过创新软件交互方式将用户纳入生态圈,从而完成C端生态的全面布局。

对于B端生态,OpenAI通过与微软Azure的合作,间接实现了“模型即服务”的模式,同时也直接提供大模型API,以服务小型B端开发者,进一步完善了B端生态体系。

Google

相对之下,Google由于其主营业务是搜索引擎,对于聊天机器人等产品的发展相对保守,更注重利用大模型能力来推动“模型即服务”范式,以拓展其在云服务市场的份额。与此同时,谷歌也在积极拉动B端业务,通过多款大模型能力的组合拳来提升市场竞争力。

百度

百度的战略更接近Google,主要针对B端市场,通过全栈优势来构建全链能力

图3-4 国内外主要大语言模型厂商商业路径对比

商业发展前景

AI云侧与端侧大模型满足不同需求,C端用户将成为端侧的主要客群

一方面,面向C端个人用户,云侧大模型提供智能问答、文本生成、图片生成、视频生成等功能。

另一方面,面向B端企业用户,云侧大模型变革企业传统业务模式,提供营销、客服、会议记录、文本翻译、预算管理等个性化服务。

端侧大模型具有成本低、移动性强、数据安全等优势,主要应用在手机、PC等终端设备上。端侧大模型主要面向C端用户,重塑传统个人设备的使用方式和习惯,提供手机文档搜索、智能识屏、图像创作、生活助手、出行助手等专属服务。

成本方面,根据云侧大模型每次调用成本、用户数、用户使用频率不同,云侧大模型服务器每年成本可达数亿或数十亿,高昂的服务器支出成为各大厂商发展大模型的障碍。将大模型端侧化,能把一部分云端计算转移给终端,从而大大降低云端服务器成本。

安全方面,由于端侧大模型数据保存在本地,个人数据不需要上传云端,个人隐私数据更加安全。

丰富的使用场景、较低的模型成本、安全的隐私保护,使得未来大模型端侧化可能成为趋势。

瑞银预计生成式AI 智能手机出货量将从2023 年的5000 万部增长到2027 年的5.83 亿部,到2027 年收入将达5130 亿美元。未来面向广大C 端用户的端侧大模型市场前景广阔。

国内大模型发展缺陷分析

技术层面

当前国内技术比ChatGPT主要差在大模型环节,包括清洗、标注、模型结构设计、训练推理的技术积累

ChatGPT背后是文本/跨模态大模型、多轮对话、强化学习等多技术的融合创新,而国内大部分科技企业、科研院所多聚焦垂直应用,缺乏多技术融合创新能力

从落地应用来看,国内头部企业均表示已开展相关技术研发或部分模型进入内测阶段,但仍未出现与ChatGPT抗衡的大模型产品。加之大模型的训练成本较高,技术应用面临着亿元级研发投入和海量训练试错,国内企业投入严重不足,研发推广和产业落地整体落后于海外。

算力瓶颈

当前,主流大模型所使用的Transformer 架构存在消耗算力资源大、占用内存储量多等局限性

算力需求来源

首先,Transformer架构消耗的算力资源普遍较大。传统Transformer 架构由于算法特性,计算量会随着上下文长度的增加呈平方级上升。假如用户输入的上下文增加32 倍,计算量可能会增加1000倍以上。

其次,基于Transformer 架构的大模型对存储设备的要求也更高。在训练过程中需要在内存中存储参数的当前值、梯度以及其他优化器状态。模型的参数越多,所需的计算就越多,需要的存储空间就越大。如1000亿个参数的Transformer模型,存储这些参数就需要400GB的空间

全球主导的芯片

随着大模型规模呈现指数级增长,训练大模型越发依赖高性能芯片。

大模型的训练速度、产出质量,都和算力直接相关,对于GPT 这种大语言模型(LLM)来说,算力的要求更高,也决定了模型的“智商”。目前在全球AI 高性能芯片市场中,主要以英伟达的A100、H100 为代表的高性能芯片应用到主流大模型的训练过程。英伟达的芯片产品采用最前沿半导体工艺和创新GPU 架构保持行业的领先地位。目前,英伟达的A100 芯片在主流AI 大模型训练中占据重要市场份额,H100 虽性能强劲但难以获取。

以ChatGPT 为例,微软Azure 云服务为其提供了1万枚英伟达A100 GPU,这个算力也正是国内云计算技术人士共识的AI 大模型门槛。

然而国内拥有1 万枚GPU 的企业很少,而且单枚GPU 普遍弱于英伟达A100。由于英伟达A100 及以上性能GPU被列入管制清单,目前中国企业能获取的替代品为英伟达A800,然而A800 也存在缺货和溢价的情况。

我国芯片产业简介

从我国自研AI芯片来看,中国本土的高性能芯片龙头以华为海思、寒武纪、地平线、昆仑芯等为代表。我国正在高性能芯片领域加大投入并取得极大进展,部分解决方案正替代英伟达成为一些大厂的选择。但国产芯片性能目前仍与国际顶尖水平存在一定差距。

在国内,AI 高性能芯片近年来发展速度加快。其中,华为昇腾主要包括310 和910 两款主力芯片,其中昇腾910 采用了7nm 工艺,最高可提供256 TFLOPS的FP16 计算能力,其能效比在行业中处于领先水平。寒武纪是中国具有代表性的另一本土AI 芯片厂商,公司先后推出了思元290 和思元370 芯片及相应的云端智能加速卡系列产品、训练整机。

总体而言,国内AI高性能芯片市场受进口限制和国内技术瓶颈的双重影响,大模型产业发展受到算力层面的一些制约。

数据集

高质量的训练数据集仍需扩展

国内的AI大模型数据主要来自互联网、电商、社交、搜索等渠道,存在数据类型不全面,信息可信度不高等问题。

数据集数量对比

整体来看,我国可用于大模型训练的中文数据库体量严重不足。如悟道语料库,其包括文本、图文和对话数据集,最大的仅5TB,其中开源的文本部分仅为200GB。另外一个开源的中文本数据集CLUECorps 为100G。相比之下,GPT-3 的训练数据量,以英语为主,达到45TB。

数量不足原因

国内大模型的数据还缺乏多数据源的调用,可供大模型训练的有效数据源呈现碎片化分散状态,如微信公众号的文章仅在搜狗引擎支持调用,而多数大模型如智谱清言在联网收集数据时无法直接调用微信公众号文章。

当前,政府部门的权威数据、大型企业掌握的行业或内部数据通常不对外公开。以阿里巴巴的“通义千问”大模型为例,训练数据来自公开来源的混合数据,中文语料主要来自知乎、百度百科、百度知道等公开网络数据,来源于政府及企业数据较少。未来,仍需构建高质量的AI 大模型训练数据集,不断扩充数据源提高数据质量。