NGC Ventures 最新研究:9 月了,对 AI 创业的冷思考与建议
作者:CherryIn,Investment Manager, NGC Ventures
本文初稿于八月底休息日摸鱼之余完成,草率发布后受到了诸多指教,笔者遂增改删了一部分内容,以免贻笑大方。
本文的内容主要是站在投资视角对 AI 行业的现状进行评价、对不同公司的技术 / 产品路线进行反思和猜想、对 AI 行业公司的战略进行抽象总结。因此,涉及到具体技术的部分,难免有疏漏,还请多包涵。
不过说到底,能发论文的几家大公司还撕的不可开交,似乎也没人能评价本文内容的正误。就像用 GPT-4 给 GPT-3.5 打分一样,看起来合理,仔细想想是有点抽象的。
因此笔者建议,将本文视为对不确定性行业的信息搜集后形成的「判断」。既然是判断,立场必须鲜明,必须言之有物。至于判断到底对不对,就留给时间检验吧。
笔者始终认为:新行业噪音大,多动脑、敢于下判断总是没错的。对于判断题,盲猜的正确率是 50%,而连续猜错三次的概率是 12.5%,哪怕是扔硬币级别的下判断,也是有意义的。下判断并不可怕,判断准确率低于扔硬币才是最可怕的。
在正式开启本文之前,需要感谢以下工作,为本文提供了宝贵的灵感和数据源。当然,由于本文有许多推论都是基于这些工作,如果其中包含错误、或笔者理解有误,本文的推论也将不再稳健,请读者自行甄别。本文不构成投资建议,也很难构成投资建议。
- Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance(https://arxiv.org/abs/2305.17306)
- LIMA: Less Is More for Alignment(https://arxiv.org/abs/2305.11206)
- June 2023, A Stage Review of Instruction Tuning(https://yaofu.notion.site/June-2023-A-Stage-Review-of-Instruction-Tuning-f59dbfc36e2d4e12a33443bd6b2012c2)
- GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE(https://www.semianalysis.com/p/gpt-4-architecture-infrastructure)
好了,让我们正式开始本文。
大模型:发射赛博火箭
2023 年讨论 AI 的第一步,就是讨论大模型创业到底还能不能做。
大模型(的预训练)目前已经转化成了发射火箭问题,只要烧的起、方向对,谁都能做。可以说,训练大模型就是在发射赛博火箭。
一个反常识的事情是,投资人对大模型训练的难度是低估的,而对发射真火箭的难度是高估的。同样是 6000 万美元的成本,投资人会觉得火箭升空失败还可以有第二次机会,而训练大模型失败则被认为是浪费资金。
GPT-4 在 OpenAI 的 GPU 利用效率(爆料称约等于 30%)上,仍然消耗了 6000 万美元。这是一个{性能=效率×成本}的问题,而性能是道墙,如果其他的初创公司不能实现大于 30%×6000 万=1800 万美元的性能效果,则用户不如直接用 GPT-4。
目前,许多号称训练大模型的公司的融资轮次在 100 万到 500 万美元这个区间。也就是说,即使是最大融资额的公司,其弹药量也只足够支持一次发射。而这次发射的 GPU 利用率即使达到了 100%,也很难超过 GPT-4。
从这个角度来说,发射火箭是更好做的,因为目前大部分火箭都是运载火箭,带着卫星上天,而单次负载量有限,所以小的火箭公司可以接别人来不及发射的卫星单。
大模型则不同,大模型的横向扩展的边际成本只有算力成本,而算力成本可以是弹性扩张的,也就意味着对于大模型公司来说,每一单的利润都是白捡的利润,几乎不用付出额外成本,承接能力非常大。对于新成立的、质量差的大模型公司来说,很难接到溢出的需求。
除非训练成本大幅度下降,否则即使知道了 GPT-4 的全部架构,许多公司短期也很难做出可投入市场的大模型。
定制化:直面「赢家通吃」问题
在硬件行业,一种常见的现象是通过定制化需求来实现早期的利润,再通过早期利润实现技术突破(或者追平)。然而大模型行业的定制化很难成为新进者的出路。
关于这个判断,解释起来非常简单:绝大多数微调后的模型追不上 GPT-4,即使追上了,直接使用 GPT-4 泛化的成本更低、人员需求更少、运气需求更少、数据需求更少。只要 GPT-4 和其他模型的断档级性能差距还存在,定制化就不能成为大模型公司的出路。
一个非常典型的例子是 Jasper,使用微调的 GPT-3 服务企业客户,然而在 OpenAI 公开了 ChatGPT(GPT-3.5)之后,其用户迅速流失。因为 Jasper 的产出物可以通过为 GPT-3.5 输入简单的 prompt 来得到,而无需使用一个泛化能力差和仅限企业内部使用的「落后版本」。
相比于新公司,Jasper 至少还有一个 GPT-3 到 GPT-3.5 的空窗期用来发展。然而现在的新公司需要同时面对低成本高速度的 GPT-3.5 和高性能的 GPT-4 的挤压。
因此,寄希望于通过定制化积累利润从而实现技术突破的路线,生存概率很低。
微调:必要,别迷信
目前的 AI 行业对微调有一种不合实际的期待,这种期待从具体的技术实现和从宏观的技术节奏来说,都是过于高估的。
行业目前所讨论的微调,绝大多数指「在预训练模型的基础上,使其生成符合人类意图的回答」。这种微调可以称为「对齐」,也就是让回答对齐人类意图,而不是为大模型增智慧。
根据多篇论文的研究结果,大模型的知识应该主要来自预训练,而微调更多用在对齐上。
简单解释就是,预训练决定脑容量,微调决定母语。为预训练模型进行微调,是一个「扫除文盲」的过程。
然而,目前行业中经常将微调视为一种为模型「增智慧」的方法,也就是通过微调提高模型性能、增加模型知识,认为这样就可以抵达「人工智能的圣杯」。这种思路是有些偏颇的。
首先,模型本身的性能并没有提高,只是能更好地对齐人类意图,如果任务的复杂度超过了模型的性能,微调并不能收获如期的结果。就像是让人脑进行量子运算一样,做不到不是教育的问题。
其次,在「意图对齐」的部分进行「知识补充」,效果更类似于「鹦鹉学舌」。即:模型只是模仿专家说话,而并没有理解其中的含义。尽管很多行业用「鹦鹉学舌」已经能得到很好的方案(毕竟大多数行业都不复杂嘛...),但这显然不是我们应当在长期追求的结果。
最后,对于「补充额外数据集,提高模型性能,增加模型知识」的训练,应当被视为模型具有「增量学习 / 持续学习」的能力,即:模型的全参数可以通过增量数据集进行优化。这和所谓的「指令微调」并非同一个范畴的概念。
总的来说,微调是非常重要的,但对当下的微调报以「迷信」的态度是错误的,特别是急于将当下的微调封为圣杯的言论,颇有一种「如今物理学的大厦上只飘着两朵乌云」的意味。
退一步讲,如果「增智慧」的需求真的可以通过指令微调来解决,做个简单的向量搜索、直接把知识塞上下文里、再简单写几个 prompt 模板,大概率能有一样甚至更好的效果。
大家都喜欢微调,可能也是炼丹技艺在现代的一种复兴吧...
大模型展望:四则运算
(注意,此部分内容完全基于 Dylan Patel 爆料的数据,可靠性暂无法验证)
GPT-4 的训练基于 N 卡的 A 系列,训练效率 30%,训练时间大约 2 个月,成本约 6000 万,总参数量为{1.7 万亿=1100 亿×16 个专家模型},处理单个问题的参数在 2800 亿左右。
也就是说,有几个关键参数,会导致大模型训练的格局发生变化。
- 训练效率:从 30% 提高到 60% 可以直接缩短一倍时间
- 算力密集度提高:从 A 系列换成 H 系列再换成 AI 专用卡后,算力密集度提高,很多架构上影响效率的问题都可以解决
- 算力成本下降:老黄(Nvidia 创始人)给显卡打折,显著的成本下降
- 参数效率提高:模型的参数效率存在提高空间,参考以往新模型对老模型的参数效率通常能提高多倍,可能使用 GPT-4 的 30% 的参数就可以达到类似的效果
综上所述,从零训练出 GPT-4 级别性能的模型的成本可能有 10~20 倍的优化空间,也就是压缩到 300 万美元~600 万美元,这个成本对于初创公司和大公司费控而言,都是更容易接受的。
而这个变化,可能需要 2 年左右的时间来完成。
目前,主流大模型的技术仍然基于 transformer,基础架构没有变化,炼丹加参数的大力出奇迹思路仍未穷尽。GPT-4 的训练在算力限制很大的基础上进行,且训练时间不够长。
如果参数是随训练时间线性增长的,类似于 GPT-4 的架构的模型的参数上限可能是 10 万亿左右,即:训练时间多一倍(×2),并行显卡多一倍(×2),训练效率快一半(×1.5),参数效率高一半(×1.5),最终得到十倍的结果。按照硅谷的风险偏好风格,这个参数量大概率会在一年内达到,无关乎性能到底有没有提高。
然而在达到 10 万亿参数后,LLM 是否还能使用增加参数的思路大力出奇迹,就是一件完全未知的事情了。
如果参数量对模型性能的提升是边际递减的,则 10 万亿很可能是个坎。然而,也有一种猜想是参数量对模型性能的提升是边际递增的,类似于「一个人如果足够聪明则学什么都快」。前者还好,假如后者成真了,模型性能可能会发生指数级提高,届时发生什么将完全无法预测。
预测炼丹很难,但预测企业战略节奏很容易。总参数 10 万亿的模型对于绝大多数企业,无论是 Google/MS/APPL 这种巨无霸,还是小一点的 OpenAI,都是一个里程碑级别的终点,是可以停一停、做些技术探索的位置。
企业 / 资本对于风险的偏好可以折算成一个「忍受时间」,如果整个忍受时间都在剧烈燃烧费用,则很难超过 6 个月。人类的工艺成长速度不够快,通常以 5 年甚至更长时间为一个周期。因此,在 5 年内,模型的极限参数量是可以估计出来的,应当是 20 万亿~50 万亿。除非再次发生工艺 / 架构上的巨大突破,否则,超过这个数量级的概率很低。
多模态:房间里的大象
多模态是房间里的大象,可能会深刻影响到赛道的格局。
多模态的简单定义是:支持对多种模态信息的输入和输出。这个定义很松,比如市面上一些宣称自己能够进行多模态输入的产品,其实是 ChatBot 外面套了一层 OCR。也有完全符合多模态定义的模型,但其性能就让人不敢恭维了。就连 GPT-4 的图像多模态输入能力也还没有大范围开放,可以看出这个功能并不是很稳定。
不过,多模态的发布并不是一件遥远的事情。GPT-5 大概率是原生支持多模态的,也就是需要重新设计结构、重新训练。而根据前文的推理,大模型的参数还有 10 倍~50 倍的成长空间,在其中放入多模态能力,应该是足够的。因此,可以预计,高可用高性能的多模态模型会在 2 年内出现,乐观点的话,1 年差不多了。
多模态是房间里的大象,大家都知道最终会有这样的东西,但很多产品 / 研究 / 战略都忽视了其存在,以至于在关键部分存在误判。
例如,单一图像模型理论上会受到多模态模型的严重压迫,但目前大多数研究 / 投资都忽视了这个问题,导致给一些专注于图像模型的公司过高的估值。这些公司未来很可能会失去技术壁垒、转型成服务商,其估值体系应当参考服务提供商、而不是技术公司。
如果要讲「投资看人,同一个团队可以做业务转型」的故事,就当我没说。传奇总是在的,但做研究不能笃信传奇。
谁能训练 GPT-4:都能,但没必要
炼丹不需要那么久,且大公司都在买显卡。一个非常显而易见的事情是,一年后,大型公司都会有能力训练 GPT-4 级别的模型。不过到底要不要训练,就是另一个问题了。
在游戏领域,有一个经典的命题叫做「有原神玩原神」,即:当玩家可以选择玩原神或者一款原神的竞品时,如果竞品做的不如原神好,则玩原神。
这种「赢家通吃」的思路同样适用于大模型行业。如果一家公司紧随 OpenAI 之后,经过半年的研发,推出了自己的媲美 GPT-4 的 90% 的性能的大模型,希望推向市场。此时,该公司会面临如下问题:
- OpenAI 存在云资源的规模优势,成本更低
- OpenAI 的 API 已经在产品代码里大量使用,更换难度大
- 该公司的产品性能仍然没有超过 GPT-4
- OpenAI 的次世代产品(可能是 GPT-5)即将发布
可以看出,该公司的压力是相当大的。比起训练 GPT-4,还不如直接押注次世代模型(对标 GPT-5)。然后问题就会从「同类竞品问题」转换成「技术创新问题」。这是小公司难以承受之重。
因此,讨论「谁能训练 GPT-4」是一个战略上的死题,比起思考这个问题,不如找找更有确定性、更有机会的方向。
给 AI 初创公司的建议:性能为先,避免停留
笔者曾经撰写过多篇文章吐槽 langchain,其根本原因是 langchain 的没给开发者留提高性能的空间。美其名曰「通用性框架」,为了保证通用性,舍弃了很多大模型的性能提高空间,例如多轮对话和微调实现的格式控制。类似的还有 guidance/Auto-GPT/BabyAGI 等,都想做「能用一辈子的框架」。
一个客观事实是,OpenAI 在 5 月份发布了 Function Calling,很多代码中麻烦的地方都有了更好的实现方案,而实现更好方案的代价就是重构产品代码的关键部分。8 月份,OpenAI 又发布了微调 GPT-3.5 的权限,很多需要精准控制输出的环节又有了新的潜在方案。
因此,初创公司必须面对一个关键选项:是选择①提高性能、不停重构产品,还是②减少使用新特性、始终使用老特性进行开发?
对于新技术应用的创业,「开发」不仅仅代表着写代码的过程,也代表产品功能 / 战略方面的「上限」。可以驾驭的性能越高,产品的理论功能越多、战略灵活性越高。
技术的发展无法预测,而微小的技术革新可能带来高度敏感的竞争格局变化,初创公司对技术的发展应当具有反脆弱的能力。
——说人话就是:性能优先,避免停留。开发层面,多用新特性;产品方面,思考新特性能做什么功能;战略方面,考虑到新特性对战略的影响。
《过秦论》中,曾提到秦朝在建立之后收缴了天下的金属兵器,将其铸成了十二个铜人,来消灭民间起义的可能性。但秦朝是出了名的短命王朝。比起无视变化,还是重视变化更有利些。
给 AI 初创公司的建议:放心做应用
初创公司做应用有一个非常常见的隐患:大公司入场。这里的大公司不仅包括应用巨无霸,例如 Meta/ 字节 / 腾讯等,也包括 AI 行业的上游,如 OpenAI。
大公司入场的原因通常有两个:布局产品机会,以及上游切下游。
「布局产品机会」是字面含义,大公司觉得这个方向值得做,于是做了。
「上游切下游」多是无奈之举,可能是因为自己研发了对标 OpenAI 的大模型,但因为大模型赢家通吃的问题,没有用户,导致烧费用、没营收、没数据,进而导致性能逐渐落后。此时,切入下游、开发具体的应用、使用自己的技术,是唯一选项。
根据历史经验,由于组织架构的问题,公司越贴近下游、技术越容易落后,而技术越落后、越不得不做下游。这些所谓的技术公司最后会和应用层公司抢夺同一个生态位。
但是,在应用层的战场里,由于 AI 技术出现时间很短,并没有行之有效、可复用的规模优势,大公司和初创公司的起点差不多。比起大公司,初创公司的效率高、洞察深,更容易占据优势。
一个值得注意的情况是,MS Azure 现在几乎所有宣传材料都是围绕 OpenAI 展开的,微软这么大的厂子却要完全依靠 OpenAI 作为自己的台面,从侧面证明初创公司在 AI 领域有天然优势。
当然,某些云厂商可能无法接受被初创公司牵头,要自己吃掉所有市场。其成本高昂、速度缓慢,并不是近在眼前的威胁。
事实是,确实有一些 AI 应用的赛道非常短命,但还有很多长命赛道没被发掘出来,AI 的应用也并非赢家通吃。从应用延伸到平台或技术,也是更加可行的通路。
因此,我们应该理性看待大公司侵入应用层的能力。我们的建议是,AI 初创公司可以放心做应用。
给 AI 初创公司的建议:注意产品生命线
前文提到,AI 初创公司可以放心做应用,但要考虑到 AI 模型的性能问题,避免停留。这种状况,直接表现为 AI 产品可能在数个月内失去需求基础、并逐渐凋零,而这种情况可能是频繁发生的。
AI 应用需要使用大模型的服务,大模型的性能不断提高。这种提高不是「速度」等单一维度的改善,而是输出质量、输出长度、输出控制性等全方面的改变。每一次技术的显著升级都会导致已有应用层产品的技术落后,并创造出新的机会和竞争对手。
我们将 AI 应用在战略 / 产品 / 技术上保有优势和必要性的时间称为「生命线」。
以下是一些生命线较短的例子:
- 当 ChatGPT/Claude 支持文件上传后,ChatPDF 失去必要性
- 当 Office365 支持 Copilot 后,使用 AI 画 PPT 的产品失去优势
- 当 GPT-3.5 出现后,Jasper 失去必要性
考虑到 AI 行业的发展很快,生命线有限是常态。因此,接受生命线有限的事实,并尽量选择生命线较长的方向发展,有利于保持长久的优势和产品必要性。
一般地,可以将生命线简单划分为 3/6/12 个月的级别。
- 3 个月:大公司来不及做的功能(如 office/ChatGPT 还没来得及做的功能)
- 6 个月:有一定实现难度、无法融入既有方案,但优势 / 必要性会随 AI 性能提高而消失(如通用 AI 框架)
- 12 个月:优势 / 必要性能够长期存在,不易被大公司 / 技术发展影响(如 Hugging Face)
* 平台类产品的生命周期并不一定长,毕竟 prompt 商店也是平台
初创公司在确定方向时只要有 6 个月级别的生命线就可以做了,12 个月级别的生命线可遇不可求。
当产品生命线到尽头,一般有两种情况。第一种情况是优势消失,需要重构产品升级技术,请参考上文「性能为先」;第二种情况是必要性消失,产品将逐渐被取代,此时产品仍有数个月的「运营寿命」,足够初创公司选取下一个方向。
给 AI 初创公司的建议:Web3+AI 可以做
目前围绕 Web3+AI 主题进行创业的项目已有很多,而考虑到技术发展的不确定性和市场的早期性,Web3+AI 的话题在未来还有诸多变数。
本文旨在于不确定性中寻找大概率正确的确定性,因此,笔者仍希望抛砖引玉,提出一些可能存在机会的题材和方向,供初创公司和感兴趣的研究者参考。
- 去主权化 / 去中心化
目前,AI 行业的领跑者只提供闭源模型,其持续提供服务的稳定性、透明性、中立性均不可控。去主权化 / 去中心化可能成为 AI 行业一个重要的题材,即:基于去主权化 / 去中心化的基本架构,提供稳定、透明、中立的 AI 服务。
去主权化 / 去中心化是一种「备选方案」,也是一种「震慑」,能够显著提高中心化 / 主权化的 AI 公司的不道德成本,阻止其将 AI 模型使用在军事、邪教、政治等方面。
而在极端情况中,一旦中心化 / 主权化 AI 服务因某些缘故不再可用 / 可信,去主权化 / 去中心化 AI 可持续提供高可用的服务,防止个别国家 / 地区乃至人类失去 AI 服务陷入瘫痪状态。
- 算力实用化
ETH 从 PoW 转向 PoS 的背后是遭人诟病的「挖矿不产生价值」的困境,而将 Web3 与 AI 结合,可提供算力实用化的场景,从而实现存量算力消化和推动总算力成长等效果。
- 虚拟资产化
AI 是原生于算力和存储上的资产,Web3 与 AI 的结合可以提供将 AI 转化为虚拟资产的通道,在实现 AI 行业的价值实例化的同时,为 Web3 创造真正的原生虚拟资产。
- Web3 应用的变数
Web3 与 AI 的结合可能为 Web3 应用带来新的功能点和成长机会,现有的 Web3 应用可以全部重做一遍。
写在最后:9 月了,现在的 AI 还值得创业吗
先说结论:值得,且这个结论大概率可以沿用到过年。
人对状况的感知经常有偏差,笔者也不例外。有人过于乐观,有人过于悲观。笔者曾经与两个团队交流,一个团队认为自己明年 Q1 就能做出来 AI Agent,另一个团队则觉得 AI 只适合做些知识库管理的工作,显然前者过于乐观,而后者悲观过头了。
在做远景规划时,过于乐观和过于悲观都会掉到坑里,而广泛传播的言论又往往是这些偏差很大的言论,独立思考显得弥足珍贵。因此,不论读者是否能够接受本文的观点,只要读者在阅读过程中产生了独立的思考和判断,笔者就无比欣慰了。