Foresight Ventures: 去中心化 AI Marketplace 的最佳尝试
作者:Ian,Foresight Ventures
TL;DR
-
一个成功的去中心化AI marketplace需要将AI和Web3的优势紧密结合,利用分布式、资产确权、收益分配和去中心化算力的附加值,降低AI应用的门槛,鼓励开发者上传和分享模型,同时保护用户的数据私有权,构建一个开发者友好,且满足用户需求的AI资源交易、共享平台。
-
基于数据的AI marketplace有更大的潜力。死磕模型的marketplace需要大量高质量模型的支撑,但早期平台缺乏用户基数和优质资源,使得优秀模型提供者的激励不足,难以吸引优质模型;而基于数据的marketplace通过去中心化,分布式地采集、激励层设计和数据所有权的保证,可以积累大量有价值的数据和资源,尤其是私域数据。然而,数据市场也需要解决数据隐私保护的挑战,解决方案包括设计更灵活的策略,允许用户自定义隐私级别的设置。
-
去中心化AI marketplace的成功依赖于用户资源的累积和强大的网络效应,用户和开发者可以从市场中获得的价值超过他们在市场之外能够得到的价值。在市场的早期,重点在于积累优质模型以吸引并保留用户,然后在建立起优质模型库和数据壁垒后,转向吸引和留住更多的终端用户。并且,优秀的AI marketplace需要找到各方利益的平衡点,并妥善处理数据所有权、模型质量、用户隐私、算力、激励算法等因素。
一、Web3的AI Marketplace
1.1 web3领域的AI赛道回顾
首先回顾一下之前我提到的AI和crypto结合的两种大方向,ZKML和去中心化算力网络?
ZKML
ZKML让AI模型transparent + verifiable, 也就是说保证模型架构、模型参数和权重、模型输入这三个因素在全网可以被验证。ZKML的意义在于不牺牲去中心化和trustless的基础上,为web3世界创造下一阶段的价值,提供承接更广泛应用和创造更大可能性的能力。
Foresight Ventures: AI + Web3 = ?
算力网络
算力资源会是下一个十年的大战场,未来对于高性能计算基础设施的投资将会指数级上升。去中心化算力的应用场景分为模型推理和模型训练两个方向,在AI大模型训练上的需求是最大的,但是也面临最大的挑战和技术瓶颈。包括需要复杂的数据同步和网络优化问题等。在模型推理上更有机会落地,可以预测未来的增量空间也足够大。
1.2 什么是AI Marketplace?
AI marketplace并不是一个很新的概念,Hugging Face可以说是最成功的AI marketplace(除了没有交易和定价机制)。在NLP领域,Hugging Face提供了一个极为重要且活跃的社区平台,开发者和用户可以共享和使用各种预训练模型。
从Hugging Face的成功可以看出,一个AI marketplace需要具备:
a. 模型资源
Hugging Face提供了大量的预训练模型,这些模型涵盖了各种NLP任务。这种资源丰富性吸引了大量的用户,因此,这是形成一个活跃的社区、积累用户的基础。
b. 开源精神 + 传播分享
Hugging Face鼓励开发者上传并分享自己的模型。这种开放分享的精神增强了社区的活力,并使得最新的研究成果能够快速地被广大用户所利用。这就是在积累优秀开发者和模型的基础上,加快了研究成果被验证并推广的效率。
c. 开发者友好 + 易用
Hugging Face提供易用的API和文档,使得开发者可以快速地理解和使用其提供的模型。这降低了使用门槛,提升用户体验,吸引了更多开发者。
虽然Hugging Face并没有交易机制,但它仍然为AI模型的分享和使用提供了一个重要的平台。因此也可以看出,AI marketplace有机会成为整个行业的宝贵资源。
去中心化的AI marketplace in short:
基于以上要素,去中心化的AI marketplace基于区块链技术的基础,让用户对自己的数据、模型资产拥有所有权。Web3所带来的价值也体现在激励和交易机制,用户可以自由地挑选或者通过系统match到合适的模型,同时也可以上架自己训练的模型获取收益。
用户对自己的AI资产拥有所有权,并且AI marketplace本身并没有对数据和模型的掌控权。相反,市场的发展是依赖于用户基数以及随之而来的模型和数据的积累。这种积累是一个长期的过程,但是也是逐渐建立产品壁垒的过程,支撑市场发展的是用户数以及用户上传的模型和数据的数量/质量。
1.3 为什么关注Web3的AI Marketplace?
1.3.1 和算力应用的大方向契合
由于通信压力等原因,去中心化算力在训练base模型上落地可能比较困难,但是在finetune上的压力会小很多,因此有机会成为中心化算力网络落地的最佳场景之一。
一点背景知识:为什么微调阶段更容易落地
Foresight Ventures: 理性看待去中心化算力网络
AI模型的训练分为pretraining和fine-tuning。预训练涉及大量的数据和大量的计算,具体可以参考我上面一篇文章的分析。微调基于base模型,使用特定任务的数据,来调整模型参数,使模型对特定任务有更好的性能,模型微调阶段需要的计算资源比预训练阶段小很多,主要有以下两个原因:
-
数据量:在预训练阶段,模型需要在大规模的数据集上进行训练以学习通用的语言表示。例如,BERT模型的预训练就是在包含数十亿个词汇的Wikipedia和BookCorpus上进行的。而在微调阶段,模型通常只需要在特定任务的小规模数据集上进行训练。例如,用于情感分析任务的微调数据集可能只有几千到几万条评论。 -
训练步数:预训练阶段通常需要数百万甚至数十亿的训练步骤,而微调阶段通常只需要几千到几万步。这是因为预训练阶段需要学习语言的基本结构和语义,而微调阶段仅需要调整模型的一部分参数来适应特定任务。
举个例子,以GPT3为例,预训练阶段使用了45TB的文本数据进行训练,而微调阶段则只需要~5GB的数据。预训练阶段的训练时间需要几周到几个月,而微调阶段则只需要几个小时到几天。
1.3.2 AI和crypto交叉的起点
判断一个web3项目是否合理,其中很重要的一点是,是不是为了crypto而crypto,项目是否最大化利用了web3的带来的价值,web3的加成是不是带来了差异化。很显然,web3为这种AI marketplace带来的无法替代确权、收益分配和算力的附加值
我认为一个优秀的Web3 AI marketplace可以把AI和crypto紧密结合。最完美的结合不是AI市场能给web3带去什么应用或是infra,而是web3能为AI市场提供什么。那么很显然,例如每个用户都可以拥有自己的AI模型和数据的所有权(比如把AI模型和数据都封装为NFT),也可以把它们当作商品进行交易,这很好地利用了web3可以发挥的价值。不仅激励了AI开发者和数据提供者,也使得AI的应用变得更加广泛。如果一个模型足够好用,所有者有更强的动力上传给别人分享。
同时,去中心化AI marketplace可能引入一些全新的商业模式,比如模型、数据的售卖和租赁,任务众包等。
1.3.3 降低AI应用门槛
每个人应该并且会有能力训练自己的人工智能模型,这就需要一个门槛足够低的平台提供资源的支持,包括base模型、工具、数据、算力等。
1.3.4 需求和供给
大模型虽然推理能力强大,但并非万能的。往往针对特定任务和场景进行微调会达到更好的效果,并且具备更强的实用性。因此,从需求端看,用户需要有一个AI模型市场来获取不同场景下好用的模型;对于开发者,需要一个能提供极大资源便利的平台来开发模型,并且通过自己的专业知识获得收益。
二、基于模型 v.s. 基于数据
2.1 模型市场
模式
以tooling为卖点,作为链路的第一环,项目需要在早期吸引足够多的模型开发者来部署优质的模型,从而为市场建立供给。
这种模式下,吸引开发者的点主要是方便好用的infra和tooling,数据是看开发者自己的能力也是为什么有些在某个领域有经验的人可以创造价值的点,这个领域的数据需要开发者自己收集并且微调出performance更好的模型。
思考
最近看到很多关于AI marketplace和web3的结合的项目,但我想的是:创造一个去中心化AI模型市场是不是一个伪命题?
首先我们需要思考一个问题,web3能提供的价值是什么?
如果仅仅是token的激励,或者是模型的归属权叙事,那是远远不够的。实际一点看,平台上高质量的模型是整个产品的核心,而优秀的模型通常意味着极高的经济价值。从模型提供者的角度看,他们需要足够的动力来将自己优质的模型部署到AI marketplace,但token和归属权带来的激励是否能达到他们对模型价值的预期?对于一个早期缺乏用户基数的平台来说,显然是远远达不到的。没有极其优秀的模型,整个商业模式就不会成立。所以问题就变成了如何在早期缺乏终端用户的情况下,让模型提供者获得足够的收益。
2.2 数据市场
模式
以去中心化的数据采集为基础,通过激励层的设计和数据所有权的叙事onboard更多数据提供者,以及为数据打标签的用户。在crypto的加持下,平台是有机会在一定时间内积累大量有价值的数据的,特别是目前缺少的私域数据。
让我最兴奋的一点是,这种自下而上的发展模式更像是一种众筹的玩法。再有经验的人也不可能拥有一个领域完备的数据,而web3能提供的价值之一就是无许可和去中心化地数据采集。这个模式不仅能够集中各个领域的专业知识和数据,而且还能够为更大的用户群体提供AI服务。相比单一用户自己的数据,这些众筹的数据是从大量真实用户的实际场景中采集的,因此会比单一来源收集的数据更能反映现实世界的复杂性和多样性,这可以极大地增强模型的泛化能力和鲁棒性,使AI模型能在多种不同的环境中发挥高性能。
举个例子,可能一个人在营养学上有很丰富的经验,也积累了很多数据,但光靠个人的数据是远远不够训练出一个优秀的模型的。在用户分享数据的同时,也可以很好地触达并利用平台上相同领域全网其他用户贡献的有价值的数据,以此达到更好的微调效果。
思考
从这个角度看,做一个去中心化的数据市场也可能是一个不错的尝试。数据作为一个门槛更低、生产链路更短,provider密度更广的“商品”,能更好地利用web3所能提供的价值。激励算法和数据确权的机制能为用户上传数据提供动力。在目前的模式下,数据更像是一次性的商品,即使用一次后就几乎没有价值。在去中心化的AI模型市场中,用户的数据可以被反复使用并获取利益,数据的价值会得到更长期的实现。
以数据为切入点去积累用户似乎是一个不错的选择,大模型的核心和壁垒之一就是优质和多维度的数据,在onboard了大量数据提供者之后,这些人有机会进一步转化成终端用户或者模型提供者。以此为基础的AI marketplace确实能为优秀的模型提供底层价值,从训练模型的角度给算法工程师在平台上贡献模型的动力。
这种动力是从0到1的改变, 现在大公司由于拥有海量数据,他们可以训练出更精确的模型,这使得小型公司和个人开发者难以与之竞争。纵使用户拥有某个领域非常有价值的数据,这一小部分数据没有更大集合上的数据的配合也是很难发挥价值的。然而在去中心化的市场中,所有人都有机会获取并使用数据,而这些专家是带着有价值的增量数据加入平台的,因此,平台的数据质量和数量也进一步得到了提升,这使得所有人都有可能训练出优秀的模型,甚至推动AI的创新。
数据本身确实也很适合成为这种AI marketplace的竞争壁垒。首先,优秀的激励层和安全的隐私保障可以让更多散户参与到整个protocol当中贡献数据。并且,随着用户数量的增加,数据的质量和数量也会不断提高。这会产生社区和网络效应,使得市场能提供的价值更大,维度更广,那么对新增用户的吸引力也会更大,这就是为市场建立壁垒的过程。
所以根本上,要做好一个数据驱动的AI marketplace,最重要的是以下4点:
-
激励层:设计能够有效激励用户提供高质量数据的算法,并且需要平衡激励的强度和市场的可持续性。 -
隐私:保护数据隐私并确保数据的使用效率。 -
用户:在早期将用户快速积累并收集更多有价值的数据。 -
数据质量:数据来自各种不同的来源,需要设计有效的质量控制机制。
为什么模型的provider在这个场景下没有被我列为关键因素?
主要原因还是基于以上四点,有优秀的model provider加入是顺理成章的。
2.3 数据市场的价值和挑战
私域数据
私域数据的价值在于它有特定领域内独特且难以获得的信息,这种信息对于AI模型的微调尤其重要。使用私域数据可以创建出更为精准和个性化的模型,这种模型在特定场景的表现会超过使用公共数据集训练的模型。
现在基础模型的构建过程可以获取到大量公共数据,因此,web3数据市场的发力点不在这些数据上。训练中如何获取并加入私域数据是目前的一个瓶颈,通过将私域数据与公共数据集相结合,可以增加模型对多样化问题和用户需求的适应能力和模型的准确度。
举例来说以医疗健康场景为例,使用私域数据的AI模型在预测准确度上通常能提高10%~30%。参考Stanford的research,使用私域医疗数据的deep learning model在肺癌预测上的准确率超过了使用公共数据的模型15%
数据隐私
隐私会不会成为制约AI + Web3的瓶颈?从现在的发展看,AI在web3的落地方向已经逐渐明确,但是似乎每一个应用都绕不开隐私的话题,去中心化算力无论是在模型训练还是模型推理上都需要保证数据和模型的隐私;zkml能成立的一个条件也是保证模型不会被恶意节点滥用。
AI marketplace建立在确保用户掌控自己的数据的基础上,因此,虽然通过一种去中心化、分布式的方式采集了用户数据,但是所有节点在收集、处理、存储、使用等阶段都不应该直接access原始数据。目前的加密手段在使用上都面临瓶颈,以全同态加密为例:
-
计算复杂性:FHE比传统的加密方式更复杂,这使得在全同态加密下进行AI模型训练的运算的计算开销大幅度增加,使得模型训练变得效率极低,甚至不可行。因此,对于需要大量计算资源的任务,如深度学习模型训练,全同态加密不是理想的选择。 -
计算误差:在FHE的计算过程中,误差会随着计算的进行逐渐累积,最终对计算结果产生影,会影响AI模型的performance。
隐私也分级别,不需要过分焦虑
不同类型的数据存在不同程度的隐私需求。只有例如医疗记录、金融信息、敏感个人信息等需要高级别的隐私保护。
因此,在去中心化AI marketplace的讨论中需要考虑到数据的多样性,最重要的是平衡。为了最大化用户的参与度和平台的资源丰富度,设计一种更灵活的策略,允许用户自定义隐私级别的设置是很必要的,并不是所有数据都需要最高级别的隐私。
三、关于去中心化AI Marketplace的反思
3.1 用户对资产有支配权,用户撤出会不会导致平台崩塌?
去中心化AI marketplace的优势在于用户对资源的所有权,用户确实可以随时撤出自己的资源,但是一旦用户和资源(模型、数据)累积到一定程度,我认为平台不会被影响。当然这也意味着项目初期会耗费大量资金稳固用户及资源,对一个初创团队会非常艰难。
社区共识
去中心化AI marketplace一旦形成强大的网络效应,会有更多的用户和开发者产生黏性。并且因为用户数量的增加会导致数据和模型的质量和数量的增加,使市场更加成熟。不同利益驱动的用户从市场中获得的价值也就越大。尽管少量用户可能会选择离开,但这种情况下新用户的增速理论上并不会放缓,市场还是能继续发展并提供更大价值。
激励机制
激励层如果设计合理,随着加入人数的增加和各种资源的累积,各方获得的利益也会相应上升。去中心化AI marketplace不仅提供一个让用户能够交易数据和模型的平台,还可能提供一种让用户能够从自己的数据和模型中获利的机制。比如用户通过出售自己的数据或者通过让其他人使用自己的模型来获得报酬。
对于模型开发者来说:在其他平台部署可能没有足够多的数据支撑finetune一个performance更好的模型;
对于数据提供者来说:另一个平台可能没有这么完善的数据基础,用户单独一小块数据也无法发挥价值并获得足够的使用量和收益;
小结
虽然在去中心化的AI marketplace中,项目方只扮演一个撮合和提供平台的角色,但是真正的壁垒在于用户数量的累积所带来的数据和模型的累积。用户确实有撤出市场的自由,但是一个成熟的AI Marketplace往往会使他们从市场中得到的价值超过他们在市场之外能够得到的价值,那其实用户就没有动力撤出市场。
不过如果大部分用户或者一部分高质量模型/数据提供者选择撤出,那么市场可能会受到影响。这也符合在各种经济系统中存在用户进入和退出的动态变化和调节。
3.2 先有鸡还是先有蛋
从以上两种路径看,很难说最终会有那一条跑出来,但显然基于数据的AI marketplace更加make sense,并且天花板远高于第一种。最大的区别就在于,基于数据的市场是在不断充实壁垒,积累用户的过程也是积累数据的过程,最终web3赋予的价值就是让一个巨大的去中心化数据库更加充实,这是一个正向的循环。同时,从本质上看这种平台不需要留存数据,而是提供一个贡献数据的市场更加轻量。最终来看,这就是一个大型的数据集市,这种壁垒是很难替代的。
从供给和需求的角度上看,一个AI marketplace需要同时具备两点:
-
大量的优秀的模型 -
终端用户
从某种角度看,这两个条件似乎是互相依赖的,一方面,平台需要有足够多的用户为模型和数据的提供者提供使用的动力,只有积累的足够多的用户,激励层才能发挥最大的价值,数据的飞轮也才能转起来,这样才会有更多的model provider来部署模型。另一方面看,足够多的终端用户一定是奔着好用的模型来的,用户对于平台的选择极大程度上是对平台模型质量和能力的选择。因此,在没有积累一定数量优秀模型的前提下,这种需求是不存在的,路由算法做的再先进,没有好的模型路由也是空谈。这就好比apple store的前提是apple
因此,一种比较好的发展思路是:
初期策略
-
积累优质模型,在初始阶段最值得关注的是建立一个优质的模型库。原因在于,无论终端用户有多少,没有高质量的模型供他们选择和使用,平台就没有吸引力,用户也不会有粘性和留存。通过聚焦于建立优质的模型库,平台可以确保早期的用户能够找到他们需要的模型,从而建立品牌声誉和用户信任,逐步建立起社区和网络效应。
扩展策略
-
吸引终端用户,在建立了优质模型库之后转向吸引和留住更多的终端用户。大量的用户将为模型开发者提供足够的动力和利益,使他们持续提供和改进模型。此外,大量的用户也将生成大量的数据,进一步提升模型的训练和优化。
小结
什么才是AI marketplace的最佳尝试?一句话说就是平台能提供足够多的优质模型,并且能高效地为用户匹配合适的模型解决问题。这句话解决两个矛盾,首先,平台能为开发者(包括模型开发者和使用者)提供足够的价值,让平台上拥有足够多的优质模型;其次,这些“商品”能为用户提供高效地解决方案,从而积累更多用户,为各方利益提供保障。
去中心化的AI Marketplace,是一个AI + web3容易落地的方向,但是一个项目必须想清楚这种平台能提供的真正的价值是什么,以及如何在早期onboard大量用户。其中,关键在于找到一个各方利益的平衡点,同时处理好数据所有权、模型质量、用户隐私、算力、激励算法等多个要素,最终成为一个数据、模型和算力的共享和交易平台。