对话 MyShell 创始人:要做机器人的超级梦工厂

推荐阅读
2023-11-24 16:46:28
收藏
过去的经验主义或二三十年来的互联网惯性,可能会让很多人误以为这只是下一个移动互联网式的机会。实际上,AI 可能会以全新的方式开启新的技术加速度。

采访:Afra、Zohar , AI Vanguard

编辑:Afra、ChatGPT, AI Vanguard

 

MyShell 爆火的起点

“最早的 Demo bot 上线后第三还是第四周的时间,我们的用户社区就超过了 8000 个人,当时我们后台看到的用户总量是 3 万。”

“群里面有 8000 个人天天在叽叽喳喳地讨论问题,整个三四月份的时间,靠社区一点点地贡献代码和不同模块的开发,垒起了我们,期间还有用户想要投钱给我们。”“截止发稿日,总用户数已经突破10万。”

MyShell 的增长非常“有机”,比起精心设计,更像是演化而来的

“那段时间 GPT 和很多大语言模型出现,我们觉得它的文本能力很厉害;不过我们觉得是不是可以加上一个特别动人的声音,能让它不光是作为一个聊天工具,而是能够帮助用户学习去学习新的语言,因为正好当时他有些练习英语口语的需求,所以我们就花了一天时间搭了一个机器人,搭完了以后觉得特别惊艳,然后 Rick 也很开心,和 Samantha(注:MyShell 最早期的机器人,采用的是斯佳丽约翰逊的语音) 去聊英语也不用担心和人讲英语的这种尴尬的心理。”

“然后我们就发了一个朋友圈,然后没有想到通过这样一个朋友圈,Telegram 的群里面从几十个人涨到两三百,然后突然又涨到 1000,然后迅速地又涨到了 8000。”

“一个非常像人的,能够和你直接语音对话,只要按下语音键说话,然后发送,机器人就会用语音来回答你。”

MyShell 是一个无代码机器人创作平台

AI Vanguard:首先,我们想请你们介绍一下你们正在做的 MyShell 产品,谈谈你们目前取得的成果以及未来的发展规划。

Rick,MyShell 创始人:我们的目标是做一个无代码平台,让没有学过编程的大学生也能轻松创作自己想要的机器人。最近,我们的机器人工坊功能正式上线了。自从我们开放了工坊创作,用户疯狂地参与,已经有接近 60 个用户自制的机器人。除了公开机器人,用户私有的机器人也超过了 100 多个。而在之前的两个月,我们只做了 5 个机器人。

我们平台上有各种类型的机器人,如学习语言、教育、纯工具类等。我们希望用户能根据自己的兴趣组合出喜欢的机器人。目前,我们已经整合了语音生成能力,并计划未来加入图像模块。我们希望让机器人更具人性化和可组合性,满足各种细分市场的需求。

优秀 bot 展示

YUKI - IELTS Teacher Ben
  • 【IELTS Teacher Ben】帮你进行一对一模拟练习,口语纠正
  • 使用示范:
  • https://app.myshell.ai/share/c177f1ca50d248b6a31bde4f3f64485c

图片

Kaiserwetter - MBTI Stimulation
  • 以任何身份与任何MBTI人格聊天
  • 使用示范:
  • https://app.myshell.ai/share/07bfd887a5414ff7bae3d0be985ddae8

图片

我们将平台上的角色分为模型提供者、机器人创作者和用户。我们希望建立一个健康可持续的经济模型,让他们之间产生有机协同。用户可以选择喜欢的机器人,机器人作者可以选择优质的模型,模型作者也能在平台上获得他们需要的应用场景和高质量数据。

AI Vanguard:我理解你们就像在运用 Langchain 架构一样,希望通过无代码处理,让更多人参与到这个生态搭建中来。

Ethan,MyShell 创始人:对,这是我们的目标。实际上,我们希望用户不需要懂任何代码,就能更低门槛、更高效地创建他们想要的AI。不同于 Langchain 的是,它主要集成了文本模态,使开发者能够更快地实现文本输入和输出。但我们认为多模态是非常关键的。因此,我们开发、集成了语音模态,并计划在不久的将来加入图像理解和图像生成能力。这使得我们的平台更简单、更多元,也是我们认为非常重要的多模态集成。

大语言模型应该作为一个超级胶水,连接其他模态和服务

AI Vanguard:关于人格化的问题,我觉得可以展开讨论一下。因为实际上,人格化不仅仅是指机器人的外观和声音,更重要的是它的沟通能力和提供的服务。你们是如何看待这个问题的?

Rick,MyShell 创始人:我们把机器人分为两层:表层是沟通界面,也就是与用户互动的部分;底层是能力层,也就是机器人能做什么。我们认为,大语言模型应该作为一个超级胶水,连接其他模态和服务。我们把这种机器人比作一个交通调度员,可以分发用户的指令给其他更擅长处理这个问题的模块。

对于机器人的能力层,我们认为它应该是非常同质化的,尤其是一些基本功能,如点外卖或解数学题。而表层,也就是沟通界面层的差异化非常重要,机器人的 UI 界面需要非常人性化,它应该与用户产生良好的情感沟通,能够更好地理解用户的意图,并在背后调动不同的小模型一起工作。

Ethan,MyShell 创始人:大模型能够根据用户的使用习惯理解用户的意图,但是应该是有很多小模型在背后一起工作,前面会有一个最熟悉用户的大语言模型或是专用模型去负责调度背后不同的能力模块。比如像是问天气,解决一些翻译问题或者别的功能性问题,其实是需要这个机器人对于用户的使用习惯和用户的意图具备很强的理解能力的。

Rick,MyShell 创始人:我觉得可以举一个非常具象的例子,用我们非常熟悉的场景,比如我们在开工作会议,然后遇到一个专业上的问题需要去解决的时候,我们通常就会把另外一个人给拉进来,说你看一看上面的这些事情,你能不能给出一些你的建议。比如说你在跟我们的机器人 Samantha 聊天的时候说”我们今晚要去聚餐,大概有 12 个人,你有什么建议吗?” Samantha 可能就把另外一个厨师机器人给拉进来聊天,然后让厨师机器人去安排。这些机器人是有一个公共事件的,就是每一个机器人彼此知道对方的存在,同时也知道对方能够提供什么样独特的能力,在需要的场合下会调度另外一个机器人以提供相应的东西。

其次提到多模态能力,机器人会支持不同的模型种类和服务,他可以在自己的这一层去选择用什么方式来做出回应。比如今天我请 Samantha 给我一些房子装修的建议,如果这件事情用文字模态来实现的话,双方沟通起来都会比较吃力,但是如果可以调用图像模态,这个问题可以就几秒钟得到解决。知道在什么场景下调用什么模态是我们认为个性化的 UI 里面可能很关键的一个部分。

未来大模型会越来越强大,但只会掌握在头部极少数公司手中

AI Vanguard:大模型的出现给行业带来了什么样的影响?大模型的未来发展方向是什么?

Ethan,MyShell 创始人:首先,大模型的出现,如 GPT 系列,给过去 10 年的各种 NLP 算法带来了极大挑战。过去,我们使用不同的算法解决各种独立问题,如专门的翻译、纠错算法等。但现在,一个超大的模型可以实现过往多个模型才能达到的能力。这使得许多专用算法失效,因为新模型在专用问题上的表现能力已经超越了传统专业模型。

其次,我们看到像 GPT-3 这种大模型的参数已经超过了 1000 亿,使得创业公司很难使用消费级硬件或小规模专有硬件进行训练,成本非常高。不过,我们也看到了像 LoRA (Low-Rank Adaptation of Large Language Models)  (注:这样的方案,它可以在预训练的超大模型上调整极少数参数,在新数据和新场景下做训练,降低了成本。)

同时,我们认为未来的大模型会越来越强大,但应该只会掌握在头部极少数公司手中。而开源社区的蓬勃发展会导致大家开始使用类似于 LoRA 的方案,利用最先进的通用模型和专有数据,在这种方案下诞生出无数的小模型和专用模型。

我们认为大语言模型会越来越像一个大脑,连接所有的 API,去连接所有的算法和工具。它将调度外部知识,调度外部服务,以及从外部获得输入,完成复杂任务。

AI Vanguard:目前我们能发现,其他模型如果想要追赶上 GPT-4,要不就是有特别的数据,要不就是在专有的知识层面上,通过大量专有数据的训练,在特定领域去超过大模型。那 GPT-5 出现的话,你预测会对现在企图追赶 OpenAI 的模型带来怎样的挑战呢?

Ethan,MyShell 创始人:我们认为 GPT-5 虽然可能非常强大,但成本也会非常高。因此,我们认为未来的模型可能会分化,大家更多地基于性价比和需求选择模型。GPT-5 之后可能更有可能服务于高质量数据生产(量大且格式标准),虽然使用成本高昂,但是还是便宜于人工成本。目前已经有类似案例,斯坦福大学用  GPT 产生的数据来训练小模型。

我们自己还有一个判断,我们看到苹果在大语言模型时代似乎一直没有什么动作,但是苹果是一个既具备很强的终端能力,也具备芯片生产能力的公司,所以很有可能苹果的一些在移动设备上的专用芯片能够非常高效地运行一些本地的大语言模型,这个模型既能够解决数据隐私问题,在响应时间上也能做到很好的优化。我认为未来苹果很有可能会在 AI 大潮中扮演一个非常有意思的角色,去改变现在大家都只使用 OpenAI 接口的竞争格局。

AI 创业公司想要构建壁垒,可以从算法和数据角度切入

AI Vanguard:从创业者的角度来看,你们认为 AI 创业公司目前面临的最大阻碍和难点是什么?

Ethan,MyShell 创始人:我觉得有一个很危险的事情,就是底层大模型公司,如 OpenAI,它的功能迭代实际上会吞噬许多传统公司的机会,甚至一些新兴基于 GPT 系列的创业公司。我们现在发现很难预测 GPT-4 和 GPT-5 的能力,以及它们如何演变。因此,许多与 OpenAI 紧密相关的 Infra 层可能会被 OpenAI 顺手开发的功能替代掉,

比如 Grammarly 目前面临的处境。大家在选择创业方向和进行自己的产品技术积累时,需要思考如何去平衡好它和这种底层巨头公司之间的关系,这个问题很值得思考。

就我们自己而言,我们首先判断多模态是一个特别重要的点,我们现有的产品也基本都是把算法、人力全部投向特别个性化,像人一样的语音合成算法的研发。因为我们认为语音的新模态和大方向在一年内应该不会被 OpenAI 所触达到,这是我们希望去保持的技术和产品优势。并且再去结合市面上最新的各类文本模态的产品,加上我们自己基于开源算法和数据 fine-tune 的小模型,去做我们自己的产品,避免把所有的精力和壁垒都构筑在和大语言模型特别近的地方。

另外,开源社区的演进速度也越来越快。从今年到现在,开源社区在大语言模型上的发展非常快,性能最好的开源模型已经非常接近 GPT-3.5 的表现了。过去三个月,从 Facebook 的 LLaMA 预训练模型的泄露,以及 Stanford 和 CMU 等学界的人去做的Alpaca、Vicuna,再到能理解图像的 MiniGPT。我们认为开源社区的能量非常重要,在与大公司的 GPT 时代竞争中,它是一股非常特殊且重要的力量。

在这种情况下,对于 MyShell 而言,我们需要思考如何构建技术壁垒,以免被开源社区抹平竞争优势。我们需要在算法和私有数据上构建壁垒,因为无论外部开源算法如何迭代,我们永远可以使用最新的开源算法和自己的专有数据,打造出比开源甚至通用模型更强大的能力。除了技术壁垒外,我们还需要考虑如何通过技术短期优势构建多边网络能力,去沉淀社区和内容壁垒。例如,抖音和淘宝都是多边的供给和消费网络。如果已经有一个平台拥有大量活跃创作者和用户,新来者会面临非技术竞争压力,也很难突破这种封锁。

AI Vanguard:那面对上述的这两种挑战,两位心中是否已经有具体思路了?

Rick,MyShell 创始人:我觉得我们需要顺势而为。开源越来越强大,大模型也越来越强大,创业的 idea 最好是能够随着这些变化而变化。最好是,随着这些开源社区变强,随着大模型变强,你的创业 idea 也会变得更强。得找这种 idea,因为任何想要挑战这两股势力的都可能在今年猝死。

Ethan,MyShell 创始人:大家今年在 fomo 大语言模型,但是我们认为多模态特别重要,所以我们自己壁垒的构建,重点在于做语音。因为过去的语音合成技术,不管是成本还是效果,都不尽如人意,没有办法去实现大规模的应用。今年我们已经能够用比所有的 API 低两个数量级的成本去合成任意的人声,去达成情绪饱满的语音效果。

然后第二点是在我们的平台上,我们特别在意用户使用产品过程中的构建数据闭环,沉淀高质量数据集。比如有个 bot 是我发布的,叫  voice collector,我们希望用户可以在使用产品的过程中也帮我们提供一些声音数据或文本数据,能够让我们的算法变得更加拟人和有温度。这种数据其实就是平台上沉淀的特定场景下的专有数据,我们希望去和开源社区达成一种非常和谐的合作关系。不管开源的模型如何迭代,我们专用场景下的专有数据永远是我们所构建的一个壁垒。我们为创作者提供好用的工具和强大的能力,以此来吸引更多的用户,最终会形成一个基于内容和创作者生态的壁垒。这个壁垒一旦形成,在任何一个时代,我们就不再畏惧底层技术的快速变化。因为如果我们的变现效率是最高的,平台的运行效率是最高的,我们永远可以选择去接入最好的 API,或者是去使用我们的专有数据在最好的开源模型上做训练。

这将是一个新的技术加速度时代

AI Vanguard:谈谈你们过去的创业经历,以及为什么选择现在这个时间节点创业?为什么选择从 Web3 角度切入?

Rick,MyShell 创始人:我们从 2013 年开始在 AI 领域创业。在此期间,我们有过一两次的打工经历,但大部分时间都在创业过程中。所以,继续创业对我们来说是非常正常的选择。

2013年,我创建了一家图形图像公司,主要做 AR 底层 SDK。当时苹果还没有推出 ARKit,所以我们开发了类似的产品。后来,我认识了 Ethan ,他那时在牛津大学读书,回国实习的时候加入了我的公司。后来,Ethan 创办了一家 VR 创业公司,主要解决空间在 VR 环境中的拍摄和漫游问题,这家公司最后成为了贝壳找房的 VR 看房产品。

我们这些年一直在研究 AI 算法,尝试将其商业化。我们积累了很多经验,尤其是在算法大规模落地和稳定输出质量方面。后来,我们共同加入了一家 AI 独角兽公司,在那里主要负责机器人部门。这段经历让我们觉得做机器人是非常有趣的事情,因为机器人是典型的多模态产品,在一个模态不 work 的时候就引入另外一个模态,这种思路其实和我们现在做软件机器人的思路是一脉相承的,为我们创业埋下了种子。

我们选择现在这个时机创业,是因为我们看到了 GPT-4 等大模型的强大能力,觉得这将是一个新的技术加速度时代。从去年年底看到 ChatGPT,我们就一直处在迷茫和震惊的状态,处在极度亢奋和恐惧的叠加状态,我们发现业界里非常前沿的人对于 OpenAI 的高速发展也是超乎意料的。

我们认为自然语言是一个非常重要的领域,AI 能直接建制自然语言,一旦打开自然语言的封印,人和机器之间的界限就会被打破,接下来会进入一个新的技术加速度,更多的模态有可能被融合和打通。这意味着过去做的很多事情都没那么重要了,我们感到兴奋又恐惧。在这样的技术加速度下别无选择,就是归零自己,把过去所有对创业模式、对技术的理解和判断都归零,重新思考问题,重新开始。所以,我们在今年 3 月决定创业,很快就推出了第一个demo。

Ethan,MyShell 创始人:从我个人的角度来看,Web3的经济模型和多边网络的效率提升能力是我们选择的原因,我们希望将这些能力作为工具帮助我们构建多模态机器人创作平台的使命。此外,AI 时代给解决内容生产效率问题带来了新的可能。无论是图像生成算法(如 Stable Diffusion)还是文本生成模型(如 GPT),AI 可以让不具备专业知识和编程能力的人解决特定场景下的生产力问题,这种生产力至少提升了 1 到 2 个数量级,而在这种情况下,价值定义和分配变得尤为重要。Web3 的多边网络平台和加密技术可以极大地提升我们构建多边创作者平台的效率,并解决AI时代新的所有权和价值分配问题。通过 Web3 的多边机制,我们可以通过智能合约实现去中心化的经济利益分配,通过持币机制为平台提供流动性。尽管现有技术还不够成熟,但对于数据资产、模型资产和数据隐私等方面,加密和区块链技术具有反大公司式设计和社区多角色经济系统的潜力。因此,我们更多地从这个角度构建我们的模式,传统公司形态并不适合我们这样的平台。

潘多拉魔盒已经打开,AI 军备竞赛不会停止

AI Vanguard:很多业界大牛开始担心 AI 的发展,比如 Geoffrey Hinton 退出谷歌并警告AI的未来,你们怎么看?

Rick,MyShell 创始人:这里面我觉得可以看到一个问题,我们今天搭建的很多互联网的设施,包括各种系统可能还没有准备好面对今天的新的人工智能,很多事情可能在新的大模型面前是不堪一击的,这个是安全方面的问题。另外还有数据方面的问题,数据有好数据,比如教你雅思或者跟你有情感的陪伴;但也有坏数据,就是脏信息,比如误导性信息,然后网络水军。出现这种情况的时候,只能 “用魔法去打败魔法”,用一个更大的防御型的模型去防止它。这些事情对于很多小公司或者是一些没有安全意识的个体可能就是一个非常麻烦的事情。

Ethan,MyShell 创始人:对,因为其实这种技术是人创造出来的,一旦人类发现一个东西特别有用,多种不同的势力就会开始内卷竞争。现在发生在像微软和谷歌之间的 AI 军备竞赛,就很像当年美国和苏联的登月竞争一样,不会有一方认输去停下来的,所以这个事情其实会被人类的各种各样的欲望去推着,不断地去演变。所以未来是什么样子,我们也只能静观其变,也不知道会演变成什么样子。

Rick,MyShell 创始人:我特别理解为什么 OpenAI 的创始人 Sam 同时做了一个 Worldcoin 项目,因为实际上我们接下来可能会面临的数据污染是非常严重的,所以我们要确保数据的归属。数据要有责任人,它必须是由法律意义上能够负责任的人去发的一个数据。你可以撒谎没问题,但是我们得证明这个数据是人发出来的,这样对应的人才能对对应的数据去负责。

Ethan,MyShell 创始人:Worldcoin 主要是想确保每一个物理世界中的人,在不管是互联网还是区块链世界都有唯一身份 ID。如果能解决这样一件事,他就有可能去实现像刚才 Rick 提到的数据归属问题。其次,我觉得 Worldcoin 这个项目承载了 Sam 对于未来人类社会该如何去构建所产生的思考。

创业最重要的是有空杯心态,不要抱有太多的惯性

AI Vanguard:作为经验丰富的创业者,你们有什么建议可以给那些想要进入 AI 领域创业的人?

Rick,MyShell 创始人:首先,我觉得创业并不是唯一的出路。对于很多不创业的人来说,跟随新一代 AI 的红利,会有大量的机会。比如,很多过去没有人力去解决的细分场景可能会被很好地填补。整个社会的生产价值会有一个飞跃式的提升。普通人可以更好地规划自己的生活,或者把资金投到有红利的地方。

不过,对于创业者来说,我觉得最重要的事情就是要有空杯的心态。因为我认为过去的经验主义或二三十年来的互联网惯性,可能会让很多人误以为这只是下一个移动互联网式的机会。实际上,AI 可能会以全新的方式开启新的技术加速度。所以,不要抱有太多的惯性,要有空杯心态,才能在这个领域成功。

Ethan,MyShell 创始人:我觉得,在这一波 AI 时代,会出现很多专用场景的小模型,算法和模型之间的可组合性会变得越来越强,越来越灵活。所以,一个产品可能会在相同的模态下接入不同公司的技术,为用户提供服务。在这种情况下,技术演变会很快,产品也会变得越来越灵活。所以,创业者需要有敏锐的观察力和创新思维,以应对这个快速变化的时代。

链捕手ChainCatcher提醒,请广大读者理性看待区块链,切实提高风险意识,警惕各类虚拟代币发行与炒作, 站内所有内容仅系市场信息或相关方观点,不构成任何形式投资建议。如发现站内内容含敏感信息,可点击“举报”,我们会及时处理。
banner
ChainCatcher 与创新者共建Web3世界