對話 MyShell 創始人:要做機器人的超級夢工廠

推薦閱讀
2023-11-24 16:46:28
收藏
過去的經驗主義或二三十年的互聯網慣性,可能會讓很多人誤以為這只是下一個移動互聯網式的機會。實際上,AI 可能會以全新的方式開啟新的技術加速度。

*訪談:Afra、Zohar *, AI Vanguard**

編輯:Afra、ChatGPT, AI Vanguard

MyShell 爆火的起點

"最早的 Demo bot 上線後第三還是第四周的時間,我們的用戶社區就超過了 8000 個人,當時我們後台看到的用戶總量是 3 萬。"

"群裡面有 8000 個人天天在叽叽喳喳地討論問題,整個三四月份的時間,靠社區一點點地貢獻代碼和不同模塊的開發,垒起了我們,期間還有用戶想要投錢給我們。""截止發稿日,總用戶數已經突破10萬。"

MyShell 的增長非常"有機",比起精心設計,更像是演化而來的

"那段時間 GPT 和很多大語言模型出現,我們覺得它的文本能力很厲害;不過我們覺得是不是可以加上一個特別動人的聲音,能讓它不光是作為一個聊天工具,而是能夠幫助用戶學習去學習新的語言,因為正好當時他有些練習英語口語的需求,所以我們就花了一天時間搭了一個機器人,搭完了以後覺得特別驚艷,然後 Rick 也很開心,和 Samantha(注:MyShell 最早期的機器人,採用的是斯佳麗約翰遜的語音)去聊英語也不用擔心和人講英語的這種尷尬的心理。"

"然後我們就發了一個朋友圈,然後沒有想到通過這樣一個朋友圈,Telegram 的群裡面從幾十個人漲到兩三百,然後突然又漲到 1000,然後迅速地又漲到了 8000。"

"一個非常像人的,能夠和你直接語音對話,只要按下語音鍵說話,然後發送,機器人就會用語音來回答你。"

MyShell 是一個無代碼機器人創作平台

AI Vanguard:首先,我們想請你們介紹一下你們正在做的 MyShell 產品,談談你們目前取得的成果以及未來的發展規劃。

Rick,MyShell 創始人:我們的目標是做一個無代碼平台,讓沒有學過編程的大學生也能輕鬆創作自己想要的機器人。最近,我們的機器人工坊功能正式上線了。自從我們開放了工坊創作,用戶瘋狂地參與,已經有接近 60 個用戶自製的機器人。除了公開機器人,用戶私有的機器人也超過了 100 多個。而在之前的兩個月,我們只做了 5 個機器人。

我們平台上有各種類型的機器人,如學習語言、教育、純工具類等。我們希望用戶能根據自己的興趣組合出喜歡的機器人。目前,我們已經整合了語音生成能力,並計劃未來加入圖像模塊。我們希望讓機器人更具人性化和可組合性,滿足各種細分市場的需求。

優秀 bot 展示

YUKI - IELTS Teacher Ben
  • 【IELTS Teacher Ben】幫你進行一對一模擬練習,口語糾正
  • 使用示範:
  • https://app.myshell.ai/share/c177f1ca50d248b6a31bde4f3f64485c

圖片

Kaiserwetter - MBTI Stimulation
  • 以任何身份與任何MBTI人格聊天
  • 使用示範:
  • https://app.myshell.ai/share/07bfd887a5414ff7bae3d0be985ddae8

圖片

我們將平台上的角色分為模型提供者、機器人創作者和用戶。我們希望建立一個健康可持續的經濟模型,讓他們之間產生有機協同。用戶可以選擇喜歡的機器人,機器人作者可以選擇優質的模型,模型作者也能在平台上獲得他們需要的應用場景和高質量數據。

AI Vanguard:我理解你們就像在運用 Langchain 架構一樣,希望通過無代碼處理,讓更多人參與到這個生態搭建中來。

Ethan,MyShell 創始人:對,這是我們的目標。實際上,我們希望用戶不需要懂任何代碼,就能更低門檻、更高效地創建他們想要的AI。不同於 Langchain 的是,它主要集成了文本模態,使開發者能夠更快地實現文本輸入和輸出。但我們認為多模態是非常關鍵的。因此,我們開發、集成了語音模態,並計劃在不久的將來加入圖像理解和圖像生成能力。這使得我們的平台更簡單、更多元,也是我們認為非常重要的多模態集成。

大語言模型應該作為一個超級膠水,連接其他模態和服務

AI Vanguard:關於人格化的問題,我覺得可以展開討論一下。因為實際上,人格化不僅僅是指機器人的外觀和聲音,更重要的是它的溝通能力和提供的服務。你們是如何看待這個問題的?

Rick,MyShell 創始人: 我們把機器人分為兩層:表層是溝通界面,也就是與用戶互動的部分;底層是能力層,也就是機器人能做什麼。我們認為,大語言模型應該作為一個超級膠水,連接其他模態和服務。我們把這種機器人比作一個交通調度員,可以分發用戶的指令給其他更擅長處理這個問題的模塊。

對於機器人的能力層,我們認為它應該是非常同質化的,尤其是一些基本功能,如點外賣或解數學題。而表層,也就是溝通界面層的差異化非常重要,機器人的 UI 界面需要非常人性化,它應該與用戶產生良好的情感溝通,能夠更好地理解用戶的意圖,並在背後調動不同的小模型一起工作。

Ethan,MyShell 創始人:大模型能夠根據用戶的使用習慣理解用戶的意圖,但是應該是有很多小模型在背後一起工作,前面會有一個最熟悉用戶的大語言模型或是專用模型去負責調度背後不同的能力模塊。比如像是問天氣,解決一些翻譯問題或者別的功能性問題,其實是需要這個機器人對於用戶的使用習慣和用戶的意圖具備很強的理解能力的。

Rick,MyShell 創始人:我覺得可以舉一個非常具象的例子,用我們非常熟悉的場景,比如我們在開工作會議,然後遇到一個專業上的問題需要去解決的時候,我們通常就會把另外一個人給拉進來,說你看一看上面的這些事情,你能不能給出一些你的建議。比如說你在跟我們的機器人 Samantha 聊天的時候說"我們今晚要去聚餐,大概有 12 個人,你有什麼建議嗎?" Samantha 可能就把另外一個廚師機器人給拉進來聊天,然後讓廚師機器人去安排。這些機器人是有一個公共事件的,就是每一個機器人彼此知道對方的存在,同時也知道對方能夠提供什麼樣獨特的能力,在需要的場合下會調度另外一個機器人以提供相應的東西。

其次提到多模態能力,機器人會支持不同的模型種類和服務,他可以在自己的這一層去選擇用什麼方式來做出回應。比如今天我請 Samantha 給我一些房子裝修的建議,如果這件事情用文字模態來實現的話,雙方溝通起來都會比較吃力,但是如果可以調用圖像模態,這個問題可以就幾秒鐘得到解決。知道在什麼場景下調用什麼模態是我們認為個性化的 UI 裡面可能很關鍵的一個部分。

未來大模型會越來越強大,但只會掌握在頭部極少數公司手中

AI Vanguard:大模型的出現給行業帶來了什麼樣的影響?大模型的未來發展方向是什麼?

Ethan,MyShell 創始人:首先,大模型的出現,如 GPT 系列,給過去 10 年的各種 NLP 算法帶來了極大挑戰。過去,我們使用不同的算法解決各種獨立問題,如專門的翻譯、糾錯算法等。但現在,一個超大的模型可以實現過往多個模型才能達到的能力。這使得許多專用算法失效,因為新模型在專用問題上的表現能力已經超越了傳統專業模型。

其次,我們看到像 GPT-3 這種大模型的參數已經超過了 1000 億,使得創業公司很難使用消費級硬件或小規模專有硬件進行訓練,成本非常高。不過,我們也看到了像 LoRA (Low-Rank Adaptation of Large Language Models) (注:這樣的方案,它可以在預訓練的超大模型上調整極少數參數,在新數據和新場景下做訓練,降低了成本。)

同時,我們認為未來的大模型會越來越強大,但應該只會掌握在頭部極少數公司手中。而開源社區的蓬勃發展會導致大家開始使用類似於 LoRA 的方案,利用最先進的通用模型和專有數據,在這種方案下誕生出無數的小模型和專用模型。

我們認為大語言模型會越來越像一個大腦,連接所有的 API,去連接所有的算法和工具。它將調度外部知識,調度外部服務,以及從外部獲得輸入,完成複雜任務。

AI Vanguard:目前我們能發現,其他模型如果想要追趕上 GPT-4,要不就是有特別的數據,要不就是在專有的知識層面上,通過大量專有數據的訓練,在特定領域去超過大模型。那 GPT-5 出現的話,你預測會對現在企圖追趕 OpenAI 的模型帶來怎樣的挑戰呢?

Ethan,MyShell 創始人:我們認為 GPT-5 雖然可能非常強大,但成本也會非常高。因此,我們認為未來的模型可能會分化,大家更多地基於性價比和需求選擇模型。GPT-5 之後可能更有可能服務於高質量數據生產(量大且格式標準),雖然使用成本高昂,但是還是便宜於人工成本。目前已經有類似案例,斯坦福大學用 GPT 產生的數據來訓練小模型。

我們自己還有一個判斷,我們看到蘋果在大語言模型時代似乎一直沒有什麼動作,但是蘋果是一個既具備很強的終端能力,也具備芯片生產能力的公司,所以很有可能蘋果的一些在移動設備上的專用芯片能夠非常高效地運行一些本地的大語言模型,這個模型既能夠解決數據隱私問題,在響應時間上也能做到很好的優化。我認為未來蘋果很有可能會在 AI 大潮中扮演一個非常有意思的角色,去改變現在大家都只使用 OpenAI 接口的競爭格局。

AI 創業公司想要構建壁壘,可以從算法和數據角度切入

AI Vanguard:從創業者的角度來看,你們認為 AI 創業公司目前面臨的最大阻礙和難點是什麼?

Ethan,MyShell 創始人: 我覺得有一個很危險的事情,就是底層大模型公司,如 OpenAI,它的功能迭代實際上會吞噬許多傳統公司的機會,甚至一些新興基於 GPT 系列的創業公司。我們現在發現很難預測 GPT-4 和 GPT-5 的能力,以及它們如何演變。因此,許多與 OpenAI 緊密相關的 Infra 層可能會被 OpenAI 順手開發的功能替代掉,

比如 Grammarly 目前面臨的處境。大家在選擇創業方向和進行自己的產品技術積累時,需要思考如何去平衡好它和這種底層巨頭公司之間的關係,這個問題很值得思考。

就我們自己而言,我們首先判斷多模態是一個特別重要的點,我們現有的產品也基本都是把算法、人力全部投向特別個性化,像人一樣的語音合成算法的研發。因為我們認為語音的新模態和大方向在一年內應該不會被 OpenAI 所觸達到,這是我們希望去保持的技術和產品優勢。並且再去結合市面上最新的各類文本模態的產品,加上我們自己基於開源算法和數據 fine-tune 的小模型,去做我們自己的產品,避免把所有的精力和壁壘都構築在和大語言模型特別近的地方。

另外,開源社區的演進速度也越來越快。從今年到現在,開源社區在大語言模型上的發展非常快,性能最好的開源模型已經非常接近 GPT-3.5 的表現了。過去三個月,從 Facebook 的 LLaMA 預訓練模型的洩露,以及 Stanford 和 CMU 等學界的人去做的Alpaca、Vicuna,再到能理解圖像的 MiniGPT。我們認為開源社區的能量非常重要,在與大公司的 GPT 時代競爭中,它是一股非常特殊且重要的力量。

在這種情況下,對於 MyShell 而言,我們需要思考如何構建技術壁壘,以免被開源社區抹平競爭優勢。我們需要在算法和私有數據上構建壁壘,因為無論外部開源算法如何迭代,我們永遠可以使用最新的開源算法和自己的專有數據,打造出比開源甚至通用模型更強大的能力。除了技術壁壘外,我們還需要考慮如何通過技術短期優勢構建多邊網絡能力,去沉澱社區和內容壁壘。例如,抖音和淘寶都是多邊的供給和消費網絡。如果已經有一個平台擁有大量活躍創作者和用戶,新來者會面臨非技術競爭壓力,也很難突破這種封鎖。

AI Vanguard:那面對上述的這兩種挑戰,兩位心中是否已經有具體思路了?

Rick,MyShell 創始人:我覺得我們需要順勢而為。開源越來越強大,大模型也越來越強大,創業的 idea 最好是能夠隨著這些變化而變化。最好是,隨著這些開源社區變強,隨著大模型變強,你的創業 idea 也會變得更強。得找這種 idea,因為任何想要挑戰這兩股勢力的都可能在今年猝死。

Ethan,MyShell 創始人:大家今年在 fomo 大語言模型,但是我們認為多模態特別重要,所以我們自己壁壘的構建,重點在於做語音。因為過去的語音合成技術,不管是成本還是效果,都不尽如人意,沒有辦法去實現大規模的應用。今年我們已經能夠用比所有的 API 低兩個數量級的成本去合成任意的人聲,去達成情緒飽滿的語音效果。

然後第二點是在我們的平台上,我們特別在意用戶使用產品過程中的構建數據閉環,沉澱高質量數據集。比如有個 bot 是我發布的,叫 voice collector,我們希望用戶可以在使用產品的過程中也幫我們提供一些聲音數據或文本數據,能夠讓我們的算法變得更加擬人和有溫度。這種數據其實就是平台上沉澱的特定場景下的專有數據,我們希望去和開源社區達成一種非常和諧的合作關係。不管開源的模型如何迭代,我們專用場景下的專有數據永遠是我們所構建的一個壁壘。我們為創作者提供好用的工具和強大的能力,以此來吸引更多的用戶,最終會形成一個基於內容和創作者生態的壁壘。這個壁壘一旦形成,在任何一個時代,我們就不再畏懼底層技術的快速變化。因為如果我們的變現效率是最高的,平台的運行效率是最高的,我們永遠可以選擇去接入最好的 API,或者是去使用我們的專有數據在最好的開源模型上做訓練。

這將是一個新的技術加速度時代

AI Vanguard:談談你們過去的創業經歷,以及為什麼選擇現在這個時間節點創業?為什麼選擇從 Web3 角度切入?

Rick,MyShell 創始人:我們從 2013 年開始在 AI 領域創業。在此期間,我們有過一兩次的打工經歷,但大部分時間都在創業過程中。所以,繼續創業對我們來說是非常正常的選擇。

2013年,我創建了一家圖形圖像公司,主要做 AR 底層 SDK。當時蘋果還沒有推出 ARKit,所以我們開發了類似的產品。後來,我認識了 Ethan ,他那時在牛津大學讀書,回國實習的時候加入了我的公司。後來,Ethan 創辦了一家 VR 創業公司,主要解決空間在 VR 環境中的拍攝和漫遊問題,這家公司最後成為了貝殼找房的 VR 看房產品。

我們這些年一直在研究 AI 算法,嘗試將其商業化。我們積累了很多經驗,尤其是在算法大規模落地和穩定輸出質量方面。後來,我們共同加入了一家 AI 獨角獸公司,在那裡主要負責機器人部門。這段經歷讓我們覺得做機器人是非常有趣的事情,因為機器人是典型的多模態產品,在一個模態不 work 的時候就引入另外一個模態,這種思路其實和我們現在做軟件機器人的思路是一脈相承的,為我們創業埋下了種子。

我們選擇現在這個時機創業,是因為我們看到了 GPT-4 等大模型的強大能力,覺得這將是一個新的技術加速度時代。從去年年底看到 ChatGPT,我們就一直處在迷茫和震驚的狀態,處在極度亢奮和恐懼的疊加狀態,我們發現業界裡非常前沿的人對於 OpenAI 的高速發展也是超乎意料的。

我們認為自然語言是一個非常重要的領域,AI 能直接建制自然語言,一旦打開自然語言的封印,人和機器之間的界限就會被打破,接下來會進入一個新的技術加速度,更多的模態有可能被融合和打通。這意味著過去做的很多事情都沒那麼重要了,我們感到興奮又恐懼。在這樣的技術加速度下別無選擇,就是歸零自己,把過去所有對創業模式、對技術的理解和判斷都歸零,重新思考問題,重新開始。所以,我們在今年 3 月決定創業,很快就推出了第一個demo。

Ethan,MyShell 創始人: 從我個人的角度來看,Web3的經濟模型和多邊網絡的效率提升能力是我們選擇的原因,我們希望將這些能力作為工具幫助我們構建多模態機器人創作平台的使命。此外,AI 時代給解決內容生產效率問題帶來了新的可能。無論是圖像生成算法(如 Stable Diffusion)還是文本生成模型(如 GPT),AI 可以讓不具備專業知識和編程能力的人解決特定場景下的生產力問題,這種生產力至少提升了 1 到 2 個數量級,而在這種情況下,價值定義和分配變得尤為重要。Web3 的多邊網絡平台和加密技術可以極大地提升我們構建多邊創作者平台的效率,並解決AI時代新的所有權和價值分配問題。通過 Web3 的多邊機制,我們可以通過智能合約實現去中心化的經濟利益分配,通過持幣機制為平台提供流動性。儘管現有技術還不夠成熟,但對於數據資產、模型資產和數據隱私等方面,加密和區塊鏈技術具有反大公司式設計和社區多角色經濟系統的潛力。因此,我們更多地從這個角度構建我們的模式,傳統公司形態並不適合我們這樣的平台。

潘多拉魔盒已經打開,AI 軍備競賽不會停止

AI Vanguard:很多業界大牛開始擔心 AI 的發展,比如 Geoffrey Hinton 退出谷歌並警告AI的未來,你們怎麼看?

Rick,MyShell 創始人: 這裡面我覺得可以看到一個問題,我們今天搭建的很多互聯網的設施,包括各種系統可能還沒有準備好面對今天的新的人工智能,很多事情可能在新的大模型面前是不堪一擊的,這個是安全方面的問題。另外還有數據方面的問題,數據有好數據,比如教你雅思或者跟你有情感的陪伴;但也有壞數據,就是髒信息,比如誤導性信息,然後網絡水軍。出現這種情況的時候,只能 "用魔法去打敗魔法",用一個更大的防禦型的模型去防止它。這些事情對於很多小公司或者是一些沒有安全意識的個體可能就是一個非常麻煩的事情。

Ethan,MyShell 創始人: 對,因為其實這種技術是人創造出來的,一旦人類發現一個東西特別有用,多種不同的勢力就會開始內卷競爭。現在發生在像微軟和谷歌之間的 AI 軍備競賽,就很像當年美國和蘇聯的登月競爭一樣,不會有一方認輸去停下來的,所以這個事情其實會被人類的各種各樣的欲望去推著,不斷地去演變。所以未來是什麼樣子,我們也只能靜觀其變,也不知道會演變成什麼樣子。

Rick,MyShell 創始人:我特別理解為什麼 OpenAI 的創始人 Sam 同時做了一個 Worldcoin 項目,因為實際上我們接下來可能會面臨的數據污染是非常嚴重的,所以我們要確保數據的歸屬。數據要有責任人,它必須是由法律意義上能夠負責任的人去發的數據。你可以撒謊沒問題,但是我們得證明這個數據是人發出來的,這樣對應的人才能對對應的數據去負責。

Ethan,MyShell 創始人:Worldcoin 主要是想確保每一個物理世界中的人,在不管是互聯網還是區塊鏈世界都有唯一身份 ID。如果能解決這樣一件事,他就有可能去實現像剛才 Rick 提到的數據歸屬問題。其次,我覺得 Worldcoin 這個項目承載了 Sam 對於未來人類社會該如何去構建所產生的思考。

創業最重要的是有空杯心態,不要抱有太多的慣性

AI Vanguard:作為經驗豐富的創業者,你們有什麼建議可以給那些想要進入 AI 領域創業的人?

Rick,MyShell 創始人:首先,我覺得創業並不是唯一的出路。對於很多不創業的人來說,跟隨新一代 AI 的紅利,會有大量的機會。比如,很多過去沒有人工去解決的細分場景可能會被很好地填補。整個社會的生產價值會有一個飛躍式的提升。普通人可以更好地規劃自己的生活,或者把資金投到有紅利的地方。

不過,對於創業者來說,我覺得最重要的事情就是要有空杯的心態。因為我認為過去的經驗主義或二三十年的互聯網慣性,可能會讓很多人誤以為這只是下一個移動互聯網式的機會。實際上,AI 可能會以全新的方式開啟新的技術加速度。所以,不要抱有太多的慣性,要有空杯心態,才能在這個領域成功。

Ethan,MyShell 創始人:我覺得,在這一波 AI 時代,會出現很多專用場景的小模型,算法和模型之間的可組合性會變得越來越強,越來越靈活。所以,一個產品可能會在相同的模態下接入不同公司的技術,為用戶提供服務。在這種情況下,技術演變會很快,產品也會變得越來越靈活。所以,創業者需要有敏銳的觀察力和創新思維,以應對這個快速變化的時代。

鏈捕手ChainCatcher提醒,請廣大讀者理性看待區塊鏈,切實提高風險意識,警惕各類虛擬代幣發行與炒作,站內所有內容僅係市場信息或相關方觀點,不構成任何形式投資建議。如發現站內內容含敏感信息,可點擊“舉報”,我們會及時處理。
ChainCatcher 與創新者共建Web3世界