対話 MyShell 創業者:ロボットのスーパー夢工場を作りたい
*インタビュー:Afra、Zohar *, AI Vanguard**
編集:Afra、ChatGPT, AI Vanguard
MyShell 爆発的なスタート
「最初のデモボットがオンラインになってから3、4週間後には、私たちのユーザーコミュニティは8000人を超え、その時点でバックエンドで確認できたユーザーの総数は3万人でした。」
「グループには8000人がいて、毎日問題について賑やかに議論していました。3月と4月の間、コミュニティが少しずつコードや異なるモジュールの開発に貢献し、私たちを支えてくれました。その間に、ユーザーが私たちにお金を投資したいという申し出もありました。」発表時点で、総ユーザー数はすでに10万人を突破しています。
MyShell の成長は非常に「オーガニック」で、精密に設計されたものというよりは進化の結果のようです
「その時期にGPTや多くの大規模言語モデルが登場し、私たちはそのテキスト能力が非常に優れていると感じました。しかし、特別に魅力的な声を加えることができれば、それは単なるチャットツールではなく、ユーザーが新しい言語を学ぶ手助けができるのではないかと思いました。ちょうどその時、彼には英会話の練習が必要だったので、私たちは1日かけてロボットを作りました。完成後、その出来に驚き、Rickもとても喜んでいました。Samantha(注:MyShellの初期のロボットで、スカーレット・ヨハンソンの声を使用)と英語を話すことも、人と英語を話す際の気まずさを心配する必要がありませんでした。」
「それから私たちは友達に投稿をしましたが、その投稿を通じて、Telegramのグループは数十人から数百人に増え、突然1000人に達し、すぐに8000人にまで増加しました。」
「非常に人間らしく、あなたと直接音声で対話できるロボットです。音声ボタンを押して話し、送信すると、ロボットが音声で答えてくれます。」
MyShell はノーコードロボット制作プラットフォームです
AI Vanguard:まず、MyShell製品について紹介していただき、現在の成果と今後の発展計画についてお話しいただけますか?
Rick、MyShell創設者:私たちの目標は、プログラミングを学んでいない大学生でも、自分が望むロボットを簡単に制作できるノーコードプラットフォームを作ることです。最近、私たちのロボット工房機能が正式にオンラインになりました。工房の制作を開放して以来、ユーザーは狂ったように参加し、すでに約60人のユーザーが自作のロボットを作成しました。公開ロボットの他に、ユーザーのプライベートロボットも100を超えています。前の2ヶ月間では、私たちは5つのロボットしか作りませんでした。
私たちのプラットフォームには、言語学習、教育、純粋なツールなど、さまざまなタイプのロボットがあります。私たちは、ユーザーが自分の興味に基づいて好きなロボットを組み合わせられることを望んでいます。現在、私たちは音声生成能力を統合しており、将来的には画像モジュールを追加する予定です。私たちは、ロボットをより人間らしく、組み合わせ可能にし、さまざまなニッチ市場のニーズを満たすことを目指しています。
優れたボットの展示
YUKI - IELTS Teacher Ben
- 【IELTS Teacher Ben】があなたのために1対1の模擬練習を行い、スピーキングを修正します
- 使用例:
- https://app.myshell.ai/share/c177f1ca50d248b6a31bde4f3f64485c
Kaiserwetter - MBTI Stimulation
- どんな身分でもMBTI人格とチャットできます
- 使用例:
- https://app.myshell.ai/share/07bfd887a5414ff7bae3d0be985ddae8
私たちはプラットフォーム上の役割をモデル提供者、ロボットクリエイター、ユーザーに分けています。私たちは、彼らの間に有機的な協調を生み出す健康的で持続可能な経済モデルを構築したいと考えています。ユーザーは好きなロボットを選択でき、ロボット作者は質の高いモデルを選択でき、モデル作者もプラットフォーム上で必要なアプリケーションシーンと高品質データを得ることができます。
AI Vanguard:あなたたちはLangchainのアーキテクチャを利用しているようですね。ノーコード処理を通じて、より多くの人々がこのエコシステムの構築に参加できるようにしたいと考えているのでしょうか。
Ethan、MyShell創設者:はい、それが私たちの目標です。実際、私たちはユーザーがコードを理解する必要がなく、より低いハードルで、より効率的に彼らが望むAIを作成できることを望んでいます。Langchainとは異なり、主にテキストモーダルを統合しており、開発者がテキストの入力と出力をより迅速に実現できるようにしています。しかし、私たちはマルチモーダルが非常に重要だと考えています。したがって、私たちは音声モーダルを開発・統合し、近い将来に画像理解と画像生成能力を追加する予定です。これにより、私たちのプラットフォームはよりシンプルで多様性があり、非常に重要なマルチモーダル統合だと考えています。
大規模言語モデルは、他のモーダルやサービスをつなぐスーパー接着剤として機能すべきです
AI Vanguard:パーソナライズの問題について、もう少し議論を深められると思います。実際、パーソナライズはロボットの外観や声だけでなく、そのコミュニケーション能力や提供するサービスが重要です。この問題についてどのように考えていますか?
Rick、MyShell創設者: 私たちはロボットを二つのレイヤーに分けています:表層はコミュニケーションインターフェース、つまりユーザーとのインタラクション部分です;底層は能力層、つまりロボットが何をできるかです。私たちは、大規模言語モデルが他のモーダルやサービスをつなぐスーパー接着剤として機能すべきだと考えています。このようなロボットを交通調整員に例えることができ、ユーザーの指示を他の問題を処理するのが得意なモジュールに分配することができます。
ロボットの能力層については、非常に均質であるべきだと考えています。特に、出前を取ったり数学の問題を解いたりするような基本的な機能については。表層、つまりコミュニケーションインターフェース層の差別化は非常に重要で、ロボットのUIインターフェースは非常に人間らしくあるべきです。ユーザーとの良好な感情的コミュニケーションを生み出し、ユーザーの意図をよりよく理解し、背後で異なる小さなモデルを動かして一緒に働かせることができる必要があります。
Ethan、MyShell創設者:大規模モデルはユーザーの使用習慣に基づいてユーザーの意図を理解できますが、背後で多くの小さなモデルが一緒に働くべきです。前面には、ユーザーに最も親しい大規模言語モデルや専用モデルがあり、背後の異なる能力モジュールを調整する役割を担います。たとえば、天気を尋ねたり、翻訳の問題を解決したりする機能的な問題は、実際にはこのロボットがユーザーの使用習慣や意図を強く理解する必要があります。
Rick、MyShell創設者:非常に具体的な例を挙げることができると思います。私たちが非常に慣れ親しんでいるシーン、たとえば仕事の会議を開いていて、専門的な問題を解決する必要があるとき、通常は別の人を呼び込んで、「上のことを見て、何か提案をしてくれませんか?」と言います。たとえば、私たちのロボットSamanthaとチャットしているときに「今夜、12人でディナーに行く予定ですが、何か提案はありますか?」と言うと、Samanthaは別のシェフロボットを呼び込んで会話を始め、そのシェフロボットに手配をさせるかもしれません。これらのロボットは共通のイベントを持っており、各ロボットはお互いの存在を知っていて、どのような独自の能力を提供できるかを理解しています。必要な場面では、別のロボットを調整して相応しいものを提供します。
次にマルチモーダル能力について言及すると、ロボットは異なるモデルの種類やサービスをサポートし、自分のレイヤーでどの方法で応答するかを選択できます。たとえば、今日Samanthaに家のリフォームの提案を求めた場合、これをテキストモーダルで実現すると、双方のコミュニケーションは非常に困難になります。しかし、画像モーダルを呼び出すことができれば、この問題は数秒で解決できます。どのシーンでどのモーダルを呼び出すかを知ることは、私たちが考えるパーソナライズされたUIの重要な部分だと思います。
未来の大規模モデルはますます強力になるが、ほんの一握りの企業にしか掌握されないだろう
AI Vanguard:大規模モデルの登場は業界にどのような影響を与えましたか?大規模モデルの今後の発展方向は何ですか?
Ethan、MyShell創設者:まず、大規模モデルの登場、たとえばGPTシリーズは、過去10年間のさまざまなNLPアルゴリズムに大きな挑戦をもたらしました。これまで、私たちは異なるアルゴリズムを使用してさまざまな独立した問題を解決してきました。たとえば、専用の翻訳や誤り訂正アルゴリズムなどです。しかし、今では、超大規模なモデルが過去の複数のモデルが達成できた能力を実現できます。これにより、多くの専用アルゴリズムが無効になりました。新しいモデルは、専用の問題に対するパフォーマンスが伝統的な専門モデルを超えているからです。
次に、GPT-3のような大規模モデルのパラメータはすでに1000億を超えており、スタートアップ企業が消費者向けハードウェアや小規模な専用ハードウェアを使用してトレーニングするのが非常に難しく、コストが非常に高くなっています。しかし、LoRA(Low-Rank Adaptation of Large Language Models)のようなソリューションも見られます(注:このようなソリューションは、事前トレーニングされた超大規模モデルでごく少数のパラメータを調整し、新しいデータや新しいシーンでトレーニングを行い、コストを削減します)。
同時に、私たちは未来の大規模モデルがますます強力になると考えていますが、ほんの一握りの企業にしか掌握されないだろうと考えています。オープンソースコミュニティの活発な発展は、皆がLoRAのようなソリューションを使用し、最先端の汎用モデルと専用データを利用することを促進し、このようなソリューションの下で無数の小さなモデルや専用モデルが誕生するでしょう。
私たちは、大規模言語モデルがすべてのAPIを接続し、すべてのアルゴリズムやツールをつなぐ大脳のようになると考えています。それは外部の知識を調整し、外部サービスを調整し、外部からの入力を受け取り、複雑なタスクを完了します。
AI Vanguard:現在、他のモデルがGPT-4に追いつこうとする場合、特別なデータが必要であるか、専用の知識レベルで、大量の専用データのトレーニングを通じて特定の分野で大規模モデルを超える必要があります。GPT-5が登場した場合、現在OpenAIを追いかけようとしているモデルにどのような挑戦をもたらすと予測しますか?
Ethan、MyShell創設者:私たちは、GPT-5は非常に強力かもしれませんが、コストも非常に高くなると考えています。したがって、未来のモデルは分化する可能性があり、皆がコストパフォーマンスとニーズに基づいてモデルを選択することになるでしょう。GPT-5以降は、高品質データの生産(量が多く、フォーマットが標準化されている)にサービスを提供する可能性が高いですが、コストは高いものの、依然として人件費よりは安価です。すでにスタンフォード大学がGPTを使用して生成したデータで小さなモデルをトレーニングするという類似のケースがあります。
私たち自身の判断として、Appleは大規模言語モデルの時代において、あまり動きがないように見えますが、Appleは非常に強力な端末能力とチップ生産能力を持つ企業です。したがって、Appleの一部のモバイルデバイス向け専用チップは、非常に効率的にローカルの大規模言語モデルを実行できる可能性があります。このモデルは、データプライバシーの問題を解決し、応答時間の最適化も実現できるでしょう。私は、未来にAppleがAIの潮流の中で非常に興味深い役割を果たし、現在皆がOpenAIのインターフェースを使用している競争の構図を変える可能性が高いと考えています。
AIスタートアップが壁を構築するには、アルゴリズムとデータの観点から切り込むことができます
AI Vanguard:起業家の視点から見て、AIスタートアップが現在直面している最大の障害や難しさは何だと思いますか?
Ethan、MyShell創設者: 私は、基盤となる大規模モデル企業、たとえばOpenAIの機能の進化が、実際には多くの伝統的な企業や新興のGPTシリーズに基づくスタートアップの機会を奪う非常に危険な事態だと考えています。私たちは、GPT-4やGPT-5の能力やそれらがどのように進化するかを予測するのが非常に難しいと感じています。したがって、OpenAIに密接に関連するインフラ層の多くは、OpenAIが手軽に開発した機能に置き換えられる可能性があります。
たとえば、Grammarlyが現在直面している状況です。皆が起業の方向性を選択し、自分の製品技術を蓄積する際には、これと基盤となる巨大企業との関係をどのようにバランスを取るかを考える必要があります。この問題は非常に考慮すべき点です。
私たち自身の観点から、私たちはまずマルチモーダルが特に重要なポイントだと判断しています。私たちの既存の製品も基本的にアルゴリズムや人力をすべて特にパーソナライズされた、人間のような音声合成アルゴリズムの開発に投資しています。なぜなら、私たちは音声の新しいモーダルと大方向が1年以内にはOpenAIによって触れられないと考えているからです。これは私たちが保持したい技術と製品の優位性です。また、市場に出ている最新のさまざまなテキストモーダル製品と組み合わせ、私たち自身のオープンソースアルゴリズムとデータを基にファインチューニングした小さなモデルを使って、自分たちの製品を作り、大規模言語モデルに非常に近い場所にすべてのエネルギーと壁を構築することを避けたいと考えています。
さらに、オープンソースコミュニティの進化の速度もますます速くなっています。今年から現在まで、オープンソースコミュニティは大規模言語モデルにおいて非常に迅速に発展しており、性能の最も良いオープンソースモデルはすでにGPT-3.5のパフォーマンスに非常に近づいています。過去3ヶ月間、FacebookのLLaMAの事前トレーニングモデルの漏洩、スタンフォード大学やCMUなどの学界の人々によるAlpacaやVicuna、そして画像を理解できるMiniGPTが登場しました。私たちはオープンソースコミュニティのエネルギーが非常に重要であり、大企業のGPT時代の競争において、非常に特別かつ重要な力であると考えています。
このような状況において、MyShellにとっては、技術的な壁をどのように構築するかを考える必要があります。私たちはアルゴリズムとプライベートデータに壁を構築する必要があります。なぜなら、外部のオープンソースアルゴリズムがどのように進化しても、私たちは常に最新のオープンソースアルゴリズムと自分たちの専用データを使用して、オープンソースや汎用モデルよりも強力な能力を構築できるからです。技術的な壁に加えて、私たちは短期的な技術的優位性を通じて多面的なネットワーク能力を構築し、コミュニティとコンテンツの壁を固める方法を考える必要があります。たとえば、抖音や淘宝は多面的な供給と消費のネットワークです。すでに多くの活発なクリエイターとユーザーを持つプラットフォームがあれば、新しい参加者は非技術的な競争圧力に直面し、この封鎖を突破するのは非常に難しいです。
AI Vanguard:では、上記の2つの課題に直面して、具体的な考えはすでにお持ちですか?
Rick、MyShell創設者:私は、私たちが流れに乗る必要があると考えています。オープンソースがますます強力になり、大規模モデルもますます強力になる中で、起業のアイデアはこれらの変化に合わせて変わるべきです。これらのオープンソースコミュニティが強化され、大規模モデルが強化されるにつれて、あなたの起業アイデアも強化されるべきです。このようなアイデアを見つける必要があります。なぜなら、これらの2つの勢力に挑戦しようとする者は、今年中に突然死する可能性があるからです。
Ethan、MyShell創設者:皆が今年の大規模言語モデルにfomoを感じていますが、私たちはマルチモーダルが特に重要だと考えています。したがって、私たちの壁の構築の重点は音声にあります。なぜなら、過去の音声合成技術は、コストや効果の面で満足できず、大規模なアプリケーションを実現できなかったからです。今年、私たちはすべてのAPIよりも2桁低いコストで任意の人声を合成し、感情豊かな音声効果を達成できるようになりました。
次に、私たちのプラットフォームでは、ユーザーが製品を使用する過程でデータのクローズドループを構築し、高品質なデータセットを蓄積することに特に注意を払っています。たとえば、私が公開したボット「voice collector」は、ユーザーが製品を使用する過程で、私たちに音声データやテキストデータを提供してもらい、私たちのアルゴリズムがより人間らしく、温かみのあるものになることを期待しています。このデータは、プラットフォーム上に蓄積された特定のシーンでの専用データです。私たちはオープンソースコミュニティと非常に調和の取れた協力関係を築きたいと考えています。オープンソースのモデルがどのように進化しても、私たちの専用シーンでの専用データは常に私たちが構築する壁の一部です。私たちはクリエイターに使いやすいツールと強力な能力を提供し、より多くのユーザーを引き付け、最終的にはコンテンツとクリエイターエコシステムに基づく壁を形成します。この壁が一度形成されれば、どの時代でも私たちは基盤技術の急速な変化を恐れることはありません。なぜなら、私たちの収益化効率が最高で、プラットフォームの運営効率が最高であれば、常に最良のAPIを接続するか、私たちの専用データを使用して最良のオープンソースモデルでトレーニングを行うことができるからです。
これは新しい技術加速の時代になるでしょう
AI Vanguard:あなたたちの過去の起業経験について話し、なぜ今このタイミングで起業を選んだのか、なぜWeb3の観点から切り込んだのかを教えてください。
Rick、MyShell創設者:私たちは2013年からAI分野で起業しています。この間、1、2回の就業経験がありましたが、大部分の時間は起業の過程にありました。したがって、起業を続けることは私たちにとって非常に自然な選択です。
2013年、私はグラフィックス会社を設立し、主にARの基盤SDKを開発しました。当時、AppleはまだARKitを発表していなかったため、私たちは類似の製品を開発しました。その後、Ethanと出会い、彼は当時オックスフォード大学で学んでおり、帰国してインターンシップをしているときに私の会社に参加しました。その後、EthanはVRスタートアップを設立し、主にVR環境での撮影や移動の問題を解決しました。この会社は最終的にベイカーズのVR内見製品になりました。
私たちはこれまでAIアルゴリズムを研究し、それを商業化しようと試みてきました。特にアルゴリズムの大規模な実装と安定した出力品質に関して多くの経験を積んできました。その後、私たちは共同でAIユニコーン企業に参加し、そこでロボット部門を主に担当しました。この経験から、ロボットを作ることが非常に面白いことだと感じました。なぜなら、ロボットは典型的なマルチモーダル製品であり、あるモーダルが機能しないときに別のモーダルを導入するという考え方は、現在私たちがソフトウェアロボットを作る際の考え方と一貫しており、私たちの起業の種をまくことになりました。
私たちが今このタイミングで起業を選んだのは、GPT-4などの大規模モデルの強力な能力を見て、新しい技術加速の時代が来ると感じたからです。昨年末にChatGPTを見たときから、私たちは迷いと驚きの状態にあり、極度の興奮と恐怖が重なった状態にあります。業界の最前線にいる人々もOpenAIの急速な発展に驚いていることを発見しました。
私たちは自然言語が非常に重要な分野であると考えています。AIが自然言語を直接構築できるようになれば、自然言語の封印が解かれ、人と機械の境界が破られ、次の新しい技術加速の時代に入るでしょう。これは、過去に行ってきた多くのことがそれほど重要ではなくなることを意味します。私たちは興奮と恐怖を感じています。このような技術加速の中で、選択肢はなく、自己をゼロに戻し、過去の起業モデルや技術に対する理解と判断をすべてゼロにし、問題を再考し、再出発する必要があります。したがって、私たちは今年の3月に起業を決定し、すぐに最初のデモを発表しました。
Ethan、MyShell創設者:私個人の観点から見ると、Web3の経済モデルとマルチネットワークの効率向上能力が私たちの選択の理由です。これらの能力をツールとして活用し、私たちのマルチモーダルロボット制作プラットフォームの使命を構築したいと考えています。さらに、AI時代はコンテンツ生産効率の問題を解決する新たな可能性をもたらしました。画像生成アルゴリズム(Stable Diffusionなど)やテキスト生成モデル(GPTなど)を問わず、AIは専門知識やプログラミング能力を持たない人々が特定のシーンで生産性の問題を解決できるようにします。この生産性は少なくとも1〜2桁向上しました。このような状況では、価値の定義と配分が特に重要になります。Web3のマルチネットワークプラットフォームと暗号技術は、私たちがマルチクリエイタープラットフォームを構築する効率を大幅に向上させ、AI時代の新しい所有権と価値配分の問題を解決することができます。Web3のマルチメカニズムを通じて、スマートコントラクトを使用して分散型の経済利益配分を実現し、トークン保有メカニズムを通じてプラットフォームに流動性を提供できます。既存の技術はまだ成熟していませんが、データ資産、モデル資産、データプライバシーなどの面で、暗号とブロックチェーン技術は反大企業的な設計とコミュニティの多役割経済システムの潜在能力を持っています。したがって、私たちはこの観点から私たちのモデルを構築しています。伝統的な企業形態は、私たちのようなプラットフォームには適していません。
パンドラの箱はすでに開かれ、AIの軍拡競争は止まらない
AI Vanguard:業界の多くの専門家がAIの発展を懸念し、Geoffrey HintonがGoogleを退職し、AIの未来について警告していますが、あなたたちはどう考えていますか?
Rick、MyShell創設者:ここで見える問題は、私たちが今日構築している多くのインターネットのインフラやさまざまなシステムが、今日の新しい人工知能に対処する準備ができていない可能性があるということです。多くのことが新しい大規模モデルの前では無力です。これは安全面の問題です。また、データの問題もあります。良いデータもあれば、たとえばIELTSを教えたり、感情的な伴侶として機能したりするデータもありますが、悪いデータもあります。つまり、誤解を招く情報やネット上の工作員などです。このような状況が発生した場合、私たちは「魔法で魔法を打ち負かす」必要があります。つまり、より大きな防御型のモデルを使用してそれを防ぐ必要があります。これらの問題は、多くの小さな企業や安全意識のない個人にとって非常に厄介な問題になる可能性があります。
Ethan、MyShell創設者:そうです。実際、この技術は人間が創造したものであり、人類が特に有用なものを発見すると、さまざまな勢力が競争し始めます。現在、MicrosoftとGoogleの間で起こっているAIの軍拡競争は、かつてのアメリカとソ連の月面競争のようなもので、一方が降伏して止まることはありません。したがって、この事態は人間のさまざまな欲望によって推進され、不断に進化し続けるでしょう。未来がどうなるかは、私たちも静観するしかなく、どのように進化するかはわかりません。
Rick、MyShell創設者:私は、OpenAIの創設者であるSamがWorldcoinプロジェクトを立ち上げた理由を非常によく理解しています。なぜなら、今後私たちが直面する可能性のあるデータ汚染は非常に深刻であり、私たちはデータの帰属を確保する必要があるからです。データには責任者が必要であり、法的に責任を持つことができる人が発信したデータでなければなりません。嘘をつくことは問題ありませんが、そのデータが人によって発信されたことを証明する必要があります。そうすれば、対応する人がそのデータに責任を持つことができます。
Ethan、MyShell創設者:Worldcoinは、物理的な世界のすべての人が、インターネットやブロックチェーンの世界で唯一のIDを持つことを確保することを主な目的としています。この問題を解決できれば、Rickが言及したデータの帰属問題を実現する可能性があります。さらに、私はWorldcoinプロジェクトがSamの未来の人類社会の構築に関する考えを反映していると考えています。
起業で最も重要なのは空の杯の心構えを持ち、過度な慣性を抱かないことです
AI Vanguard:経験豊富な起業家として、AI分野で起業したい人々に何かアドバイスはありますか?
Rick、MyShell創設者:まず、起業は唯一の道ではないと思います。多くの起業しない人々にとって、新しい世代のAIの利益に従うことで、多くの機会が生まれるでしょう。たとえば、過去には人手で解決できなかった細分化されたシーンがうまく埋められる可能性があります。社会全体の生産価値は飛躍的に向上するでしょう。普通の人々は自分の生活をより良く計画したり、利益のある場所に資金を投資したりできるようになります。
しかし、起業家にとって最も重要なことは、空の杯の心構えを持つことだと思います。なぜなら、過去の経験主義や二、三十年間のインターネットの慣性が、多くの人々にこれが次のモバイルインターネットの機会に過ぎないと誤解させる可能性があるからです。実際、AIは全く新しい方法で新しい技術加速を開く可能性があります。したがって、過度な慣性を抱かず、空の杯の心構えを持つことで、この分野で成功することができるでしょう。
Ethan、MyShell創設者:私は、このAI時代において、特定のシーンに特化した小さなモデルが多く登場し、アルゴリズムとモデルの間の組み合わせ可能性がますます強く、柔軟になると考えています。したがって、1つの製品が同じモーダルで異なる企業の技術を接続し、ユーザーにサービスを提供することが可能になります。このような状況では、技術の進化は非常に速く、製品もますます柔軟になります。したがって、起業家はこの急速に変化する時代に対応するために、鋭い観察力と革新的な思考を持つ必要があります。