Web3 版 ChatGPT 產品評測:理解能力基本合格,但整體不盡人意
作者:bayemon.eth, ChainCatcher
去年年底 chatGPT 大火之後, Web3 領域的"時尚弄潮兒"紛紛探索起了" AI + Web3 " 無限可能。相比於有完整知識體系的傳統行業而言,作為一個尚未形成完整學習機制的新生世界而言, Web3 似乎更需要有像 chatGPT 一樣能夠在關鍵時刻給點靈感、及時答疑的角色。
雖然當前" AI + Web3 "的熱點話題仍然在 Worldcoin 等身份識別網絡, Telegram Bot 敘事的 Unibot 、 Lootbot ,以及 zkML 等未來可能與擴容解決方案有進一步聯動的技術之上,但社區中陸續出現了 MinMax 、 QnA3 以及 Web3 Analytics 等 AI 驅動的對話機器人,也能證明已經有團隊注意到了 Web3 在知識傳達方面的空缺,並想要做 Web3 專業領域的 chatGPT 。本文將測評上述三種 Web3 對話機器人,從理解、生成、學習與優化等能力進行多視角對比,綜合評判使用體驗以及智能程度。
測評指標
測評第一步,當然是新建文件夾設計一系列評判指標。對於一個交互模型而言,用戶體驗分別來自交互過程以及模型的智能程度。交互體驗將主要聚焦於 UI 設計,而模型智能程度的衡量將包含以下幾個方面:
- 理解 \& 生成能力:
- 能夠準確理解用戶輸入的問題,聯繫上下文,並生成自然、流暢且有邏輯的回覆
- 在回答中能夠做到表達清晰、簡潔明瞭,並對解決問題導向的提問能提供有用的解決方案和建議
- 能夠提供有用的解決方案和建議
- 學習 \& 交互優化能力:
- 能夠通過用戶提供的資料與數據源中,總結並給出準確的信息和答案
- 能夠不斷學習和提升對於特定行業的理解和背景知識
- 能夠從與用戶的互動中進行推理,並能夠通過交互改進回答
- 能夠根據用戶反饋和行為進行優化,提供更好的用戶體驗
- 多語言處理:
- 能夠理解和回應多種語言的回答,包括自然語言和機器語言
- 能夠提供清晰、準確並符合語言習慣的回答
交互體驗
MinMax
直觀感受,默認黑色背景,綠色文字,合理懷疑 UI 團隊堅信" Keep the bar green to keep the code clean "(又或是單純出於護眼)。由於人眼對綠色高敏感度, MinMax UI 第一眼看到的是 Popular Queries 和 Popular Questions 模塊,直接將搜索量較高的概念與問題直接展示給用戶,算是利用了一把"從眾心理",點擊之後一鍵跳轉到相關概念和問題界面中。
美中不足的一點是,這兩個模塊詞雲的設計可能是基於搜索量改變字體大小,從而強調搜索次數多的概念與問題,然而可能由於當前用戶較少,或搜索次數過於平均,詞雲中並沒有展現出更直觀的對比。詞雲的優勢仍然需要後續采用量提高、搜索差異化增強之後才會顯現出來。
畢竟 Minmax 的定位就是搜索引擎,所以對機器人的強調也僅限於首頁的小白框。
聊天機器人界面,依然是祖傳的黑綠配色,自動生成一條打招呼消息,並依然附帶幾條"熱搜"。總之, MinMax 聊天界面相當簡潔,同時因為本身定位是搜索引擎,所以相當喜歡在聊天過程中搞點信息聯想。
除此之外, MinMax 可以直接通過郵箱、 Google 、 Twitter 或 Facebook 登錄,甚至不要求用戶擁有錢包,相對更加萌新友好。
Web3 Analytics
與 MinMax 相比, Web3 Analytics 的設計就是一個純粹的聊天機器人,首頁就是聊天界面,黑藍配色夢回經典 Visual Studio ,左側邊欄歷史回話以及右側反饋功能仍待開發。歷史回話不用說,反饋部分將怎樣呈現還是值得繼續關注的。
W eb 3 Analytics 自動生成的打招呼消息除了熱搜詞條,更多的是強調了 Telegram 、 Discord 等社媒以及項目代幣 W AI 。對 Telegram 和 Discord 的強調,大概是源於 W eb 3 Analytics 也是 Telegram / Discrod Bot 敘事的參與者。值得注意的是,團隊引入了" Train AI to Earn "的概念,可以通過向機器人提問獲取項目代幣。也正因為涉及到代幣,所以要求錢包登入,且如果是在沒登入的情況下向機器人提問,至多 3 個問題之後,網頁就會持續提示需要登入並獲取 W AI ,並且完全不能在不登入的情況下繼續使用。
QnA3
不同於以上兩個機器人濃郁的程序員風格, QnA3 這個粉紫配色直接多巴胺起來了。首頁展示熱搜問題並推出了" Vote to Earn "功能,因為涉及到積分和日後的代幣兌換, QnA3 因而要求用戶通過錢包登入。目前獲取積分共有兩種模式:
- Vote to Earn :成功押準了前三名問題的用戶可以獲得積分。
- Ask to Earn:通過完成每日提問任務,兌換項目積分。
目前 QnA3 部署在 BNB Chain 上,積分領取需要支付 Gas ,後續可用於兌換項目代幣空投。又是個要發幣的項目,因此, QnA3 登錄也需要通過錢包地址,方便日後 Tokenomics 變現的後續操作。
此外, QnA3 首頁還有快訊選項,通過"巨鯨在問"拿捏用戶,吸引流量推動其點進跳轉頁面進行持續關注。
不過簡中模式下,"巨鯨在問"鏈接點進去一會中文一會英語,屬實還值得繼續優化一下。
模型智能度測評
注:由於 QnA3 在對話過程中會有 Knowledge Graph 和 Web3 News 兩部分回答,前者通過知識圖譜從數據庫中獲取信息後者則是相關諮詢的集成,所以在模型智能度測評中, QnA3 會涵蓋兩個機器人的回答內容。
1. 理解 \& 生成能力
- 關於理解能力:
對萌新來講,接觸 Web3 的第一天可能就會從各種各樣的資料上了解共識機制與算法。但時間久了,可能腦子裡也就剩下 PoW 和 PoS 了,不如也趁此復健一下。
先看看 chatGPT 老師怎麼說:
MinMax
Web3 Analytics
QnA3
關於共識算法的回答,乍一看三個機器人都給出了合理的解釋,並且都清晰的分條列舉,但仔細瞧瞧,發現 QnA3 Knowledge Graph 在混水摸魚,可能是由於知識圖譜數據庫中索引或遍歷時的問題, PoW 和 PoS 的相關內容輸出了兩遍。
就具體內容而言,三方對常見共識算法的介紹基本都囊括了 PoS 、 PoW 、 D PoS 以及 PBFT (拜占庭容錯),但具體解釋的內容稍顯蒼白,比如 MinMax 對 PBFT 的解釋是" PBFT 是一種拜占庭容錯算法,通過達成共識來處理拜占庭故障",這像不像我問"番茄炒蛋是什麼一道菜",機器人答"番茄炒蛋是一道菜,需要使用番茄和雞蛋來炒"一樣,用戶沒有獲得字面意思以外的信息增量。
準確性在模型訓練過程中固然重要,盡可能避免"答非所問"也必定是最終目的之一,但AI的回答有時過於追求"準確"而輸出了一堆"廢話",這也應該算是嚴重的模型過擬合現象了。因此,這裡認為後續算法的進一步優化,可以考慮在準確測度之上,增加一些訴諸個性化與差異化回答的指標。
- 關於聯繫上下文:
對話到這裡還比較正常,直到我追問機器人,讓他幫我具體解釋上個問題中提到的第一種共識算法(PoW)。 我設想的回答 from chatGPT:
MinMax
能在這個問題上加分的唯一AI,回答也相當有邏輯,先後提到了PoW的應用、核心思想、共識流程、優缺點以及缺點的改善。
Web3 Analytics
這位給出了和 Web3 毫不相關的回答,開始懷疑團隊裡來自國內外名校的成員是不是也包含羅翔老師……
QnA3
相較於 Web3 Analytics 生成的和 Web3 基本完全無關的內容, QnA3 的兩個模型生成的內容起碼和 Web3 有點關聯,但也並沒有完全理解我問題中的"第一種"指的是什麼, Knowledge Graph 甚至語言錯亂,輸出了英文內容。
Web3 News 理解了問題的意圖,但顯然沒理解"第一種"指代的是什麼,同時還出現了"第一種比特幣是指比特幣"之類的廢話文學。
總之,從上下文聯動能力來看,目前三類對話 AI ,能過關的只有 MinMax 。
-關於生成能力
這裡還是考慮文本向的生成能力,先讓 AI 簡要闡述 PoW 與 PoS 的區別,再讓 AI 通過表格形式輸出。
chatGPT
注: chatGPT 這裡也沒有注意到前半句的暗示。
MinMax
表格可以說是比較清晰地從不同角度對兩者的區別分別進行簡要闡述,同時在對話結束之前增加了相關資源鏈接,可以供用戶進一步了解個人更感興趣的部分。
但 MinMax 沒有理解我在前半句的暗示,並沒有提供概括性的解釋。
Web3 Analytics
Web3 Analytics 則是理解了前半句,簡要輸出了 PoW 與 PoS 的區別,並非常嚴謹地標註了信息來源。
而在表格部分,內容上, Web3 Analytics 好像腦補出了一場商戰大戲, PoS 直接成了按照股份和/或年齡選擇礦工的機制,同時表格本身也實在是有點過於質樸了。
QnA3
QnA3 確實是三者中在理解和表格輸出方面相對最好的。
表格要點完整,也有總結,從內容角度上來講是四個回答裡最完整的,但就是不知道 Knowledge Graph 為什麼總熱衷於在語文試卷上用英語答題。
QnA3 Web3 News 的回答相對來講是幾個機器人中最符合要求的,既做到了先闡述兩者的區別(甚至還通過分點,讓回答看起來更有條理),同時也輸出了一个涉及到不同方面的對照表格。
因此,在功能性生成上,可以優先考慮 QnA3 和 MinMax ,畢竟表格基本是可以截圖就用的。
2. 學習能力
判斷一個 AI 模型的學習能力,首先要先找到一個並不存在於其當前數據庫中的"新知識"。但通過對反復對話,我還沒有找到三個 AI 模型同時都無法回答的問題。因此,對於 MinMax 和 Web3 Analytics ,用於判斷其學習能力的問題是 NFT 綁定賬戶的新標準 ERC -6551,而對於已經了解了 ERC -6551並能輸出一定細節的 QnA3 ,問題則是 MakeDAO 于今天發布的最新治理提案。
MinMax
在提供了相應的信息之後, MinMax 就可以從中進行信息整合,輸出的內容也算是觸及到了 ERC -6551 的核心思想,雖然不涉及到太多技術上的創新,但如果對於完全不知道 ERC -6551是什麼且想要快速了解的標準基本內容的小白來講,內容已經足夠了。
順便問了下 MakeDAO 的問題。
總之,雖然不能做到實時數據抓取與保持訓練集實效性,但就單從"學習"角度來講,在提供目標內容之後,MinMax 確實可以將"學習成果"清晰且有邏輯地展示出來。
Web3 Analytics
即便是提供了 ERC -6551標準的具體內容, Web3 Analytics 也沒能對其進行總結,而是輸出了一篇擴展文章中 ERC -6551的簡介部分,查重率高達80%。
同樣,這裡也貼一下 Web3 Analytics 關於 MakerDAO 最新提案的回答:
可見,對於已經納入數據集的信息, Web3 Analytics 其實是具有將其分點輸出的能力的。因此,單就學習能力而言,或許 WA 團隊仍然需要優化一下 AI 針對用戶提供的外部信息進行總結與輸出的能力。
QnA3
或許是由於一周末的數據集更新, QnA3 Web3 News 已經可以輸出 MakerDAO 上周五發布的最新提案了,然而 Knowledge Graph 信息仍然還停留在今年五月。
提供 MakerDAO 最新提案的相關鏈接之後, Knowledge Graph 依然沒有輸出提案中最關鍵的 DSR 調整問題。因此, Knowledge Graph 的學習能力還是需要進一步優化的。
總之,雖然數據集的更新可能有點跟不上 Web3 技術迭代的速度,但就模型對外部知識的學習能力而言,可以優先考慮 MinMax 。 Web3 Analytics 和 QnA3 雖然有著相對高效的信息迭代,但整體學習能力還有待提升。
3.多語言處理能力
- 自然語言
為了滿足當前全球化背景下 Web3 世界對於無障礙跨文化溝通的需求,就要求 AI 具備一定的多語言內容創作與信息檢索能力。
單就中文和英文來講, MinMax 與 Web3 Analytics 可以無障礙回答問題,其生成的內容也符合語言習慣。 而對於 QnA3 Knowledge Graph 來講,雖然英文內容是三個模型中質量最高的,但用英文回答中文問題也確實不太合適。同時,即便是有時能用中文回答,內容上還是有點過於直譯,不太符合中文的語言習慣。因此,對於內容極佳的 QnA3 Knowledge Graph 來講,進一步提高對其他語言的兼容性,或許是提高採用率的可行舉措。
- 機器語言
簡要概括AI 模型在 Web3er 日常工作中的應用:翻譯器 + debugger 。
如果說對自然語言的測試某種情況下測評了一個 AI 模型作為翻譯器的合格程度,那麼這部分就是要看看這三位是不是合格的 debugger 了。這裡選用一段非常簡單但對 Solidity 初學者來講非常容易出錯的代碼:
簡單解釋一下,代碼中出錯的點在於 pure 關鍵字不能改變鏈上狀態,通俗點來講就是帶有pure 後綴的函數,可以理解為只能幹瞪眼"純"看,並不能對任何變量進行修改,也就是說第五行讓number + 1的操作不可能實現。注:站在Solidity初學者的立場,對debugger的要求------需要模型指出錯誤所在的地方,給出相應解釋,並修改代碼。
請 GPT 老師打個樣:
MinMax
我:可以幫我 debug 嗎?
MinMax :我可以,我裝的
像極了我一看代碼就宕機的腦袋, MinMax 在 debug 的過程中直接報錯並終止對話。除此之外, MinMax 顯示出的代碼框明顯也需要修改,終於找到了精通外部學習與自然語言交流的 MinMax 目前唯一的短板。
Web3 Analytics
Web3 Analytics 理解能力再扣一分,痛失主語省略權。
雖然在某些對話中顯得不太智能,但 Web3 Analytics 在 debug 方面的能力還是令人滿意的。既解釋了代碼中出現的基礎概念,以及錯誤的來源,給出了修改的代碼,同時還在最後簡單解釋了錯誤代碼在合約部署方面的現實意義。好吧,可以暫且原諒他剝奪了我的主語省略權。
QnA3
從調試的角度來看, QnA3 沒有任何問題,指出錯誤所在並進行相應修改,完全符合本部分開頭的要求。美中不足的是,代碼塊字體顏色和背景過於接近,或許還需要 UI 方向進一步的改進。
PS :不過測評了這麼久, QnA3 Web3 News 只會給出部分問題的回答,當事人並沒有搞清楚觸發 Web3 News 回答的條件;同時對於 Knowledge Graph 提到的第一個問題,印象中合約簡單可以不需要強制寫 constructor (如有錯誤還請糾正)
總之,除了 MinMax 這位 debug 靠演的選手, Web3 Analytics 同 QnA3 雖然各自還有一點小缺陷,但大體上也具備成為合格 debug ger 的資格。不過,既然還有小缺點,為什麼不直接用 chatGPT 呢?
小結
Web3 對話 AI 模型基本具備一定的理解、生成與學習能力,也能夠處理多語言回答,並充當程序員的好夥伴。這些"基本素養"對於當前僅僅了解基礎概念,想要了解更多相關知識框架的萌新來說, Web3 對話 AI 可以生成可供參考的邏輯框架。
然而對於已經在領域深耕的人來說(或許這部分人也根本想不到要用對話機器人解決問題吧), AI 的職能似乎就僅限於做一些表格生成、概括總結之類的"碎活",從內容增量還是個性化觀點上都無法提供進一步的參考。總之,個人認為隨著人們對 Web3 領域認知逐漸增強,達到一定的臨界點後,模型能提供的內容增量將逐漸趨於0。
值得注意的是,除了本文中測評的 MinMax 、 Web3 Analytics 與 QnA3 之外,同類型的 AI 對話模型 SuperSight 目前正在進行內測,越來越多類似工具的湧現,一方面揭示了市場對於" AI + Web3 "融合趨勢的重視與對用戶需求的思考,另一方面,對於項目方來講,後續做出產品特色避免"重複造輪子"現象,也應當放在產品迭代計劃之中。然而對於目前的技術水平和全市場而言, Web3 AI 對話模型的實用性和泛用性仍有待加強,或許大規模應用還要等到人工智能技術與機器學習算法進一步增強,以及 Web3 + AI 深度融合的未來才能實現。