스마트 에이전트 시대: AI와 크립토의 격돌과 공생
저자: YBB Capital 연구원 Zeke
1. 주목에서 시작된 신선함과 싫증
지난 1년 동안, 애플리케이션 레이어의 서사가 단절되면서 인프라의 폭발 속도를 따라잡지 못하고, 암호화 분야는 점차 주목 자원을 두고 경쟁하는 게임으로 변모했습니다. Silly Dragon에서 Goat, Pump.fun에서 Clanker까지, 주목의 신선함과 싫증은 이 경쟁을 내적으로 압박했습니다. 가장 진부한 눈길을 끌기 위한 수익화에서 시작하여, 빠르게 주목 수요자와 공급자가 통합된 플랫폼 모델로 전환되었고, 실리콘 기반 생물이 새로운 콘텐츠 공급자로 등장했습니다. Meme Coin의 기묘한 매체 속에서 마침내 소액 투자자와 VC가 합의할 수 있는 존재가 나타났습니다: AI Agent.
주목은 결국 제로섬 게임이지만, 투기는 확실히 사물의 야생 성장을 촉진할 수 있습니다. 우리는 UNI에 대한 글에서 블록체인 황금 시대의 시작을 회고했으며, DeFi의 급속한 성장은 Compound Finance가 LP 채굴 시대를 열면서 시작되었습니다. Apy에서 수천, 수만의 다양한 채굴 풀을 오가며 그 시기의 체인 상 가장 원초적인 게임 방식이었지만, 결국 다양한 채굴 풀이 붕괴되면서 엉망이 되었습니다. 그러나 금광업자의 미친 유입은 블록체인에 전례 없는 유동성을 남겼고, DeFi는 결국 순수한 투기를 넘어 성숙한 트랙을 형성하여 결제, 거래, 차익 거래, 스테이킹 등 여러 면에서 사용자 금융 수요를 충족시켰습니다. 현재 AI Agent도 이 야생 단계에 있으며, 우리는 Crypto가 AI와 어떻게 더 잘 융합될 수 있는지를 탐구하고 있으며, 궁극적으로 애플리케이션 레이어가 새로운 고지에 오르도록 촉진하고자 합니다.
2. 에이전트는 어떻게 자율적으로 행동하는가
우리는 이전 글에서 AI Meme의 기원인 Truth Terminal과 AI Agent의 미래에 대한 전망을 간단히 소개했습니다. 본문은 AI Agent 자체에 초점을 맞추고 있습니다.
먼저 AI Agent의 정의부터 시작하겠습니다. AI 분야에서 Agent는 비교적 오래된 용어지만 정의가 불명확합니다. 주로 Autonomous(자율성)를 강조하며, 즉 환경을 감지하고 반응할 수 있는 AI는 모두 Agent로 불릴 수 있습니다. 현재의 정의에서 AI Agent는 더 지능적인 존재에 가깝습니다. 즉, 대규모 모델에 인간의 결정을 모방하는 시스템을 설정하는 것으로, 학계에서는 이 시스템이 AGI(일반 인공지능)로 가는 가장 유망한 방법으로 간주됩니다.
초기 GPT 버전에서 우리는 대규모 모델이 인간과 매우 유사하다는 것을 명확히 인식할 수 있었지만, 많은 복잡한 질문에 대한 답변을 제공할 때 대규모 모델은 종종 그럴듯한 답변만을 제시했습니다. 본질적인 이유는 당시 대규모 모델이 확률 기반이었고 인과관계가 부족했으며, 또한 도구 사용, 기억, 계획 등 인간이 갖춘 능력이 결여되어 있었기 때문입니다. AI Agent는 이러한 결함을 보완할 수 있습니다. 따라서 하나의 공식으로 요약하자면, AI Agent(지능체) = LLM(대규모 모델) + Planning(계획) + Memory(기억) + Tools(도구)입니다.
프롬프트 기반의 대규모 모델은 정적 인간과 유사하며, 우리가 입력할 때 비로소 생명을 얻습니다. 지능체의 목표는 더 현실적인 인간이 되는 것입니다. 현재 업계의 지능체는 주로 Meta의 오픈 소스 Llama 70b 또는 405b 버전(두 가지 매개변수가 다름)의 미세 조정 모델을 기반으로 하며, 기억 및 API를 통한 도구 사용 능력을 갖추고 있습니다. 다른 측면에서는 인간의 도움이나 입력(다른 지능체와의 상호작용 협력 포함)이 필요할 수 있습니다. 그래서 우리는 현재 업계의 주요 지능체가 여전히 KOL 형태로 소셜 네트워크에 존재하는 것을 볼 수 있습니다. 지능체를 더 인간처럼 만들기 위해서는 계획 및 행동 능력을 통합해야 하며, 계획 내의 하위 항목인 사고 체인이 특히 중요합니다.
3. 사고 체인(Chain of Thought, CoT)
사고 체인(Chain of Thought, CoT) 개념은 2022년 Google이 발표한 논문 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》에서 처음 등장했습니다. 이 논문은 일련의 중간 추론 단계를 생성하여 모델의 추론 능력을 강화하고, 모델이 복잡한 문제를 더 잘 이해하고 해결하도록 돕는다고 지적했습니다.
전형적인 CoT 프롬프트는 세 가지 부분으로 구성됩니다: 명확한 지시의 작업 설명, 작업 해결을 지원하는 이론적 기초 또는 원리의 예시, 구체적인 해결책 제시. 이러한 구조화된 방식은 모델이 작업 요구 사항을 이해하는 데 도움을 주며, 논리적 추론을 통해 점진적으로 답변에 접근하여 문제 해결의 효율성과 정확성을 높입니다. CoT는 깊이 있는 분석과 다단계 추론이 필요한 작업에 특히 적합하며, 수학 문제 해결, 프로젝트 보고서 작성 등 간단한 작업에서는 뚜렷한 이점을 제공하지 않을 수 있지만, 복잡한 작업에서는 모델의 성능을 크게 향상시킬 수 있습니다. 단계별 해결 전략을 통해 오류율을 줄이고 작업 완료의 질을 높입니다.
AI Agent를 구축할 때 CoT는 중요한 역할을 합니다. AI Agent는 수신한 정보를 이해하고 이를 바탕으로 합리적인 결정을 내려야 하며, CoT는 체계적인 사고 방식을 제공하여 Agent가 입력 정보를 효과적으로 처리하고 분석하도록 돕습니다. 분석 결과를 구체적인 행동 지침으로 전환하는 이 방법은 Agent의 결정 신뢰성과 효율성을 높일 뿐만 아니라, 결정 과정의 투명성을 향상시켜 Agent의 행동을 더 예측 가능하고 추적 가능하게 만듭니다. CoT는 작업을 여러 작은 단계로 분해하여 Agent가 각 결정 지점을 세심하게 고려하도록 돕고, 정보 과부하로 인한 잘못된 결정을 줄입니다. CoT는 Agent의 결정 과정을 더욱 투명하게 만들어 사용자가 Agent의 결정 근거를 이해하기 쉽게 합니다. 환경과의 상호작용에서 CoT는 Agent가 새로운 정보를 지속적으로 학습하고 행동 전략을 조정할 수 있도록 합니다.
CoT는 효과적인 전략으로서 대규모 언어 모델의 추론 능력을 향상시킬 뿐만 아니라, 더 지능적이고 신뢰할 수 있는 AI Agent를 구축하는 데 중요한 역할을 합니다. CoT를 활용함으로써 연구자와 개발자는 복잡한 환경에 적응하고 높은 자율성을 갖춘 지능형 시스템을 창출할 수 있습니다. CoT는 실제 응용에서 독특한 장점을 보여주며, 특히 복잡한 작업을 처리할 때 작업을 일련의 작은 단계로 분해하여 작업 해결의 정확성을 높이고 모델의 설명 가능성과 제어 가능성을 강화합니다. 이러한 단계별 문제 해결 방법은 복잡한 작업에 직면했을 때 정보가 너무 많거나 복잡하여 발생하는 잘못된 결정을 크게 줄일 수 있습니다. 동시에 이 방법은 전체 솔루션의 추적 가능성과 검증 가능성을 높입니다.
CoT의 핵심 기능은 계획, 행동 및 관찰을 상호 결합하여 추론과 행동 간의 간극을 메우는 것입니다. 이러한 사고 방식은 AI Agent가 예상되는 비정상적인 상황에 대한 효과적인 대책을 수립하고, 외부 환경과 상호작용하면서 새로운 정보를 축적하고 사전에 설정된 예측을 검증하여 새로운 추론 근거를 제공할 수 있도록 합니다. CoT는 AI Agent가 복잡한 환경에서 효율적인 작업 효율성을 유지하도록 돕는 강력한 정확성과 안정성 엔진과 같습니다.
4. 올바른 가짜 수요
Crypto는 AI 기술 스택의 어떤 측면과 결합해야 할까요? 지난해의 글에서 저는 컴퓨팅 파워와 데이터의 탈중앙화가 소기업과 개인 개발자가 비용을 절감하는 핵심 단계라고 생각했습니다. 올해 Coinbase가 정리한 Crypto x AI 세분화된 트랙에서 우리는 더 자세한 구분을 보았습니다:
(1) 계산 레이어(AI 개발자에게 GPU 자원을 제공하는 네트워크);
(2) 데이터 레이어(AI 데이터 파이프라인의 탈중앙화 접근, 조정 및 검증을 지원하는 네트워크);
(3) 미들웨어 레이어(AI 모델 또는 에이전트의 개발, 배포 및 호스팅을 지원하는 플랫폼 또는 네트워크);
(4) 애플리케이션 레이어(체인 상 AI 메커니즘을 활용한 사용자 지향 제품, B2B 또는 B2C 모두 포함).
이 네 가지 구분 레이어에서 각 레이어는 거대한 비전을 가지고 있으며, 그 목표는 실리콘 밸리 거대 기업이 인터넷의 다음 시대를 지배하는 것에 맞서기 위한 것입니다. 제가 작년에 말했듯이, 우리는 정말로 실리콘 밸리 거대 기업이 독점적으로 컴퓨팅 파워와 데이터를 통제하는 것을 받아들여야 할까요? 그들이 독점하는 폐쇄형 대규모 모델의 내부는 또 하나의 블랙박스입니다. 과학은 오늘날 인류가 가장 신뢰하는 종교로, 미래 대규모 모델이 답하는 모든 문장은 상당수의 사람들에게 진리로 여겨질 것입니다. 그러나 이 진리는 어떻게 검증할 수 있을까요? 실리콘 밸리 거대 기업의 구상에 따르면, 지능체가 궁극적으로 갖게 될 권한은 상상을 초월할 것입니다. 예를 들어, 당신의 지갑에 대한 결제 권한, 단말기 사용 권한 등, 어떻게 인간이 악한 마음을 가지지 않도록 보장할 수 있을까요?
탈중앙화는 유일한 답이지만, 때때로 우리는 이러한 거대한 비전의 비용을 지불할 주체가 얼마나 되는지를 합리적으로 고려해야 할 필요가 있습니다. 과거에는 상업적 폐쇄 고리를 고려하지 않고 Token을 통해 이상화로 인한 오차를 보완할 수 있었습니다. 그러나 현재의 상황은 매우 엄중하며, Crypto x AI는 현실 상황을 고려하여 설계해야 합니다. 예를 들어, 계산 레이어에서 성능 손실과 불안정한 상황에서 공급 양측을 어떻게 균형을 맞출 것인가? 중앙 집중식 클라우드의 경쟁력을 실현하기 위해서입니다. 데이터 레이어의 프로젝트는 과연 얼마나 많은 실제 사용자가 있을 것이며, 제공된 데이터의 진정성과 유효성을 어떻게 검증할 것인지, 그리고 어떤 고객이 이러한 데이터를 필요로 할까요? 나머지 두 레이어도 마찬가지입니다. 이 시대에 우리는 그렇게 많은 겉보기에는 올바른 가짜 수요가 필요하지 않습니다.
5. Meme가 SocialFi를 뛰어넘다
제가 첫 문단에서 언급했듯이, Meme는 초고속으로 Web3에 적합한 SocialFi 형태로 나아갔습니다. Friend.tech는 이번 소셜 애플리케이션의 첫 발을 내딛은 Dapp이지만, 아쉽게도 성급한 Token 설계로 실패했습니다. Pump.fun은 순수 플랫폼화의 가능성을 검증했으며, 어떤 Token도 만들지 않고 어떤 규칙도 설정하지 않았습니다. 주목의 수요자와 공급자가 통합되어, 사용자는 플랫폼에서 밈 이미지를 올리고, 라이브 방송을 하고, 코인을 발행하고, 댓글을 남기고, 거래를 할 수 있으며, 모든 것이 자유롭습니다. Pump.fun은 서비스 수수료만을 수취합니다. 이는 현재 YouTube, Instagram 등 소셜 미디어의 주목 경제 모델과 기본적으로 일치하지만, 요금 부과 대상이 다르고, Pump.fun의 방식은 더 Web3적입니다.
Base의 Clanker는 통합 생태계 덕분에 완벽한 내부 폐쇄 루프를 형성하는 종합적인 존재입니다. Base는 자체 소셜 Dapp을 보조적으로 가지고 있습니다. 지능체 Meme는 Meme Coin의 2.0 형태로, 사람들은 항상 새로움을 추구합니다. 현재 Pump.fun은 마침 바람직한 위치에 있으며, 트렌드상 실리콘 기반 생물이 탄소 기반 생물의 저속한 밈을 대체하는 것은 시간 문제입니다.
저는 이미 수없이 많은 번 Base를 언급했지만, 매번 언급하는 내용은 다릅니다. 시간선상에서 Base는 결코 선발자가 아니지만, 항상 승자입니다.
6. 지능체는 또 무엇이 될 수 있을까?
실용적인 관점에서 볼 때, 지능체는 앞으로 오랜 시간 동안 탈중앙화될 가능성이 없습니다. 전통적인 AI 분야에서 지능체를 구축하는 것은 단순한 추론 과정의 탈중앙화와 오픈 소스만으로 해결될 수 있는 문제가 아닙니다. 다양한 API를 통해 Web2의 콘텐츠에 접근해야 하며, 운영 비용이 매우 비쌉니다. 사고 체인의 설계 및 다수의 지능체 협력은 여전히 인간을 매개체로 의존하는 경우가 많습니다. 우리는 적절한 융합 형태가 나타날 때까지 긴 과도기를 겪게 될 것입니다. 아마도 UNI와 비슷할 것입니다. 그러나 이전 글과 마찬가지로 저는 지능체가 우리 산업에 큰 충격을 줄 것이라고 여전히 생각합니다. 이는 Cex가 우리 산업에 존재하는 것과 마찬가지로, 올바르지는 않지만 매우 중요합니다.
스탠포드와 마이크로소프트가 지난달 발표한 《AI Agent 개요》 논문은 지능체가 의료, 스마트 기계, 가상 세계에서의 응용을 대량으로 설명하고 있으며, 이 논문의 부록에는 이미 많은 GPT-4V가 지능체로서 3A 게임 개발에 참여한 실험 사례가 포함되어 있습니다.
탈중앙화와의 결합 속도를 너무 강요할 필요는 없습니다. 저는 지능체가 먼저 보완해야 할 퍼즐 조각이 아래에서 위로의 능력과 속도라고 더 희망합니다. 우리는 그렇게 많은 서사적 폐허와 빈 공간의 메타버스가 필요하며, 적절한 단계에서 우리는 그것이 다음 UNI가 되도록 하는 방법을 고려할 것입니다.
참고 자료
대규모 모델 "출현"의 사고 체인,究竟是一种什么能力? 저자: 뇌극체
한 문장으로 이해하는 Agent, 대규모 모델의 다음 정거장 저자: LinguaMind