AI 프레임워크 해체: 스마트 에이전트에서 탈중앙화 탐색까지
저자: YBB Capital 연구원 Zeke
서론
이전 기사에서 우리는 AI Meme의 현황과 AI Agent의 미래 발전에 대한 여러 가지 관점을 논의했습니다. 그러나 AI Agent 분야의 서사 발전 속도와 변화는 다소 혼란스럽습니다. "진리 단말기"가 Agent Summer를 시작한 지 불과 두 달 만에 AI와 Crypto의 결합에 대한 서사는 거의 매주 새로운 변화를 겪고 있습니다. 최근 시장의 관심은 기술 서사가 주도하는 "프레임워크" 프로젝트로 다시 집중되고 있으며, 이 세분화된 분야는 지난 몇 주 동안 시가총액이 1억 이상, 심지어 10억 이상인 여러 다크호스를 배출했습니다. 이러한 프로젝트는 Github 코드 저장소를 기반으로 토큰을 발행하고, 프레임워크를 기반으로 한 Agent도 다시 토큰을 발행할 수 있는 새로운 자산 발행 패러다임을 낳았습니다. 프레임워크를 바탕으로 Agent가 위에 있습니다. 자산 발행 플랫폼처럼 보이지만, 사실 AI 시대에 독특한 인프라 모델이 나타나고 있습니다. 우리는 이러한 새로운 트렌드를 어떻게 바라봐야 할까요? 본문에서는 프레임워크 소개를 시작으로 AI 프레임워크가 Crypto에 대해 무엇을 의미하는지에 대한 개인적인 생각을 결합하여 해석하겠습니다.
1. 프레임워크란 무엇인가?
정의상 AI 프레임워크는 복잡한 AI 모델을 구축하는 과정을 단순화하는 사전 구축된 모듈, 라이브러리 및 도구 세트를 통합한 기본 개발 도구 또는 플랫폼입니다. 이러한 프레임워크는 일반적으로 데이터 처리, 모델 훈련 및 예측을 위한 기능도 포함합니다. 간단히 말해, 프레임워크는 AI 시대의 운영 체제로 이해할 수 있으며, 이는 데스크탑 운영 체제의 Windows, Linux 또는 모바일 운영 체제의 iOS 및 Android와 유사합니다. 각 프레임워크는 고유한 장점과 단점을 가지고 있으며, 개발자는 특정 요구 사항에 따라 자유롭게 선택할 수 있습니다.
"AI 프레임워크"라는 용어는 Crypto 분야에서 여전히 신흥 개념이지만, 그 기원을 살펴보면 2010년에 탄생한 Theano부터 시작하여 AI 프레임워크의 발전 역사는 사실상 14년에 가까워졌습니다. 전통적인 AI 분야에서는 학계와 산업계 모두에서 매우 성숙한 프레임워크가 선택할 수 있습니다. 예를 들어, 구글의 TensorFlow, 메타의 Pytorch, 바이두의 PaddlePaddle, 바이트의 MagicAnimate 등은 다양한 상황에 따라 각각의 장점을 가지고 있습니다.
현재 Crypto에서 나타나는 프레임워크 프로젝트는 이 AI 열풍의 시작에 따라 대량의 Agent 수요를 기반으로 구축되었으며, 이후 Crypto의 다른 분야로 파생되어 다양한 세분화된 AI 프레임워크를 형성하게 되었습니다. 현재 업계의 몇 가지 주요 프레임워크를 예로 들어 이 문장을 확장해 보겠습니다.
1.1 Eliza
먼저 ai16z의 Eliza를 예로 들면, 이 프레임워크는 자율 AI Agent를 생성, 배포 및 관리하기 위해 특별히 설계된 다중 Agent 시뮬레이션 프레임워크입니다. TypeScript를 프로그래밍 언어로 사용하여 개발되었으며, 그 장점은 호환성이 더 뛰어나고 API 통합이 더 용이하다는 것입니다.
공식 문서에 따르면 Eliza는 주로 소셜 미디어와 관련된 시나리오를 목표로 하고 있으며, 여러 플랫폼의 통합 지원을 제공합니다. 이 프레임워크는 기능이 완비된 Discord 통합을 제공하며, 음성 채널, X/Twitter 플랫폼의 자동화 계정, Telegram 통합 및 직접 API 접근을 지원합니다. 미디어 콘텐츠 처리에 있어 PDF 문서의 읽기 및 분석, 링크 콘텐츠 추출 및 요약, 오디오 전사, 비디오 콘텐츠 처리, 이미지 분석 및 설명, 대화 요약을 지원합니다.
Eliza가 현재 지원하는 사용 사례는 주로 네 가지입니다:
AI 도우미 애플리케이션: 고객 지원 에이전트, 커뮤니티 관리자, 개인 비서;
소셜 미디어 역할: 자동 콘텐츠 제작자, 상호작용 로봇, 브랜드 대표;
지식 근로자: 연구 보조원, 콘텐츠 분석가, 문서 처리기;
상호작용 역할: 역할 놀이 캐릭터, 교육 상담원, 엔터테인먼트 로봇.
Eliza가 현재 지원하는 모델:
오픈 소스 모델 로컬 추론: 예를 들어 Llama3, Qwen1.5, BERT;
OpenAI의 API를 사용한 클라우드 추론;
기본 구성은 Nous Hermes Llama 3.1B;
복잡한 쿼리를 위해 Claude와 통합.
1.2 G.A.M.E
G.A.M.E(Generative Autonomous Multimodal Entities Framework)는 Virtual에서 출시한 자동 생성 및 관리 다중 모달 AI 프레임워크로, 주로 게임 내 스마트 NPC 설계를 목표로 하고 있습니다. 이 프레임워크의 특별한 점은 저코드 또는 무코드 기반의 사용자도 사용할 수 있다는 것입니다. 사용자는 시험 인터페이스에 따라 매개변수만 수정하면 Agent 설계에 참여할 수 있습니다.
프로젝트 아키텍처에서 G.A.M.E의 핵심 설계는 여러 하위 시스템이 협력하여 작동하는 모듈화된 설계입니다. 자세한 아키텍처는 아래 그림과 같습니다.
Agent Prompting Interface: 개발자와 AI 프레임워크 간의 상호작용 인터페이스입니다. 이 인터페이스를 통해 개발자는 세션을 초기화하고 세션 ID, 에이전트 ID, 사용자 ID 등의 매개변수를 지정할 수 있습니다;
Perception Subsystem: 감지 하위 시스템은 입력 정보를 수신하고 이를 합성하여 전략 계획 엔진에 전송합니다. 또한 대화 처리 모듈의 응답을 처리합니다;
Strategic Planning Engine: 전략 계획 엔진은 전체 프레임워크의 핵심 부분으로, 고급 계획자(High Level Planner)와 저급 전략(Low Level Policy)으로 나뉩니다. 고급 계획자는 장기 목표와 계획을 수립하고, 저급 전략은 이러한 계획을 구체적인 행동 단계로 변환합니다;
World Context: 세계 맥락은 환경 정보, 세계 상태 및 게임 상태 등의 데이터를 포함하며, 이러한 정보는 에이전트가 현재 상황을 이해하는 데 도움을 줍니다;
Dialogue Processing Module: 대화 처리 모듈은 메시지와 응답을 처리하며, 대화나 반응을 출력으로 생성할 수 있습니다;
On Chain Wallet Operator: 체인 상의 지갑 운영자는 블록체인 기술의 응용 시나리오와 관련이 있을 수 있으며, 구체적인 기능은 명확하지 않습니다;
Learning Module: 학습 모듈은 피드백에서 학습하고 에이전트의 지식 기반을 업데이트합니다;
Working Memory: 작업 기억은 에이전트의 최근 행동, 결과 및 현재 계획 등의 단기 정보를 저장합니다;
Long Term Memory Processor: 장기 기억 처리기는 에이전트 및 그 작업 기억에 대한 중요한 정보를 추출하고 중요성 점수, 최근성 및 관련성 등의 요소에 따라 정렬합니다;
Agent Repository: 에이전트 저장소는 에이전트의 목표, 반사, 경험 및 개성 등의 속성을 저장합니다;
Action Planner: 행동 계획자는 저급 전략에 따라 구체적인 행동 계획을 생성합니다;
Plan Executor: 계획 실행기는 행동 계획자가 생성한 행동 계획을 실행합니다.
작업 흐름: 개발자는 Agent 프롬프트 인터페이스를 통해 Agent를 시작하고, 감지 하위 시스템은 입력을 수신하여 전략 계획 엔진에 전달합니다. 전략 계획 엔진은 기억 시스템, 세계 맥락 및 Agent 저장소의 정보를 활용하여 행동 계획을 수립하고 실행합니다. 학습 모듈은 Agent의 행동 결과를 지속적으로 모니터링하고 결과에 따라 Agent의 행동을 조정합니다.
응용 시나리오: 전체 기술 아키텍처에서 이 프레임워크는 가상 환경에서 Agent의 의사 결정, 피드백, 감지 및 개성에 주로 초점을 맞추고 있으며, 사용 사례는 게임 외에도 메타버스에 적용될 수 있습니다. Virtual의 아래 목록에서 이미 많은 프로젝트가 이 프레임워크를 사용하여 구축되었음을 확인할 수 있습니다.
1.3 Rig
Rig는 Rust 언어로 작성된 오픈 소스 도구로, 대형 언어 모델(LLM) 애플리케이션 개발을 단순화하기 위해 설계되었습니다. 여러 LLM 서비스 제공업체(예: OpenAI 및 Anthropic) 및 다양한 벡터 데이터베이스(예: MongoDB 및 Neo4j)와 쉽게 상호작용할 수 있도록 통합된 작업 인터페이스를 제공합니다.
핵심 특징:
통합 인터페이스: 어떤 LLM 제공업체나 어떤 벡터 저장소든 Rig는 일관된 접근 방식을 제공하여 통합 작업의 복잡성을 크게 줄입니다;
모듈화 아키텍처: 프레임워크 내부는 모듈화된 설계를 채택하여 "제공자 추상화 계층", "벡터 저장소 인터페이스" 및 "스마트 에이전트 시스템" 등의 핵심 부분을 포함하여 시스템의 유연성과 확장성을 보장합니다;
타입 안전성: Rust의 특성을 활용하여 타입 안전한 임베딩 작업을 구현하여 코드 품질과 실행 시간의 안전성을 보장합니다;
효율적인 성능: 비동기 프로그래밍 모드를 지원하여 동시 처리 능력을 최적화합니다. 내장된 로그 기록 및 모니터링 기능은 유지 관리 및 문제 해결에 도움이 됩니다.
작업 흐름: 사용자가 Rig 시스템에 요청하면 먼저 "제공자 추상화 계층"을 거치게 되며, 여기서는 다양한 제공자 간의 차이를 표준화하고 오류 처리의 일관성을 보장합니다. 다음으로, 핵심 계층에서 스마트 에이전트는 다양한 도구를 호출하거나 벡터 저장소를 쿼리하여 필요한 정보를 얻을 수 있습니다. 마지막으로, 검색 강화 생성(RAG) 등의 고급 메커니즘을 통해 시스템은 문서 검색 및 맥락 이해를 결합하여 정확하고 의미 있는 응답을 생성하여 사용자에게 반환합니다.
응용 시나리오: Rig는 빠르고 정확한 답변이 필요한 질문 응답 시스템 구축뿐만 아니라 효율적인 문서 검색 도구, 상황 인식 기능을 갖춘 챗봇 또는 가상 비서, 심지어 기존 데이터 패턴에 따라 자동으로 텍스트 또는 기타 형태의 콘텐츠를 생성하는 콘텐츠 제작에도 사용할 수 있습니다.
1.4 ZerePy
ZerePy는 Python 기반의 오픈 소스 프레임워크로, X(구 Twitter) 플랫폼에서 AI Agent를 배포하고 관리하는 과정을 단순화하는 것을 목표로 하고 있습니다. Zerebro 프로젝트에서 파생되어 핵심 기능을 계승하였지만, 더 모듈화되고 확장하기 쉬운 방식으로 설계되었습니다. 개발자가 개인화된 AI Agent를 쉽게 생성하고 X에서 다양한 자동화 작업 및 콘텐츠 제작을 수행할 수 있도록 하는 것이 목표입니다.
ZerePy는 사용자가 배포한 AI Agent를 관리하고 제어할 수 있도록 명령줄 인터페이스(CLI)를 제공합니다. 그 핵심 아키텍처는 모듈화된 설계를 기반으로 하여 개발자가 다양한 기능 모듈을 유연하게 통합할 수 있도록 허용합니다. 예를 들어:
LLM 통합: ZerePy는 OpenAI 및 Anthropic의 대형 언어 모델(LLM)을 지원하며, 개발자는 자신의 애플리케이션 시나리오에 가장 적합한 모델을 선택할 수 있습니다. 이를 통해 Agent는 고품질의 텍스트 콘텐츠를 생성할 수 있습니다;
X 플랫폼 통합: 프레임워크는 X 플랫폼의 API를 직접 통합하여 Agent가 게시, 응답, 좋아요, 리트윗 등의 작업을 수행할 수 있도록 합니다;
모듈화 연결 시스템: 이 시스템은 개발자가 다른 소셜 플랫폼이나 서비스에 대한 지원을 쉽게 추가하여 프레임워크의 기능을 확장할 수 있도록 합니다;
메모리 시스템(미래 계획): 현재 버전은 아직 완전히 구현되지 않았을 수 있지만, ZerePy의 설계 목표에는 메모리 시스템 통합이 포함되어 있어 Agent가 이전 상호작용 및 맥락 정보를 기억하여 더 일관되고 개인화된 콘텐츠를 생성할 수 있습니다.
ZerePy와 a16z의 Eliza 프로젝트는 모두 AI Agent를 구축하고 관리하는 데 중점을 두고 있지만, 두 프로젝트는 아키텍처와 목표에서 약간의 차이가 있습니다. Eliza는 다중 에이전트 시뮬레이션과 더 광범위한 AI 연구에 중점을 두고 있는 반면, ZerePy는 특정 소셜 플랫폼(X)에서 AI Agent를 배포하는 과정을 단순화하는 데 중점을 두고 있으며, 실제 응용 프로그램에서의 단순화에 더 가깝습니다.
2. BTC 생태계의 복사본
사실 발전 경로 측면에서 AI Agent는 23년 말과 24년 초의 BTC 생태계와 상당히 유사한 점이 많습니다. BTC 생태계의 발전 경로는 간단히 요약할 수 있습니다: BRC20-Atomical/Rune 등 다중 프로토콜 경쟁-BTC L2-Babylon을 중심으로 한 BTCFi. AI Agent는 성숙한 전통 AI 기술 스택을 기반으로 더 빠르게 발전하고 있지만, 전체 발전 경로는 실제로 BTC 생태계와 많은 유사점을 가지고 있습니다. 저는 이를 간단히 요약하자면: GOAT/ACT-소셜형 Agent/분석형 AI Agent 프레임워크 경쟁입니다. 트렌드 측면에서 Agent의 탈중앙화와 안전성을 중심으로 한 인프라 프로젝트는 이 프레임워크 열풍을 이어받아 다음 단계의 주제가 될 가능성이 높습니다.
그렇다면 이 분야가 BTC 생태계처럼 동질화되고 거품화될까요? 저는 그렇지 않다고 생각합니다. 첫째, AI Agent의 서사는 스마트 계약 체인의 역사를 재현하기 위한 것이 아닙니다. 둘째, 기존 AI 프레임워크 프로젝트는 기술적으로 진정한 실력이 있는지, 아니면 PPT 단계에 머물러 있는지 또는 ctrl c + ctrl v에 불과한지에 관계없이 적어도 새로운 인프라 발전 사고를 제공하고 있습니다. 많은 기사에서 AI 프레임워크를 자산 발행 플랫폼에 비유하고 Agent를 자산에 비유하지만, 개인적으로 AI 프레임워크는 미래의 공공 체인에 더 가깝고, Agent는 미래의 Dapp에 더 가깝다고 생각합니다.
현재 Crypto에서는 수천 개의 공공 체인과 수만 개의 Dapp이 존재합니다. 일반 체인에서는 BTC, 이더리움 및 다양한 이종 체인이 있으며, 응용 체인의 형태는 게임 체인, 저장 체인, Dex 체인 등 더 다양합니다. 공공 체인은 AI 프레임워크와 매우 유사하며, Dapp은 Agent와 잘 대응할 수 있습니다.
AI 시대의 Crypto는 이러한 형태로 나아갈 가능성이 높으며, 미래의 논쟁은 EVM과 이종 체인 간의 논쟁에서 프레임워크 간의 논쟁으로 전환될 것입니다. 현재의 문제는 어떻게 탈중앙화하거나 체인화할 것인가입니다. 이 점에서 후속 AI 인프라 프로젝트는 이 기반 위에서 전개될 것이며, 또 다른 점은 블록체인에서 이 작업을 수행하는 것이 어떤 의미가 있는가입니다?
3. 체인화의 의미는?
블록체인은 어떤 것과 결합하든 결국 직면해야 할 문제는: 의미가 있는가? 작년 기사에서 저는 GameFi의 본말이 전도된 점을 비판했으며, 인프라 발전이 지나치게 앞서 나갔다는 점을 언급했습니다. 이전 몇 차례 AI에 관한 기사에서도 현재 실용 분야에서 AI x Crypto의 조합에 대해 그리 긍정적이지 않다고 표현했습니다. 결국, 서사의 추진력은 전통 프로젝트에 대해 점점 약해지고 있으며, 작년에 몇 안 되는 가격이 좋은 전통 프로젝트는 기본적으로 가격에 맞는 실력이나 초과하는 실력을 갖추어야 했습니다. AI가 Crypto에 어떤 도움이 될까요? 제가 이전에 생각했던 것은 Agent가 의도를 실현하고, 메타버스, Agent가 직원으로 활동하는 등의 상대적으로 평범하지만 수요가 있는 아이디어였습니다. 그러나 이러한 수요는 완전히 체인화할 필요가 없으며, 상업적 논리로도 닫힌 루프를 형성할 수 없습니다. 이전에 언급한 Agent 브라우저가 의도를 실현하는 것은 데이터 태깅, 추론 계산력 등의 수요를 파생할 수 있지만, 두 가지의 결합은 여전히 충분히 긴밀하지 않으며, 계산력 부분은 종합적으로 볼 때 여전히 중앙 집중식 계산력이 우세합니다.
DeFi의 성공 비결을 다시 생각해보면, DeFi가 전통 금융에서 한 조각을 차지할 수 있었던 이유는 더 높은 접근성, 더 나은 효율성, 더 낮은 비용, 신뢰할 수 없는 중앙 집중식 안전성을 갖추었기 때문입니다. 이러한 사고 방식을 따른다면, Agent의 체인화가 더 낮은 사용 비용을 실현하여 더 높은 접근성과 선택성을 달성할 수 있는 이유가 있을 것입니다. 궁극적으로 Web2 대기업의 AI "임대권"이 일반 사용자도 참여할 수 있도록 할 수 있습니다.
둘째, 안전성입니다. Agent의 가장 간단한 정의에 따르면, Agent라고 불릴 수 있는 AI는 가상 또는 현실 세계와 상호작용할 수 있어야 합니다. 만약 Agent가 현실에 개입하거나 제 가상 지갑에 개입할 수 있다면, 블록체인 기반의 안전 솔루션은 필수적일 것입니다.
셋째, Agent가 블록체인에 독특한 금융 플레이를 실현할 수 있을까요? 예를 들어 AMM의 LP처럼, 일반인도 자동으로 시장에 참여할 수 있도록 하거나, Agent가 계산력, 데이터 태깅 등을 필요로 할 때, 사용자가 긍정적으로 생각하는 경우 U의 형태로 프로토콜에 투자할 수 있습니다. 또는 다양한 응용 시나리오에 따라 Agent가 새로운 금융 플레이를 형성할 수 있습니다.
넷째, 현재 DeFi는 완벽한 상호 운용성을 갖추지 못하고 있으며, 블록체인과 결합된 Agent가 투명하고 추적 가능한 추론을 실현할 수 있다면, 이는 이전 기사에서 언급한 전통 인터넷 대기업이 제공하는 Agent 브라우저보다 더 매력적일 수 있습니다.
4. 창의성?
프레임워크 프로젝트는 미래에 GPT Store와 유사한 창업 기회를 제공할 것입니다. 현재 프레임워크를 통해 Agent를 출시하는 것은 일반 사용자에게 여전히 복잡하지만, Agent 구축 과정을 단순화하고 복잡한 기능 조합을 제공하는 프레임워크는 미래에 우위를 점할 것입니다. 이로 인해 GPT Store보다 더 흥미로운 Web3 창의 경제가 형성될 것입니다.
현재의 GPT Store는 여전히 전통 분야의 실용성에 치우쳐 있으며, 대부분의 인기 앱은 전통 Web2 회사에서 생성되었습니다. 수익 측면에서도 창작자가 독점하고 있습니다. OpenAI의 공식 설명에 따르면, 이 전략은 미국 지역의 일부 뛰어난 개발자에게만 자금을 지원하며, 일정 금액의 보조금을 제공합니다.
Web3는 수요 측면에서 여전히 많은 부분이 채워져야 하며, 경제 체계에서도 Web2 대기업의 불공정한 정책을 더 공정하게 만들 수 있습니다. 이 외에도 우리는 자연스럽게 커뮤니티 경제를 도입하여 Agent를 더욱 완벽하게 만들 수 있습니다. Agent의 창의 경제는 일반인도 참여할 수 있는 기회가 될 것이며, 미래의 AI Meme은 GOAT, Clanker에서 발행된 Agent보다 더 스마트하고 흥미로울 것입니다.
참고 기사:
2.Bybit: AI Rig Complex (ARC): AI 에이전트 프레임워크
3.Deep Value Memetics: 네 가지 Crypto×AI 프레임워크의 수평 비교: 채택 상태, 장단점, 성장 잠재력