딥 다이내믹 멀티 에이전트: Web3와 AI는 결국 서로를 성취할 것인가?
如果说 AIGC가 콘텐츠 생성의 스마트 시대를 열었다면, AI Agent는 AIGC의 능력을 진정으로 제품화할 기회를 제공합니다.
AI Agent는 보다 구체적인 만능 직원처럼, 인공지능 로봇의 초기 형태로 불리며, 인간처럼 주변 환경을 관찰하고, 결정을 내리며, 자동으로 행동을 취할 수 있습니다.
빌 게이츠는 "AI Agent를 제어하는 것이 진정한 성취다. 그때가 되면, 당신은 더 이상 직접 인터넷에서 정보를 검색할 필요가 없을 것이다."라고 단언했습니다. AI 분야의 권위자들도 AI Agent의 전망에 큰 기대를 걸고 있습니다. 마이크로소프트 CEO 사티아 나델라는 AI Agent가 인간과 기계 간의 상호작용의 주요 방식이 될 것이며, 사용자 요구를 이해하고 능동적으로 서비스를 제공할 수 있을 것이라고 예측했습니다. 우언다 교수 또한 미래의 작업 환경에서 인간과 AI Agent가 더욱 긴밀하게 협력하여 효율적인 작업 방식을 형성하고 효율성을 높일 것이라고 예측했습니다.
AI Agent는 단순한 기술의 산물이 아니라, 미래의 생활과 작업 방식의 핵심입니다.
이것은 사람들에게 Web3와 블록체인이 처음으로 광범위한 논의를 일으켰을 때, 사람들이 종종 "파괴적"이라는 단어를 사용하여 이 기술의 잠재력을 설명했던 것을 떠올리게 합니다. 지난 몇 년을 돌아보면, Web3는 처음의 ERC-20, 제로 지식 증명에서 점차 DeFi, DePIN, GameFi 등 다른 분야와 융합되는 방향으로 발전해왔습니다.
Web3와 AI라는 두 가지 인기 있는 디지털 기술을 결합하면 1+1>2의 효과가 발생할까요? 점점 더 큰 규모로 자금을 모으고 있는 Web3 AI 프로젝트가 산업에 새로운 사용 사례 패러다임을 가져오고, 새로운 실제 수요를 창출할 수 있을까요?
AI Agent: 인간의 가장 이상적인 스마트 어시스턴트
AI Agent의 상상력은 어디에 있을까요? 인터넷에서는 "대형 언어 모델은 뱀 게임을 만들 수 있지만, AI Agent는 전체 왕자 영광을 만들 수 있다."는 고득점 답변이 떠돌고 있습니다. 듣기에는 과장된 것 같지만, 사실을 과장한 것은 아닙니다.
Agent는 국내에서 일반적으로 "지체"로 번역됩니다. 이 개념은 "인공지능의 아버지"인 민스키가 1986년에 출판한 《사고의 사회》에서 제안한 것으로, 민스키는 사회의 특정 개인들이 협의 후 특정 문제의 해답을 도출할 수 있다고 보았으며, 이러한 개인들이 바로 Agent입니다. 수년 동안 Agent는 인간과 기계 간의 상호작용의 기초가 되어왔으며, 마이크로소프트의 클립보드 도우미 Clippy에서 구글 문서의 자동 제안에 이르기까지, 이러한 초기 형태의 Agent는 개인화된 상호작용의 잠재력을 보여주었지만, 더 복잡한 작업을 처리하는 데는 여전히 한계가 있었습니다. 대형 언어 모델(LLM)의 출현으로 Agent의 진정한 잠재력이 발휘되었습니다.
올해 5월, AI 분야의 권위자인 우언다 교수는 미국의 세쿼이아 AI 행사에서 AI Agent에 대한 강연을 공유하며, 그의 팀이 수행한 일련의 실험을 보여주었습니다:
AI에게 코드를 작성하고 실행하게 하여, 다양한 LLM과 작업 흐름의 결과를 비교했습니다. 결과는 다음과 같습니다:
GPT-3.5 모델: 정확도 48%
GPT-4 모델: 정확도 67%
GPT-3.5 + Agent: GPT-4 모델의 성능을 초과
GPT-4 + Agent: GPT-4 모델보다 훨씬 뛰어난 성능
확실히, 대부분의 사람들이 ChatGPT와 같은 LLM을 사용할 때의 방식은 일반적으로 다음과 같습니다: 한 문장을 입력하면 대형 모델이 즉시 답변을 생성하지만, 자동으로 오류를 인식하고 수정하거나 삭제 및 재작성하지는 않습니다.
반면, AI Agent의 작업 흐름은 다음과 같습니다:
먼저 LLM에게 글의 개요를 작성하게 하고, 필요하다면 인터넷에서 내용을 검색하여 조사 분석한 후 초안을 출력합니다. 그런 다음 초안을 읽고 최적화 방법을 고민하며, 이러한 과정을 반복하고 여러 번 반복하여 최종적으로 논리적으로 엄밀하고 오류율이 가장 낮은 고품질 기사를 출력합니다.
우리는 AI Agent와 LLM의 차이가 LLM과 인간 간의 상호작용이 프롬프트(prompt)를 기반으로 이루어지는 반면, AI Agent는 목표를 설정하면 그 목표에 대해 독립적으로 사고하고 행동을 취할 수 있다는 점에서 차이가 있음을 알 수 있습니다. 주어진 작업을 세부적으로 분해하여 각 단계의 계획 단계를 수립하고, 외부의 피드백과 자율적 사고를 통해 스스로 프롬프트를 생성하여 목표를 달성합니다.
따라서 OpenAI의 AI Agent 정의는 다음과 같습니다: LLM을 두뇌로 구동하며, 자율적으로 이해하고 인식하며, 계획하고 기억하고 도구를 사용할 수 있는 능력을 가진, 복잡한 작업을 자동으로 실행할 수 있는 시스템.
AI가 사용되는 도구에서 도구를 사용할 수 있는 주체로 변모할 때, 그것이 바로 AI Agent가 되는 것입니다. 이것이 AI Agent가 인간의 가장 이상적인 스마트 어시스턴트가 될 수 있는 이유입니다. 예를 들어, AI Agent는 사용자의 역사적인 온라인 상호작용을 기반으로 사용자의 관심사, 선호도, 일상 습관을 이해하고 기억하며, 사용자의 의도를 인식하고 능동적으로 제안을 하며, 여러 응용 프로그램을 조정하여 작업을 완료할 수 있습니다.
빌 게이츠의 구상처럼, 미래에는 다양한 작업을 위해 서로 다른 응용 프로그램으로 전환할 필요가 없으며, 단순히 평범한 언어로 컴퓨터와 스마트폰에게 하고 싶은 일을 말하면, 사용자가 공유하고자 하는 데이터에 따라 AI Agent가 개인화된 응답을 제공할 것입니다.
1인 유니콘 회사가 현실이 되고 있다
AI Agent는 또한 기업이 "인간-기계 협업"을 핵심으로 하는 스마트 운영의 새로운 모델을 구축하는 데 도움을 줄 수 있습니다. 점점 더 많은 비즈니스 활동이 AI에 의해 수행될 것이며, 인간은 기업의 비전, 전략 및 주요 경로의 결정에만 집중하면 됩니다.
OpenAI CEO 샘 올트먼이 인터뷰에서 언급한 바와 같이, AI의 발전과 함께 우리는 "1인 유니콘" 시대에 접어들고 있습니다. 즉, 한 사람이 창립하고 10억 달러의 가치를 달성한 회사입니다.
이것은 황당하게 들릴 수 있지만, AI Agent의 도움으로 이 관점은 현실이 되고 있습니다.
가정해보겠습니다. 지금 우리는 기술 스타트업 회사를 창립하려고 합니다. 전통적인 방법에 따르면, 나는 소프트웨어 엔지니어, 제품 관리자, 디자이너, 마케팅 담당자, 영업 및 재무 담당자를 고용해야 하며, 각자 역할을 수행하지만 모두 내가 조정해야 합니다.
그렇다면 AI Agent를 사용한다면, 나는 아마도 직원을 고용할 필요조차 없을 것입니다.
- Devin --- 자동화 프로그래밍
소프트웨어 엔지니어를 대체할 Devin이라는 올해 폭발적으로 인기를 끌고 있는 AI 소프트웨어 엔지니어를 사용할 수 있습니다. Devin은 모든 프론트엔드 및 백엔드 작업을 수행할 수 있습니다.
Devin은 Cognition Labs에서 개발한 "세계 최초의 AI 소프트웨어 엔지니어"로 불리며, 전체 소프트웨어 개발 작업을 독립적으로 수행할 수 있으며, 문제를 분석하고, 결정을 내리고, 코드를 작성하고, 오류를 수정하는 모든 작업을 자율적으로 실행할 수 있습니다. 이는 개발자의 작업 부담을 크게 줄여줍니다. Devin은 불과 6개월 만에 1.96억 달러의 자금을 조달했으며, 가치는 수십억 달러로 급증했습니다. 투자자는 Founders Fund, Khosla Ventures 등 유명한 벤처 캐피탈 회사들입니다.
비록 Devin은 아직 공개 버전을 출시하지 않았지만, 최근에 폭발적으로 인기를 끌고 있는 Web2 제품인 Cursor를 통해 그 잠재력을 엿볼 수 있습니다. Cursor는 거의 모든 작업을 수행할 수 있으며, 간단한 아이디어를 몇 분 안에 기능성 코드로 변환할 수 있습니다. 당신은 명령만 내리면 "앉아서 즐길 수" 있습니다. 보도에 따르면, 한 8세 어린이가 프로그래밍 경험 없이 Cursor를 사용하여 코드 작업을 완료하고 웹사이트를 만들었다고 합니다.
- Hebbia --- 문서 처리
제품 관리자나 재무 담당자를 대체할 Hebbia를 선택할 수 있습니다. Hebbia는 모든 문서의 정리 및 분석을 도와줍니다.
Glean이 기업 내 문서 검색에 중점을 두는 것과 달리, Hebbia Matrix는 여러 AI 모델을 활용하여 사용자가 데이터를 효율적으로 추출, 구조화 및 분석할 수 있도록 돕는 기업 수준의 AI Agent 플랫폼입니다. 인상적인 점은 Matrix가 한 번에 수백만 개의 문서를 처리할 수 있다는 것입니다.
Hebbia는 올해 7월 1.3억 달러의 B 라운드를 완료했으며, a16z가 주도하고 Google Ventures, Peter Thiel 등 유명 투자자들이 참여했습니다.
- Jasper AI --- 콘텐츠 생성
소셜 미디어 운영 및 디자이너를 대체할 Jasper AI를 선택할 수 있습니다. Jasper AI는 콘텐츠 생성을 도와줍니다.
Jasper AI는 창작자, 마케팅 담당자 및 기업이 콘텐츠 생성 프로세스를 간소화하고 생산성과 창작 효율성을 높이는 데 도움을 주기 위한 AI Agent 작문 도우미입니다. Jasper AI는 사용자가 요구하는 스타일에 따라 블로그 게시물, 소셜 미디어 게시물, 광고 문구 및 제품 설명 등 다양한 유형의 콘텐츠를 생성할 수 있으며, 사용자의 설명에 따라 이미지를 생성하여 텍스트 콘텐츠에 시각적 보조를 제공합니다.
Jasper AI는 1.25억 달러의 자금을 조달했으며, 2022년에는 15억 달러의 가치를 달성했습니다. 통계에 따르면, Jasper AI는 사용자가 5억 개 이상의 단어를 생성하는 데 도움을 주었으며, 가장 널리 사용되는 AI 작문 도구 중 하나가 되었습니다.
- MultiOn --- 웹 자동화 작업
비서 역할을 대체할 MultiOn을 선택할 수 있습니다. MultiOn은 일상 업무를 관리하고, 일정을 조정하고, 알림을 설정하며, 심지어 출장 일정을 계획하고 호텔을 자동으로 예약하며, 차량 호출을 자동으로 조정합니다.
MultiOn은 자동화된 웹 작업 AI 에이전트로, 사용자가 온라인 쇼핑, 예약 등의 개인 작업을 완료하도록 도와주어 개인 효율성을 높이거나 사용자가 일상 업무를 간소화하여 작업 효율성을 높이는 데 도움을 줍니다.
- Perplexity --- 검색, 연구
연구원을 대체할 Perplexity를 선택할 수 있습니다. Perplexity는 엔비디아 CEO가 매일 사용하는 AI 검색 엔진입니다.
Perplexity는 사용자의 질문을 이해하고, 문제를 분해한 다음, 내용을 검색하고 통합하여 보고서를 생성하여 사용자에게 명확한 답변을 제공합니다.
Perplexity는 학생과 연구자와 같은 다양한 사용자 그룹에 적합하며, 이들은 글쓰기 시 정보 검색 프로세스를 간소화하여 효율성을 높일 수 있습니다. 마케팅 담당자는 마케팅 전략을 지원하기 위한 신뢰할 수 있는 데이터를 얻을 수 있습니다.
위의 내용은 단지 상상일 뿐이며, 현재 이러한 AI Agent의 진정한 능력과 수준은 각 산업의 엘리트 인재를 대체할 만큼 충분하지 않습니다. 로제닉 AI의 공동 창립자 리보제는 현재 LLM의 능력은 입문 수준에 불과하며, 전문가 수준에 도달하지 못하고 있으며, 현재의 AI Agent는 빠르게 작업을 수행하지만 신뢰성이 떨어지는 직원과 유사하다.라고 말했습니다.
그러나 이러한 AI Agent는 각자의 특성을 바탕으로 기존 사용자들이 다양한 상황에서 효율성과 편리성을 높이는 데 도움을 주고 있습니다.
기술 회사에 국한되지 않고, 모든 산업이 AI Agent의 물결에서 혜택을 받을 수 있습니다. 교육 분야에서는 AI Agent가 학생의 학습 진행, 관심사 및 능력에 따라 개인화된 학습 자료와 지도를 제공할 수 있으며; 금융 분야에서는 AI Agent가 사용자의 개인 재정을 관리하고 투자 조언을 제공하며, 심지어 주식 시장의 동향을 예측할 수 있습니다; 의료 분야에서는 AI Agent가 의사가 질병 진단 및 치료 계획을 수립하는 데 도움을 줄 수 있으며; 전자 상거래 분야에서는 AI Agent가 스마트 고객 서비스 역할을 하여 자연어 처리 및 기계 학습 기술을 통해 사용자 문의에 자동으로 응답하고, 주문 문제 및 반품 요청을 처리하여 고객 서비스 효율성을 높일 수 있습니다.
Multi-Agent: AI Agent의 다음 단계
이전 섹션에서 단일 유니콘 회사에 대한 가정에서, 단일 AI Agent는 복잡한 작업을 처리하는 데 한계를 가지고 있으며, 실제 요구를 충족하기 어렵습니다. 여러 AI Agent를 사용할 경우, 이러한 AI Agent가 이질적인 LLM을 기반으로 하여 집단 결정을 내리는 것이 어렵고, 능력이 제한적이어서 여전히 인간이 이러한 독립 AI Agent 간의 조정자로서 역할을 해야 하며, 서로 다른 응용 프로그램에 서비스를 제공하는 AI Agent가 작업을 수행하도록 조정해야 합니다. 이로 인해 "Multi Agent(다중 지체 프레임워크)"의 부상이 촉발되었습니다.
복잡한 문제는 종종 여러 분야의 지식과 기술을 통합해야 하며, 단일 AI Agent의 능력은 제한적이어서 이를 수행하기 어렵습니다. 서로 다른 능력을 가진 AI Agent를 유기적으로 조합함으로써, Multi-Agent 시스템은 AI Agent가 각자의 강점을 발휘하고 서로 보완하여 복잡한 문제를 보다 효과적으로 해결할 수 있게 합니다.
이는 실제 작업 흐름이나 조직 구조와 매우 유사합니다: 한 리더가 작업을 할당하고, 다양한 능력을 가진 사람들이 각기 다른 작업을 책임지며, 각 공정의 결과가 다음 공정으로 전달되어 최종 작업 결과를 얻는 구조입니다.
실현 과정에서, 낮은 수준의 AI Agent가 각자의 작업을 수행하고, 높은 수준의 AI Agent가 작업을 할당하며, 그들의 완료 상태를 감독합니다.
Multi-Agent는 또한 우리가 문제에 직면했을 때 사람들과 상의하는 것처럼, 여러 AI Agent가 집단 결정을 모방하여 더 나은 정보 지원을 제공할 수 있습니다. 예를 들어, 마이크로소프트가 개발한 AutoGen은 다음과 같은 기능을 제공합니다:
서로 다른 역할의 AI Agent를 생성할 수 있습니다. 이러한 AI Agent는 기본적인 대화 능력을 가지고 있으며, 수신한 메시지에 따라 응답을 생성할 수 있습니다.
GroupChat을 통해 여러 AI Agent가 참여하는 그룹 채팅 환경을 생성할 수 있으며, 이 GroupChat에는 다른 AI Agent의 채팅 기록, 발언 순서, 발언 종료 등을 관리하는 관리자 역할의 AI Agent가 있습니다.
단일 유니콘 회사의 구상에 적용하면, 우리는 Multi-Agent 구조를 통해 프로젝트 관리자, 프로그래머 또는 감독과 같은 여러 역할의 AI Agent를 생성할 수 있습니다. 우리의 목표를 그들에게 알려주고 그들이 방법을 생각하게 하면, 우리는 그저 보고를 듣기만 하면 됩니다. 의견이 있거나 그들이 잘못한 부분이 있다면, 그들에게 수정하도록 하여 만족할 때까지 반복하면 됩니다.
단일 AI Agent에 비해 Multi-Agent는 다음과 같은 이점을 제공합니다:
확장성: AI Agent의 수를 늘려 더 큰 규모의 문제를 처리할 수 있으며, 각 AI Agent가 작업의 일부를 처리하여 시스템이 요구 증가에 따라 확장될 수 있습니다.
병렬성: 자연스럽게 병렬 처리를 지원하며, 여러 AI Agent가 문제의 서로 다른 부분에서 동시에 작업하여 문제 해결 속도를 높입니다.
결정 개선: 여러 AI Agent의 통찰력을 집계하여 의사 결정을 강화할 수 있으며, 각 AI Agent는 고유한 관점과 전문 지식을 가지고 있습니다.
AI 기술이 지속적으로 발전함에 따라, Multi-Agent 프레임워크가 더 많은 산업에서 더 큰 역할을 하고 AI 기반의 다양한 새로운 솔루션 개발을 촉진할 것으로 예상됩니다.
AI Agent의 바람, Web3로 불어오다
실험실을 넘어, AI Agent와 Multi-Agent는 길고도 험난한 여정을 앞두고 있습니다.
Multi-Agent는 차치하고, 현재 가장 진보된 단일 AI Agent조차도 물리적 차원에서 필요한 계산 자원과 계산 능력에 명확한 한계가 있어 무한 확장이 불가능합니다. 극도로 복잡하고 계산량이 많은 작업에 직면할 경우, AI Agent는 분명히 계산 능력의 병목 현상에 직면하게 되어 성능이 크게 저하될 것입니다.
또한, AI Agent와 Multi-Agent 시스템은 본질적으로 집중식 아키텍처 모델로, 이는 단일 고장 위험이 매우 높다는 것을 의미합니다. 더 중요한 것은 OpenAI, 마이크로소프트, 구글 등 회사들이 폐쇄형 대형 모델을 기반으로 한 독점 상업 모델이 독립적이고 단일 AI Agent 스타트업의 생존 환경을 심각하게 위협하여, AI Agent가 방대한 기업의 개인 데이터를 원활하게 활용하여 더 똑똑하고 효율적으로 발전할 수 없게 만든다는 점입니다. AI Agent 간에는 민주화된 협력 환경이 필요하며, 진정으로 가치 있는 AI Agent가 더 넓은 수요 집단에 서비스를 제공하고 사회에 더 큰 가치를 창출할 수 있어야 합니다.
마지막으로, LLM과 비교할 때 AI Agent는 산업에 더 가까운 존재이지만, 그 발전은 LLM에 기반하고 있으며, 현재 대형 모델 경로의 특징은 기술 장벽이 높고 자금 투입이 많으며 상업 모델이 아직 발전하지 않았기 때문에, AI Agent는 지속적인 업데이트와 반복을 위해 자금을 확보하기가 매우 어렵습니다.
Multi-Agent 패러다임은 Web3가 AI를 지원하는 훌륭한 관점이며, 이미 많은 Web3 개발 팀이 이러한 측면에서 연구 개발에 투자하고 해결책을 제공하고 있습니다.
AI Agent와 Multi-Agent 시스템은 일반적으로 복잡한 결정 및 작업 처리를 위해 많은 계산 자원을 필요로 합니다. Web3는 블록체인과 탈중앙화 기술을 통해 탈중앙화된 계산 자원 시장을 구축하여 계산 자원이 전 세계적으로 보다 공정하고 효율적으로 분배되고 활용될 수 있도록 합니다. Akash, Nosana, Aethir, IO.net 등 Web3 프로젝트는 AI Agent의 결정 및 추론에 필요한 계산 능력을 제공할 수 있습니다.
전통적인 AI 시스템은 종종 집중식 관리로 인해 AI Agent가 단일 실패 지점 및 데이터 개인 정보 문제에 직면하게 되며, Web3의 탈중앙화 특성은 Multi-Agent 시스템을 보다 분산되고 자율적으로 만들어, 각 AI Agent가 서로 다른 노드에서 독립적으로 실행되며 사용자가 제시한 요구를 자율적으로 수행할 수 있도록 하여 강건성과 안전성을 강화합니다. PoS, DPoS 등의 메커니즘을 통해 스테이커와 위임자에 대한 인센티브 및 처벌 메커니즘을 구축함으로써 단일 AI Agent 또는 Multi-Agent 시스템의 민주화를 촉진할 수 있습니다.
이와 관련하여, GaiaNet, Theoriq, PIN AI, HajimeAI는 매우 선진적인 시도를 하고 있습니다.
Theoriq는 "Web3를 위한 AI" 서비스를 제공하는 프로젝트로, Agentic Protocol을 통해 AI Agents의 호출 및 경제 시스템을 구축하고 Web3 개발과 많은 기능적 장면을 보급하여 Web3 dApp에 검증 가능한 모델 추론 능력을 제공합니다.
GaiaNet은 노드를 기반으로 한 AI Agent 생성 및 배포 환경을 구축하여 전문가와 사용자의 지식 재산권 및 데이터 개인 정보를 보호하는 것을 출발점으로 하여, 중앙화된 OpenAI GPT Store에 대항합니다.
HajimeAI는 두 가지를 기반으로 AI Agent 작업 흐름의 실제 요구에 대한 구축과 의도 자체의 스마트화 및 자동화를 추진하며, PIN AI가 언급한 "AI 스마트의 개인화"에 응답합니다.
동시에, Modulus Labs와 ORA Protocol은 각각 AI Agent의 zkML 및 opML 알고리즘 방향에서 진전을 이루었습니다.
마지막으로, AI Agent와 Multi-Agent 시스템의 개발 및 반복은 종종 많은 자금 지원을 필요로 하며, Web3는 선행 유동성의 특성을 통해 잠재력이 있는 AI Agent 프로젝트가 귀중한 초기 지원을 받을 수 있도록 도와줄 수 있습니다.
Spectral과 HajimeAI는 체인 상에서 AI Agent 자산을 발행하는 제품 구상을 제안했습니다: IAO(Initial Agent Offering)를 통해 토큰을 발행하여 AI Agent가 투자자로부터 직접 자금을 확보하고, DAO 거버넌스의 일원이 되어 투자자에게 프로젝트 발전에 참여하고 미래 수익을 공유할 기회를 제공합니다. HajimeAI의 Benchmark DAO는 크라우드 펀딩과 토큰 인센티브 방식을 통해 탈중앙화된 AI Agent 평가 및 AI Agent 자산 발행을 유기적으로 결합하여 Web3 기반의 AI Agent 자금 조달 및 콜드 스타트의 폐쇄 루프를 구축하는 비교적 새로운 시도를 하고 있습니다.
AI 판도라의 상자가 이미 열렸습니다. 그 안에 있는 모든 사람은 흥분과 혼란을 느끼고 있으며, 열풍 속에 기회가 있을지 암초가 있을지 아무도 알 수 없습니다. 이제 모든 산업은 더 이상 PPT 자금 조달 시대가 아닙니다. 아무리 최첨단 기술이라도 실제로 구현되어야만 가치를 실현할 수 있습니다. AI Agent의 미래는 분명히 긴 마라톤이 될 것이며, Web3는 이 경주에서 어둡게 퇴장하지 않도록 보장할 것입니다.