대화 Gensyn 창립자: 분산 네트워크를 활용하여 유휴 컴퓨팅 자원을 최대화하고, 머신 러닝을 지원하다
비디오 링크: 《Ben Fielding \& Harry Grieve: Gensyn -- The Deep Learning Compute Protocol》
호스트: Dr. Friederike Ernst, Epicenter 팟캐스트
발표자: Ben Fielding \& Harry Grieve, Gensyn 공동 창립자
정리 \& 편집: Sunny, 심조 TechFlow
블록체인 AI 컴퓨팅 프로토콜 Gensyn은 6월 12일 a16z의 주도로 4,300만 달러 A 라운드 자금을 완료했다고 발표했다.
Gensyn의 사명은 사용자에게 개인 컴퓨팅 클러스터를 소유하는 것과 동등한 컴퓨팅 규모에 대한 접근을 제공하고, 무엇보다도 공정한 접근을 실현하여 중앙 기관의 통제나 차단을 피하는 것이다. 동시에 Gensyn은 머신러닝 모델 훈련에 집중하는 분산 컴퓨팅 프로토콜이다.
작년 말 Gensyn 창립자 Harry와 Ben이 Epicenter 팟캐스트에서 컴퓨팅 자원 조사에 대해 심도 있게 논의한 내용을 되돌아보면, AWS, 로컬 인프라 및 클라우드 인프라를 포함하여 이러한 자원을 최적화하고 활용하여 AI 애플리케이션의 발전을 지원하는 방법을 이해할 수 있다.
또한 그들은 Gensyn의 디자인 철학, 목표 및 시장 위치에 대해 자세히 논의하고, 디자인 과정에서 직면한 다양한 제약, 가정 및 실행 전략에 대해서도 설명했다.
팟캐스트에서는 Gensyn 오프체인 네트워크의 네 가지 주요 역할을 소개하고, Gensyn 온체인 네트워크의 특징과 Gensyn 토큰 및 거버넌스의 중요성을 탐구했다.
게다가 Ben과 Harry는 인공지능의 기본 원리와 응용에 대해 더 깊이 이해할 수 있도록 흥미로운 AI 대중 과학을 공유했다.
블록체인이 분산 AI 인프라의 신뢰 계층으로서의 역할
호스트는 Ben과 Harry에게 AI와 딥러닝의 풍부한 경험을 블록체인과 결합한 이유를 물었다.
Ben은 그들의 결정이 즉각적이지 않았으며, 상대적으로 긴 시간을 거쳤다고 밝혔다. Gensyn의 목표는 대규모 AI 인프라를 구축하는 것이며, 최대 규모의 확장성을 달성하는 방법을 연구하는 과정에서 신뢰할 필요가 없는 계층이 필요하다는 것을 깨달았다.
그들은 중앙 집중식 신규 공급업체에 의존하지 않고 컴퓨팅 능력을 통합할 수 있는 방법이 필요했으며, 그렇지 않으면 행정적 확장의 제한에 직면하게 된다. 이 문제를 해결하기 위해 그들은 검증 가능한 컴퓨팅 연구를 탐색하기 시작했지만, 이는 항상 신뢰할 수 있는 제3자 또는 판사가 계산을 검토해야 한다는 것을 발견했다.
이 제한은 그들을 블록체인으로 이끌었다. 블록체인은 단일 의사 결정자나 중재자가 필요하지 않도록 하는 방법을 제공하며, 이는 대규모 집단 간의 합의를 가능하게 한다.
Harry는 그의 철학을 공유하며, 그는 Ben과 함께 자유로운 발언을 강력히 지지하고 검열 제도에 대해 우려하고 있다고 말했다.
그들이 블록체인으로 전환하기 전, 그들은 연합 학습을 연구하고 있었으며, 이는 분산 데이터 소스에서 여러 모델을 훈련한 다음 이를 결합하여 모든 데이터 소스에서 학습할 수 있는 메타 모델을 만드는 딥러닝 분야이다. 그들은 은행과 협력하여 이러한 방법을 수행했다. 그러나 그들은 곧 훈련할 수 있는 컴퓨팅 자원이나 프로세서를 확보하는 것이 더 큰 문제라는 것을 깨달았다.
컴퓨팅 자원을 최대한 통합하기 위해 그들은 분산된 조정 방법이 필요했으며, 이것이 블록체인의 활용처이다.
시장 컴퓨팅 자원 조사: AWS, 로컬 인프라 및 클라우드 인프라
Harry는 AI 모델을 실행하는 데 필요한 다양한 컴퓨팅 자원 선택에 대해 설명했으며, 이는 모델 규모에 따라 달라진다.
학생들은 AWS 또는 로컬 머신을 사용할 수 있고, 스타트업은 필요에 따라 AWS를 선택하거나 예약된 더 저렴한 옵션을 선택할 수 있다.
그러나 대규모 GPU 수요의 경우, AWS는 비용과 확장성의 제한을 받을 수 있으며, 일반적으로 내부 인프라를 구축하는 것을 선택한다.
연구에 따르면 많은 조직이 규모를 확장하기 위해 노력하고 있으며, 일부는 GPU를 구매하고 직접 관리하기로 선택했다. 전반적으로 GPU 구매는 장기적으로 AWS에서 운영하는 것보다 더 경제적이다.
머신러닝 컴퓨팅 자원의 선택에는 클라우드 컴퓨팅, 로컬에서 AI 모델 실행 또는 자체 컴퓨팅 클러스터 구축이 포함된다. Gensyn의 목표는 자사 클러스터를 소유하는 것과 동등한 컴퓨팅 규모에 대한 접근을 제공하는 것이며, 무엇보다도 공정한 접근을 실현하여 중앙 기관의 통제나 차단을 피하는 것이다.
표 1: 현재 시장에서의 모든 컴퓨팅 자원 선택
Gensyn 디자인 철학, 목표 및 시장 위치에 대한 논의
호스트는 Gensyn이 이전의 블록체인 컴퓨팅 프로젝트인 Golem Network와 어떻게 다른지 물었다.
Harry는 Gensyn의 디자인 철학이 주로 두 가지 축을 따라 고려된다고 설명했다:
- 프로토콜의 세밀함: Golem과 같은 범용 컴퓨팅 프로토콜과 달리 Gensyn은 머신러닝 모델 훈련에 집중하는 세밀한 프로토콜이다.
- 검증의 확장성: 초기 프로젝트는 일반적으로 평판이나 비교적 내구성이 낮은 복제 방식에 의존했으며, 이는 머신러닝 결과에 대한 충분한 신뢰를 제공하지 못했다. Gensyn의 목표는 암호화 세계의 컴퓨팅 프로토콜에서의 학습 경험을 활용하고 이를 머신러닝에 특별히 적용하여 속도와 비용을 최적화하면서도 만족스러운 검증 수준을 보장하는 것이다.
Harry는 네트워크가 갖추어야 할 특성을 고려할 때, 머신러닝 엔지니어와 연구자들을 대상으로 해야 한다고 덧붙였다. 검증 부분이 필요하지만, 누구나 참여할 수 있도록 허용하는 측면에서 검열에 저항하고 하드웨어에 중립적이어야 한다.
디자인 과정에서의 제약, 가정 및 실행
Gensyn 플랫폼 디자인 과정에서 Ben은 시스템 제약과 가정에 대한 중요성을 강조했다. 그들의 목표는 전 세계를 AI 슈퍼 컴퓨터로 변환할 수 있는 네트워크를 만드는 것이며, 이를 위해 제품 가정, 연구 가정 및 기술 가정 간의 균형을 찾아야 했다.
Gensyn을 자체 1층 블록체인으로 구축한 이유는 합의 메커니즘 등 주요 기술 분야에서 더 큰 유연성과 의사결정 자유를 유지하기 위해서이다. 그들은 미래에 그들의 프로토콜을 증명할 수 있기를 바라며, 프로젝트 초기 단계에서 불필요한 제약을 가하고 싶지 않았다. 또한 그들은 미래에 각 체인이 널리 수용되는 정보 프로토콜을 통해 상호작용할 수 있을 것이라고 믿으며, 그들의 결정도 이러한 비전을 반영하고 있다.
도표 2: 제품 가정, 연구 가정 및 기술 가정, 제약 및 실행
Gensyn 오프체인 네트워크의 네 가지 주요 역할
이번 Gensyn 경제 논의에서는 네 가지 주요 역할인 제출자, 작업자, 검증자 및 신고자를 소개했다. 제출자는 Gensyn 네트워크에 특정 이미지 생성 또는 자동차를 운전할 수 있는 AI 모델 개발 등 다양한 문제를 제출할 수 있다.
제출자 (Submitter) 작업 제출
Harry는 Gensyn을 사용하여 모델을 훈련하는 방법을 설명했다. 사용자는 먼저 텍스트 프롬프트에 따라 이미지를 생성하는 것과 같은 기대 결과를 정의한 다음, 텍스트 프롬프트를 입력으로 하여 해당 이미지를 생성하는 모델을 구축한다. 훈련 데이터는 모델의 학습과 개선에 매우 중요하다. 모델 아키텍처와 훈련 데이터가 준비되면, 사용자는 이를 학습률 계획 및 훈련 지속 시간과 같은 초매개변수와 함께 Gensyn 네트워크에 제출한다. 이 훈련 과정의 결과는 훈련된 모델이며, 사용자는 해당 모델을 호스팅하고 사용할 수 있다.
훈련되지 않은 모델을 선택하는 방법에 대해 질문받았을 때, Harry는 두 가지 방법을 제시했다.
- 첫 번째 방법은 현재 인기 있는 기본 모델 개념에 기반하며, OpenAI나 Midjourney와 같은 대기업이 기본 모델을 구축한 다음 사용자가 해당 기본 모델에 대해 특정 데이터 훈련을 수행할 수 있다.
- 두 번째 선택은 제로에서 모델을 구축하는 것으로, 기본 모델 방법과는 다르다.
Gensyn에서는 개발자가 진화 최적화와 유사한 방법을 사용하여 다양한 아키텍처를 제출하여 훈련 및 테스트를 수행하고, 기대하는 모델을 구축하기 위해 지속적으로 최적화할 수 있다.
Ben은 그들의 관점에서 기본 모델에 대한 깊은 통찰을 제공하며, 이는 이 분야의 미래라고 생각한다.
Gensyn은 프로토콜로서 진화 최적화 기술이나 유사한 방법을 사용하는 DApps에 의해 구현되기를 희망한다. 이러한 DApps는 개별 아키텍처를 Gensyn 프로토콜에 제출하여 훈련 및 테스트를 수행하고, 반복적으로 정제하여 이상적인 모델을 구축할 수 있다.
Gensyn의 목표는 순수한 머신러닝 컴퓨팅 기반을 제공하여 이를 중심으로 생태계를 개발하도록 장려하는 것이다.
사전 훈련된 모델은 조직이 독점 데이터 세트를 사용하거나 훈련 과정에 대한 정보를 숨길 수 있기 때문에 편향을 도입할 수 있지만, Gensyn의 해결책은 훈련 과정을 공개하는 것이며, 블랙박스를 제거하거나 전적으로 결정론에 의존하는 것이 아니다. 집단적으로 기본 모델을 설계하고 훈련함으로써 우리는 특정 회사 데이터 세트의 편향에 영향을 받지 않는 글로벌 모델을 만들 수 있다.
작업자 (Solver)
작업 할당에 있어, 하나의 작업은 하나의 서버에 해당한다. 그러나 하나의 모델은 여러 작업으로 분할될 수 있다.
대형 언어 모델은 설계 시 당시 사용 가능한 최대 하드웨어 용량을 충분히 활용한다. 이 개념은 네트워크로 확장될 수 있으며, 장치의 이질성을 고려한다.
특정 작업에 대해 검증자나 작업자는 Mempool에서 작업을 인수할 수 있다. 해당 작업을 인수할 의사가 있는 사람들 중에서 무작위로 작업자가 선택된다. 모델과 데이터가 특정 장치에 적합하지 않지만 장치 소유자가 가능하다고 주장할 경우, 시스템 혼잡으로 인해 벌금을 부과받을 수 있다.
작업이 한 대의 머신에서 실행될 수 있는지는 검증 가능한 무작위 함수에 의해 결정되며, 이 함수는 사용 가능한 작업자 하위 집합에서 작업자를 선택한다.
작업자의 능력 검증에 관한 문제는, 작업자가 주장한 계산 능력이 없을 경우 계산 작업을 완료할 수 없으며, 이는 제출 증명 시 감지된다.
그러나 작업의 크기는 문제이다. 작업이 너무 크게 설정되면 서비스 거부 공격(DoS)과 같은 시스템 문제를 초래할 수 있으며, 이 경우 작업자가 작업을 완료하겠다고 주장하지만 결코 완료하지 않아 시간과 자원을 낭비하게 된다.
따라서 작업 크기의 결정은 매우 중요하며, 병렬화 및 작업 구조 최적화와 같은 요소를 고려해야 한다. 연구자들은 다양한 제약 조건을 기반으로 최적의 방법을 적극적으로 연구하고 탐색하고 있다.
테스트넷이 시작되면 실제 상황을 고려하여 시스템이 현실 세계에서 어떻게 작동하는지 관찰할 것이다.
완벽한 작업 크기를 정의하는 것은 도전적이며, Gensyn은 현실 세계의 피드백과 경험에 따라 조정하고 개선할 준비가 되어 있다.
온체인 대규모 계산의 검증 메커니즘 및 체크포인트 (Checkpoints)
Harry와 Ben은 계산의 정확성을 검증하는 것이 중요한 도전 과제라고 밝혔다. 이는 해시 함수처럼 결정적이지 않기 때문에 단순히 해시 검증을 통해 계산이 수행되었는지 확인할 수 없다. 이 문제를 해결하기 위한 이상적인 솔루션은 전체 계산 과정에 대한 제로 지식 증명의 응용을 활용하는 것이다. 현재 Gensyn은 이러한 능력을 실현하기 위해 노력하고 있다.
현재 Gensyn은 체크포인트를 사용한 혼합 방법을 소개하고 있으며, 확률 메커니즘과 체크포인트를 통해 머신러닝 계산을 검증한다. 무작위 감사 계획과 그래디언트 공간 경로를 결합하여 상대적으로 견고한 체크포인트를 구축할 수 있다. 또한 검증 과정을 강화하기 위해 제로 지식 증명이 도입되었으며, 모델의 전역 손실에 적용되었다.
검증자 (Verifier)와 신고자 (Whistleblower)
호스트와 Harry는 검증 과정에서 관련된 두 가지 추가 역할인 검증자(Verifier)와 신고자(Whistleblower)에 대해 논의했다. 그들은 이 두 역할의 구체적인 책임과 기능을 자세히 설명했다.
검증자의 임무는 체크포인트의 정확성을 보장하는 것이며, 신고자의 임무는 검증자가 자신의 책임을 정확히 수행하는지를 보장하는 것이다. 신고자는 검증자의 딜레마 문제를 해결하여 검증자의 작업이 올바르고 신뢰할 수 있도록 한다. 검증자는 의도적으로 작업에 오류를 도입하며, 신고자의 역할은 이러한 오류를 식별하고 드러내어 검증 과정의 완전성을 보장하는 것이다.
검증자는 신고자의 경각심을 테스트하기 위해 의도적으로 오류를 도입하며, 시스템의 유효성을 보장한다. 작업에 오류가 있을 경우, 검증자는 오류를 감지하고 신고자에게 통보한다. 오류는 이후 블록체인에 기록되며, 체인에서 검증된다. 정기적으로, 그리고 시스템 보안성과 관련된 속도로 검증자는 의도적으로 오류를 도입하여 신고자의 참여도를 유지한다. 신고자가 문제를 발견하면, 그들은 "pinpoint protocol"이라는 게임에 참여하게 되며, 이를 통해 계산을 신경망의 특정 영역의 머클 트리 내의 구체적인 지점으로 축소할 수 있다. 이후 이 정보는 체인에서 중재를 위해 제출된다. 이는 검증자와 신고자 과정의 간소화된 버전이며, 그들은 시드 라운드가 끝난 후 추가 개발 및 연구를 진행할 것이다.
Gensyn 온체인 네트워크
Ben과 Harry는 Gensyn 조정 프로토콜이 온체인에서 어떻게 작동하는지 및 구현 세부 사항에 대해 자세히 논의했다. 그들은 먼저 네트워크 블록을 구축하는 과정에 대해 언급했으며, 여기에는 스테이킹 토큰이 해당 스테이킹 네트워크의 일부로 포함된다. 이후 이 구성 요소가 Gensyn 프로토콜과 어떻게 관련되는지를 설명했다.
Ben은 Gensyn 프로토콜이 상당히 vanilla substrate 폴카 네트워크 프로토콜에 기반하고 있다고 설명했다. 그들은 지분 증명 기반의 Grandpa Babe 합의 메커니즘을 채택했으며, 검증자는 일반적인 방식으로 작동한다. 그러나 이전에 소개된 모든 머신러닝 구성 요소는 오프체인에서 수행되며, 다양한 오프체인 참여자가 각자의 작업을 수행한다.
이러한 참여자는 스테이킹을 통해 인센티브를 얻으며, Substrate의 스테이킹 블록을 통해 또는 스마트 계약에서 특정 수량의 토큰을 제출하여 스테이킹할 수 있다. 그들의 작업이 최종적으로 검증되면 보상을 받게 된다.
Ben과 Harry가 언급한 도전 과제는 스테이킹 금액, 가능한 감소 금액 및 보상 금액 간의 균형을 보장하여 게으르거나 악의적인 행동의 인센티브를 방지하는 것이다.
또한 그들은 신고자를 추가하는 것이 가져오는 복잡성에 대해서도 논의했지만, 대규모 계산의 필요성으로 인해 그들의 존재는 검증자의 정직성을 보장하는 데 필수적이다. 그들은 제로 지식 증명 기술을 통해 신고자를 제거할 수 있는 방법을 지속적으로 탐색하고 있다. 그들은 현재 시스템이 라이트 페이퍼에 설명된 내용과 일치하지만, 각 측면을 간소화하기 위해 적극적으로 노력하고 있다고 밝혔다.
호스트가 데이터 가용성 솔루션이 있는지 질문하자, Henry는 그들이 substrate 위에 "proof of availability (POA)"라는 계층을 도입했다고 설명했다. 이 계층은 에러 정정 코드와 같은 기술을 활용하여 그들이 광범위한 저장소 시장에서 직면한 제한을 해결한다. 그들은 이미 이러한 솔루션을 구현한 개발자에게 매우 관심이 있다고 밝혔다.
Ben은 그들의 요구가 훈련 데이터 저장뿐만 아니라 중간 증명 데이터도 포함된다고 덧붙였다. 이러한 데이터는 장기 저장이 필요하지 않다. 예를 들어, 특정 수의 블록을 발행할 때 약 20초 정도만 보존하면 될 수 있다. 그러나 현재 그들이 Arweave에 지불하는 저장 비용은 수백 년을 커버하는 범위로, 이러한 단기 요구에는 불필요하다. 그들은 Arweave의 보장과 기능을 갖추면서도 단기 저장 요구를 더 낮은 비용으로 충족할 수 있는 솔루션을 찾고 있다.
Gensyn 토큰과 거버넌스
Ben은 Gensyn 토큰이 생태계에서 중요한 역할을 하며, 스테이킹, 처벌, 보상 제공 및 합의 유지 등에서 핵심적인 역할을 한다고 설명했다. 그 주요 목적은 시스템의 재정적 합리성과 완전성을 보장하는 것이다. Ben은 또한 검증자에게 지급하기 위해 인플레이션율을 신중하게 사용하는 것과 게임 이론 메커니즘을 활용하는 것에 대해 언급했다.
그는 Gensyn 토큰의 순수한 기술적 용도를 강조하며, Gensyn 토큰 도입의 시기와 필요성을 기술적으로 보장할 것이라고 말했다.
Harry는 그들이 딥러닝 커뮤니티에서 소수파에 속하며, 특히 AI 학자들이 암호화폐에 대해 광범위한 회의론을 가지고 있다고 언급했다. 그럼에도 불구하고 그들은 암호화폐의 기술적 및 이념적 가치에 대한 인식을 하고 있다.
그러나 네트워크가 시작될 때, 그들은 대부분의 딥러닝 사용자가 주로 법정 화폐를 사용하여 거래할 것으로 예상하며, 토큰으로의 전환은 배후에서 원활하게 이루어질 것이라고 말했다.
공급 측면에서 작업자와 제출자는 토큰 거래에 적극 참여할 것이며, 그들은 많은 GPU 자원을 보유하고 새로운 기회를 찾고 있는 이더리움 채굴자들로부터 관심을 받았다고 밝혔다.
여기서 중요한 것은 딥러닝 및 머신러닝 종사자들이 암호화폐 용어(예: 토큰)에 대한 두려움을 없애고, 이를 사용자 경험 인터페이스와 분리하는 것이다. Gensyn은 이것이 Web 2와 Web 3의 세계를 연결하는 흥미로운 사용 사례라고 언급하며, 경제적 합리성과 그 존재를 지원하는 데 필요한 기술을 갖추고 있다고 강조했다.
도표 1: 팟캐스트를 기반으로 정리한 Gensyn 온체인 및 오프체인 네트워크의 운영 모델, 운영 메커니즘에 오류가 있을 경우 독자께서는 즉시 제기해 주시기 바랍니다 (사진 출처: 심조)
AI 대중 과학
AI, 딥러닝 및 머신러닝
Ben은 최근 몇 년간 AI 분야의 발전에 대한 자신의 견해를 공유했다. 그는 AI와 머신러닝 분야가 지난 7년 동안 여러 차례의 작은 폭발을 겪었지만, 현재의 발전은 진정한 영향력과 가치 있는 응용 프로그램을 창출하고 있으며, 이러한 응용 프로그램은 더 넓은 청중과 공감할 수 있다고 생각한다. 딥러닝은 이러한 변화의 기본 동력이다. 딥 신경망은 전통적인 컴퓨터 비전 방법이 설정한 기준을 초월하는 능력을 보여주었다. 또한 GPT-3와 같은 모델도 이러한 발전을 가속화했다.
Harry는 AI, 머신러닝 및 딥러닝 간의 차이에 대해 더 설명했다. 그는 이 세 가지 용어가 자주 혼용되지만, 그들 간에는 상당한 차이가 있다고 생각한다. 그는 AI, 머신러닝 및 딥러닝을 러시아 인형에 비유하며, AI가 가장 바깥층이라고 말했다.
- 넓은 의미에서 AI는 기계가 작업을 수행하도록 프로그래밍하는 것을 의미한다.
- 머신러닝은 90년대와 2000년대 초반에 유행하기 시작했으며, 데이터에 기반하여 결정의 확률을 결정하는 것이지, if-then 규칙을 가진 전문가 시스템에 의존하지 않는다.
- 딥러닝은 머신러닝을 기반으로 하여 더 복잡한 모델을 허용한다.
도표 3: 인공지능, 머신러닝 및 딥러닝의 차이
인공지능의 세 가지 주요 분야: 인공지능의 좁은 범위(ANI), 인공지능의 일반 범위(AGI), 인공지능의 초범위(ASI)
이 부분에서 호스트와 게스트는 인공지능의 세 가지 주요 분야인 인공지능의 좁은 범위(ANI), 인공지능의 일반 범위(AGI), 인공지능의 초범위(ASI)에 대해 심도 있게 논의했다.
- 인공지능의 좁은 범위(Artificial Narrow Intelligence, ANI): 현재의 인공지능은 주로 이 단계에 있으며, 기계가 특정 작업을 수행하는 데 매우 능숙하다. 예를 들어, 패턴 인식을 통해 의학적 스캔에서 특정 유형의 암을 감지하는 것이다.
- 인공지능의 일반 범위(Artificial General Intelligence, AGI): AGI는 기계가 인간에게 상대적으로 간단하지만 계산 시스템에서 반영하기에는 매우 도전적인 작업을 수행할 수 있는 것을 의미한다. 예를 들어, 기계가 혼잡한 환경에서 원활하게 탐색하면서 주변의 모든 입력에 대해 이산 가정을 수행할 수 있도록 하는 것이 AGI의 한 예이다. AGI는 모델이나 시스템이 인간처럼 일상적인 작업을 수행할 수 있는 것을 의미한다.
- 인공지능의 초범위(Artificial Super Intelligence, ASI): AGI에 도달한 후, 기계는 인공지능의 초범위로 발전할 수 있다. 이는 기계가 모델의 복잡성, 증가된 계산 능력, 무한한 수명 및 완벽한 기억력으로 인해 인간의 능력을 초월하는 것을 의미한다. 이 개념은 종종 공상과학 및 공포 영화에서 탐구된다.
또한 게스트는 뇌-기계 인터페이스를 통한 인간 두뇌와 기계의 융합이 AGI를 실현하는 한 방법이 될 수 있지만, 이는 일련의 도덕적 및 윤리적 문제를 야기할 수 있다고 언급했다.
딥러닝 블랙박스 해제: 결정론과 확률론
Ben은 딥러닝 모델의 블랙박스 특성이 그들의 절대적인 크기 때문이라고 설명했다. 당신은 여전히 네트워크 내의 일련의 결정 지점을 통해 경로를 추적하고 있다. 다만 이 경로가 매우 크기 때문에 모델 내의 가중치나 매개변수를 그들의 구체적인 값과 연결하기가 어렵다. 이러한 값들은 수백만 개의 샘플을 입력한 후에 도출된 것이다. 당신은 이를 확실히 할 수 있으며, 각 업데이트를 추적할 수 있지만, 최종적으로 생성되는 데이터 양은 매우 클 것이다.
그는 두 가지 일이 발생하고 있다고 보았다:
우리가 구축 중인 모델에 대한 이해가 깊어짐에 따라 블랙박스의 본질이 점차 사라지고 있다. 딥러닝은 연구 분야로서 흥미로운 빠른 시기를 겪었으며, 이러한 실험은 연구의 기초에 의해 주도되지 않았다. 오히려 우리는 무엇을 얻을 수 있는지 보기 위해 더 많은 데이터를 투입하고, 새로운 아키텍처를 시도하며, 단순히 무슨 일이 일어나는지 보기 위해 기본 원리에서 출발하지 않고 설계한 것이다. 그래서 흥미로운 시기가 있었고 모든 것이 블랙박스였다. 그러나 그는 이러한 빠른 성장이 이제 느려지고 있으며, 사람들이 이러한 아키텍처를 재검토하고 "왜 이게 이렇게 잘 작동할까? 좀 더 깊이 연구해 보자."라고 말하고 있다고 생각한다. 따라서 어느 정도 이 장막이 벗겨지고 있다.
또 다른 발생하는 일은 논란의 여지가 있을 수 있으며, 사람들이 계산 시스템이 완전히 결정적이어야 하는지, 아니면 우리가 확률 세계에서 살 수 있는지에 대한 관점의 변화이다. 우리는 인간으로서 확률 세계에서 살고 있다. 자율주행차의 예가 가장 명확할 수 있다. 우리가 운전할 때, 우리는 무작위 사건이 발생할 수 있다는 것을 받아들이며, 작은 사고가 발생할 수 있고, 자율주행차 시스템에 문제가 발생할 수 있다. 그러나 우리는 이것을 완전히 받아들일 수 없으며, 이는 반드시 완전히 결정적인 과정이어야 한다고 주장한다. 자율주행차 산업의 도전 중 하나는 사람들이 자율주행차에 적용되는 확률 메커니즘을 받아들일 것이라고 가정하는 것이다. 그러나 실제로 사람들은 이를 받아들이지 않았다. 그는 이러한 상황이 변화할 것이라고 생각하며, 논란의 여지가 있는 것은 우리가 사회로서 확률 계산 시스템이 우리와 공존할 수 있도록 허용할 것인지에 대한 것이다. 그는 이 길이 순조롭게 진행될 것인지 확신할 수 없지만, 이는 발생할 것이라고 믿는다.
그래디언트 최적화 방법: 딥러닝의 핵심 최적화 방법
그래디언트 최적화는 딥러닝의 핵심 방법 중 하나로, 신경망 훈련에서 중요한 역할을 한다. 신경망에서 일련의 층 매개변수는 본질적으로 실수이다. 네트워크 훈련은 이러한 매개변수를 데이터가 올바르게 전달되고 네트워크의 마지막 단계에서 기대 출력을 유발하는 실제 값으로 설정하는 것이다.
그래디언트 기반 최적화 방법은 신경망 및 딥러닝 분야에 혁신을 가져왔다. 이 방법은 네트워크의 각 층 매개변수에 대한 오차의 미분인 그래디언트를 사용한다. 체인 규칙을 적용하여 그래디언트를 전체 층 네트워크에 역전파할 수 있다. 이 과정에서 오차 표면에서의 위치를 확인할 수 있다. 오차는 유클리드 공간에서 하나의 표면으로 모델링될 수 있으며, 이 표면은 고저가 있는 영역으로 보인다. 최적화의 목표는 오차를 최소화하는 영역을 찾는 것이다.
그래디언트는 각 층에서 당신이 이 표면에서의 위치와 매개변수를 업데이트해야 할 방향을 보여준다. 당신은 그래디언트를 활용하여 이 기복이 있는 표면을 탐색하고 오차를 줄이는 방향을 찾을 수 있다. 스텝 크기는 표면의 경사 정도에 따라 달라진다. 경사가 심하면 더 멀리 점프하고, 경사가 적으면 더 적게 점프한다. 본질적으로 당신은 이 표면을 탐색하며, 하나의 움푹 패인 곳을 찾고 있으며, 그래디언트는 당신이 위치와 방향을 결정하는 데 도움을 준다.
이 방법은 큰 돌파구이며, 그래디언트는 명확한 신호와 유용한 방향을 제공한다. 이는 매개변수 공간에서 무작위로 점프하는 것보다 더 효과적으로 당신이 표면의 어느 위치에 있는지, 산꼭대기에 있는지, 계곡에 있는지, 평탄한 지역에 있는지를 알 수 있도록 한다.
딥러닝에는 최적의 해를 찾는 문제를 해결할 수 있는 많은 기술이 있지만, 현실 세계의 상황은 일반적으로 더 복잡하다. 딥러닝 훈련에서 사용되는 많은 정규화 기술은 이를 예술로 만들며, 과학이 아니다. 이것이 바로 그래디언트 기반 최적화가 현실에서의 응용이 더 예술적이며 정확한 과학이 아닌 이유이다.
도표 2: 간단히 말해 최적화 목표는 계곡을 찾는 것이다 (사진 출처: 심조)
결론
Gensyn의 목표는 전 세계에서 가장 큰 머신러닝 컴퓨팅 자원 시스템을 구축하는 것이며, 개인의 스마트폰, 컴퓨터 등과 같은 유휴 또는 충분히 사용되지 않는 컴퓨팅 자원을 최대한 활용할 수 있도록 한다.
머신러닝과 블록체인의 맥락에서, 장부에 저장된 기록은 일반적으로 계산 결과, 즉 머신러닝을 통해 처리된 데이터 상태이다. 이 상태는 "이 데이터는 머신러닝을 통해 처리되었으며, 유효하며, 발생 시간은 X년 X월이다."라는 형태일 수 있다. 이 기록의 주요 목표는 결과 상태를 표현하는 것이지, 계산 과정을 자세히 설명하는 것이 아니다.
이 프레임워크에서 블록체인은 중요한 역할을 한다:
- 블록체인은 데이터 상태 결과를 기록하는 방법을 제공한다. 그 설계는 데이터의 진실성을 보장하고 변조 및 부인 방지를 가능하게 한다.
- 블록체인 내부에는 경제적 인센티브 메커니즘이 있으며, 이를 통해 계산 네트워크 내의 다양한 역할 간의 행동을 조정할 수 있다. 예를 들어, 제출자, 작업자, 검증자 및 신고자와 같은 네 가지 역할이 있다.
- 현재 클라우드 컴퓨팅 시장에 대한 조사를 통해 우리는 클라우드 컴퓨팅이 전혀 쓸모가 없는 것이 아니라, 다양한 컴퓨팅 방식이 각기 특정 문제를 가지고 있음을 발견했다. 블록체인의 분산 컴퓨팅 방식은 일부 상황에서 효과를 발휘할 수 있지만, 전통적인 클라우드 컴퓨팅을 완전히 대체할 수는 없다. 즉, 블록체인은 만능 해결책이 아니다.
- 마지막으로 AI는 생산력으로 볼 수 있지만, AI를 효과적으로 조직하고 훈련하는 것은 생산 관계의 범주에 속한다. 여기에는 협력, 크라우드소싱 및 인센티브와 같은 요소가 포함된다. 이 점에서 Web 3.0은 많은 가능한 해결책과 시나리오를 제공한다.
따라서 우리는 블록체인과 AI의 결합, 특히 데이터 및 모델의 공유, 컴퓨팅 자원의 조정 및 결과의 검증 등에서 AI의 훈련 및 사용 과정에서 발생하는 일부 문제를 해결할 수 있는 새로운 가능성을 제공한다고 이해할 수 있다.
인용 1.https://docs.gensyn.ai/litepaper/ 2.https://a16zcrypto.com/posts/announcement/investing-in-gensyn/