메인넷 출시가 임박한 가운데, AI 데이터의 분산 저장 프로토콜 EpiK는 어떻게 쓰레기 데이터를 유효한 데이터로 변환할까요?
작성자: Zeo Zhang
출처: 체인뉴스ChainNews
텐센트 창립자 마화텅은 2017년 "스마트 시대의 진입" 중국(선전) IT 리더 정상 회담에서 다음과 같이 털어놓았다:
현재 많은 대데이터는 쓰레기 데이터입니다. 왜냐하면 라벨이 없기 때문에 아무리 좋은 알고리즘을 사용해도 결과를 도출할 수 없습니다. 데이터 정제와 라벨링의 난이도가 매우 높아, 우리는 심지어 많은 인력을 소모해 먼저 데이터를 정제한 후 AI가 학습하도록 해야 합니다.
이 한마디는 인공지능 발전의 난점을 드러냅니다. 인터넷 컴퓨터가 수십 년 동안 반복된 후, 알고리즘과 계산 능력의 축적은 인공지능을 새로운 단계로 끌어올렸지만, 고품질의 유효한 데이터 부족이 인공지능 발전의 중요한 제약 요인 중 하나가 되었습니다. 이 문제를 해결하기 위해, 테스트넷이 안정적으로 운영된 지 1년이 된 AI 데이터의 분산 저장 프로토콜 EpiK Protocol은 블록체인과 결합한 해결책을 제시했습니다.
2021년 8월 15일, 테스트넷이 안정적으로 운영된 지 1년이 된 AI 데이터의 분산 저장 프로토콜 EpiK Protocol이 공식적으로 메인넷에上线됩니다. 데이터 라벨링, 분산 저장 및 데이터 응용 기능을 처음으로 통합한 프로젝트로서, EpiK Protocol은 시장의 유효 데이터 부족 문제를 해결하고 공동 구축, 공유 및 공익을 위한 AI 데이터의 분산 저장 프로토콜을 구축하려고 합니다.
왜 유효한 데이터가 부족한가?
한편, 플랫폼은 허위 데이터 조작 행위를 묵인하거나 심지어 장려하여 쓸모없는 데이터가 만연하게 됩니다.
전통적인 인터넷 산업에서 데이터 조작 현상은 흔히 발생합니다: 새로 개설된 온라인 상점의 90% 이상이 고객 유치를 위해 주문 조작을 선택합니다; 구독자 수가 백만을 넘는 위챗 대형 계정도 종종 광고 고객의 데이터 요구를 충족하기 위해 조회 수를 조작합니다; 더 나아가, 어떤 여행 플랫폼은 기계와 인력을 결합하여 수천만 개의 사용자 리뷰를 위조하여 사용자에게 혼란을 주고 제품에 대한 실제 평가에 영향을 미쳤습니다.
공개, 투명성 및 블록체인 상의 추적 가능성을 자랑하는 블록체인 산업에서도 데이터 조작 현상은 여전히 드물지 않습니다. 분산 저장 분야의 스타 프로젝트인 Filecoin도 "무효 데이터" 의혹에 휘말린 적이 있습니다: Filecoin 네트워크가 처음 출시되었을 때, 높은 채굴 수익이 많은 채굴자를 유치했으며, 일부 채굴자는 외부 프로그램을 이용해 가상 데이터를 주입하거나 가치 없는 쓰레기 데이터를 포장했습니다.
Filecoin의 저장 계산 능력이 급격히 증가하면서 저장된 데이터 양이 단기간에 폭증했습니다. 게다가 Filecoin 네트워크는 처음에 저장된 데이터를 구별할 수 없었고, 실제 유효 데이터는 극히 적어 많은 물리적 저장이 낭비되었으며, 이는 전체 Filecoin 생태계 발전에 부정적인 영향을 미쳤습니다.
다른 한편으로, 데이터 처리 비용이 높아 대부분의 인공지능이 감당하기 힘듭니다.
잘 알려진 바와 같이, 인공지능은 지속적인 심층 학습이 필요하며, 이는 방대한 데이터 양을 지원해야 합니다.
방대한 사용자 군체가 매일 인터넷에서 활동하며 복잡한 데이터를 생성합니다. 그러나 이러한 데이터는 직접 사용할 수 없습니다. 인공지능의 심층 학습은 데이터 세트의 획득, 데이터 라벨링 등을 필요로 하며, 이 중 데이터 라벨링은 막대한 인건비를 초래합니다.
광범위하게 심층 학습 네트워크를 적용하려면 대량의 라벨링된 데이터가 필요하지만, 대데이터 시대에는 방대한 데이터가 존재하지만, 절대 다수는 라벨링되지 않은 데이터입니다. 이러한 훈련 데이터의 라벨링은 인위적으로 이루어져야 합니다.
데이터 품질 요구가 높을수록 데이터 라벨링의 요구는 더욱 세밀해지며, 라벨링 인력의 자질과 전문 지식에 대한 요구도 높아지고, 그에 따라 비용도 증가합니다.
오랫동안 이러한 데이터는 전문 데이터 라벨링 회사(예: Amazon Mechanical)에 의해 가공 처리되어 인공지능 등 데이터 요구 분야의 발전에 사용되었습니다. 그러나 사용자-데이터 처리 회사-데이터 요구자의 삼자 협력으로 인해 가치 있는 데이터의 획득 비용이 매우 높습니다.
라벨링, 저장, 판매: EpiK Protocol의 원스톱 데이터 서비스
EpiK Protocol 생태계는 분야 전문가, 보상 사냥꾼, 데이터 기업 세 가지 역할을 도입하여 탈중앙화된 대규모 공동 구축 및 공유 공익 AI 데이터 저장 프로토콜을 구축하는 데 전념하고 있습니다. 탈중앙화 저장 기술 IPFS, 탈중앙화 자치 조직 DAO 및 토큰 경제 모델을 통해, 전 세계 커뮤니티 구성원들이 인류의 각 분야 지식을 정리하여 사용할 수 있는 AI 데이터로 만들고, 이 인류의 영원한 지식 저장소를 지속적으로 업데이트하도록 조직하고 장려합니다.
데이터 라벨링 측면에서, EpiK Protocol은 C단 사용자와 연결하여 AI 데이터 라벨링 시스템을 출시합니다.
"분야 전문가"는 다양한 분야의 AI 데이터 형식을 설계하고 데이터 라벨링 작업을 게시합니다; 누구나 "보상 사냥꾼"으로 등록하여 데이터 라벨링에 참여하고 AI 선생님이 되어 EPK 토큰 보상을 받을 수 있습니다.
데이터 라벨링을 완료한 후, "보상 사냥꾼"은 처리된 데이터를 반환하고, "분야 전문가"는 자신이 담당하는 분야의 AI 데이터를 검수하여 EPK 토큰 보상을 받습니다. 또한, "분야 전문가"는 데이터 결과에 따라 AI 데이터 형식을 최적화하며, 선순환을 통해 데이터 품질이 지속적으로 향상됩니다.
데이터 저장 측면에서, EpiK Protocol은 AI 데이터 저장 시스템을 출시합니다.
라벨링을 완료하고 검수를 통과한 데이터는 "분야 전문가"가 AI 데이터 저장 시스템에 업로드하여 분산 저장되며, 데이터 저장에 참여하는 장치도 EPK 토큰 보상을 받을 수 있습니다.
데이터 판매 측면에서, 데이터 기업은 EPK를 스테이킹하여 데이터에 접근하고 AI 데이터 저장 시스템에서 유효 데이터를 유료로 다운로드할 수 있습니다.
EpiK Protocol의 AI 데이터 라벨링 시스템은 C단 사용자에게 직접 제공되어 중간 데이터 라벨링 회사의 존재를 없애고 데이터 처리 흐름의 각 단계를 간소화하므로 비용이 더 낮습니다. 사용 가능한 AI 음성 방언 데이터의 경우, 전통 시장에서의 사용 가능한 데이터 비용은 약 12위안인 반면, EpiK Protocol 시스템에서는 약 2위안으로 전통 시장의 1/6입니다.
더 중요한 것은, EpiK Protocol 시스템에 다양한 분야의 "분야 전문가"가 데이터 관리를 담당하므로, EpiK Protocol 시스템에서 생성된 유효 데이터가 다양한 AI 분야의 데이터 요구에 더 정확하게 부합할 수 있다는 점입니다.
B단, C단 및 산업 전문가의 협력 경제 모델
현재 분산 저장이 주로 B단 데이터 저장 서비스의 상업 모델을 중심으로 이루어지는 것과 달리, EpiK Protocol은 B단 기업, C단 사용자 및 분야 전문가가 협력하는 탈중앙화 AI 데이터 저장 프로토콜로, 비용 통제, 수익 증대 및 서비스 경험 측면에서 중앙 집중형 인터넷 거대 기업과 견줄 수 있는 능력을 가지고 있습니다.
C단 사용자: 더 낮은 데이터 라벨링 장벽
EpiK Protocol은 C단 사용자를 위해 AI 데이터 수집 애플리케이션 "지식 대륙"을 개발하여 데이터 라벨링 장벽을 낮추고 재미를 높였습니다. 만화 같은 인터페이스와 간결한 레이아웃은 데이터 라벨링이라는 지루하고 복잡한 작업을 재미있는 게임으로 바꾸어, 게임화된 형식을 통해 전 세계 커뮤니티 구성원들이 대규모 개방 AI 데이터베이스를 공동 구축하도록 조직합니다.
모든 산업은 "지식 대륙"에서 AI 데이터 유형을 생성할 수 있으며, 금융, 의약, 법률, 사회, 전자상거래 등 다양한 분야가 포함됩니다. 앞으로 지식 대륙의 발전과 활용에 따라 데이터 수요가 있는 기업들은 이곳에서 공동 협력하여 데이터를 수집, 정리 및 처리할 수 있습니다.
또한, EpiK Protocol의 라벨링 효율성은 더 높습니다. AI 데이터 라벨링 시스템이 운영된 지 3주 동안, EpiK Protocol은 17272개의 유효 데이터를 라벨링했으며, 데이터 지표가 완전하고 각 데이터는 최대 10회 인력 검증을 받았습니다. 전통적인 라벨링 방식과 비교할 때, EpiK Protocol의 라벨링 효율성은 거의 10배 높습니다.
가장 중요한 것은, EpiK Protocol 데이터 라벨링에 참여하는 사용자가 더 높은 수익을 얻을 수 있다는 점입니다. 전통 데이터 라벨링 모델에서 데이터 처리자는 단순한 인력 노동력으로, 데이터 배당권을 가지지 않습니다. 그러나 EpiK Protocol에서는 데이터에 기여함으로써 얻는 EPK는 실제로 데이터의 지분을 얻는 것이며, 후속 사용 과정에서 발생하는 수익 배당을 공유합니다. 후에 데이터 수요가 증가할수록 EPK 수요도 높아지고, EPK는 가치가 상승하여 EPK 보유자는 이익을 얻을 수 있습니다.
B단 사용자: 유효 데이터에 대한 인센티브
EpiK Protocol AI 데이터 저장 시스템은 고전적인 1 + 3 구성(1 Deamon + 3 Miners, 8코어 16G, 250G SSD, 3T HDD, 15M 대역폭)을 채택합니다. Filecoin과 비교할 때, EpiK Protocol AI 데이터 저장 시스템의 참여 출블 최소 계산 능력은 0이며, 저장은 무료이고, 특정 노드를 지정할 필요가 없으며 기본적으로 무한한 수량과 무한한 시간으로 각 대기 저장 장치를 충분히 활용할 수 있습니다.
가장 중요한 것은, Filecoin은 쓸모없는 데이터를 저장해도 계산 능력을 얻을 수 있지만, EpiK Protocol 저장 시스템에서는 "분야 전문가"가 검증한 데이터만 계산 능력을 얻을 수 있습니다. 이는 데이터의 높은 품질을 보장할 뿐만 아니라, 무효 데이터가 저장 공간을 낭비하는 부정적인 영향을 더욱 억제합니다.
프로젝트 팀
EpiK Protocol은 업계 최고의 자문과 실력 있는 투자 기관을 보유하고 있습니다. 저명한 AI 과학자이자 SigularityNET 창립자, 세계 최초의 로봇 시민 소피아의 아버지인 수석 과학자 벤 괴르첼이 EPIK 명식 프로토콜 자문으로 활동하며 EPIK의 유럽 및 미국 데이터 시장 진출을 지원하고 고품질 AI 데이터 생태계를 구축하는 데 기여하고 있습니다.
자금 조달 측면에서, EpiK Protocol은 FBG Capital, JACKDAW, 1475, ChainUp Capital, 7 O'clock Capital 등 기관의 주목을 받아 AI 데이터의 분산 저장이 새로운 동력으로 대중의 시야에 들어오도록 지원하고 있습니다.
메인넷이 곧 출시됩니다
팀의 최신 소식에 따르면, EpiK "메인넷 1.0 로제타"가 2021년 8월 15일 정오 12시에 공식 출시됩니다. 이 시점은 EpiK 테스트넷이 출시된 지 1주년이 되는 순간입니다. 현재 테스트넷 5.0의 측정 노드는 6만 개를 초과하며 안정적으로 블록을 생성하고 있습니다.
메인넷이 다가오면서, 채굴도 EpiK Protocol 사용자들의 관심사 중 하나가 되었습니다. EpiK Protocol 생태계의 인센티브 토큰인 EPK의 총 발행량은 10억이며, 구체적인 분배 규칙은 다음과 같습니다:
- 창세 팀: 5%, 90일마다 1/16 해제;
- 재단: 5%, 90일마다 1/4 해제;
- 투자자: 20%, 90일마다 1/7 해제;
- 커뮤니티: 70%, 블록 생성 속도는 90일마다 감소하며, 4년 동안 반감되고, 50년 동안 완전히 해제됩니다.
EpiK Protocol은 AI 데이터 라벨링과 AI 데이터 저장 두 가지 시스템을 보유하고 있으며, 이는 두 가지 주요 참여 방식을 대응합니다:
첫 번째 유형은 AI 데이터 라벨링에 참여하여 EPK 보상 사냥꾼이 되는 것입니다. 여유 시간을 활용하여 다양한 AI 분야 데이터를 라벨링하고, 작업을 완료할수록 EPK 수익이 증가합니다. 문제에 성실히 답변하면 지식 배지 NFT를 획득할 기회도 있으며, 후속적으로 NFT를 통해 EPK 에어드랍 활동에 참여할 수 있습니다.
두 번째 유형은 AI 데이터 저장에 참여하여 EPK 저장 노드가 되는 것입니다. 유휴 저장 장치를 활용하여 AI 유효 데이터를 저장할 수 있으며, 각 저장 노드는 1000 EPK의 기본 스테이킹을 완료해야 블록 생성 권한을 가집니다. 저장 노드는 무작위로 블록 생성 기회를 얻지만, 무작위로 선택되는 확률은 성공적으로 저장된 데이터의 양과 연관되어 있습니다: 저장된 데이터가 많을수록 선택될 확률이 높아지며, 동일한 파일의 Top100 저장자는 두 배의 계산 능력을 누립니다.
"분야 전문가"가 검증한 데이터만 유효 저장으로 간주되며, 저장 노드만 계산 능력을 얻을 수 있습니다. 따라서 더 많은 유효 저장을 확보하기 위해서는 추가적인 트래픽 스테이킹을 완료해야 합니다. 1 EPK는 10 Mib 데이터에 접근하는 데 사용될 수 있으며, 10 Mib 데이터를 포장하는 데도 사용될 수 있습니다. 현재 기본 스테이킹 인출의 잠금 기간은 0일이며, 트래픽 스테이킹 인출의 잠금 기간은 3일입니다.
결론
EpiK Protocol은 분산 거버넌스 분야의 탐색을 시작했으며, 7월 20일 EpiK DAO를 발표했습니다. 분산 저장 트랙의 첫 번째 DAO 거버넌스 모델로서, 커뮤니티 사용자는 EpiK DAO를 통해 EpiK 생태계 자원의 동적 조정에 참여할 수 있으며, EpiK 커뮤니티의 지속 가능한 발전을 효과적으로 보장하고 미래에 발생할 수 있는 자원 불균형 문제를 수정할 수 있습니다.
Web 3.0 시대가 다가오면서 데이터의 중요성이 점점 더 부각되고 있습니다. EpiK Protocol은 데이터 라벨링에서 데이터 분산 저장, 기업과의 연계를 통한 데이터 응용에 이르기까지, 낮은 장벽과 높은 효율성을 갖춘 데이터 수익 공유 폐쇄 루프를 구축했습니다. 앞으로 EpiK Protocol이 어떻게 풍부한 실용 응용 시나리오를 실현할지 기대됩니다.