클라우드 스토리지 시스템에서 단일 지점 장애란 무엇인가요?
단일 지점 실패(SPOF, Single Point of Failure)란 무엇인가? 정의상 단일 지점 실패는 회로 또는 시스템의 설계, 구현 또는 구성 결함으로 인해 발생하는 잠재적 위험을 의미합니다. 즉, SPOF는 전체 시스템이 중단될 수 있는 하나의 고장을 의미합니다.
데이터 저장 시스템에서의 단일 지점 실패란 무엇인가?
데이터 저장 시스템에서의 단일 지점 실패는 시스템의 한 요소, 구성 요소 또는 부분이 고장나는 것으로 이해할 수 있으며, 이 고장은 전체 시스템의 마비를 초래합니다. 일반적으로 몇 가지 상황이 있습니다:
- 한 저장 장치에 전원이 하나만 있는 경우, 이는 단일 지점 실패입니다. 전원이 고장나면, 전체 장치가 꺼지고 데이터에 접근할 수 없습니다.
- 마찬가지로, 저장 헤드 유닛/저장 컨트롤러가 하나만 있는 경우, 그 고장은 전체 데이터 저장 시스템을 파괴합니다.
- 데이터 저장 시스템에 RAID 또는 삭제 인코딩이 없는 경우에도 단일 지점 실패가 발생할 수 있습니다.
- 드라이브가 고장나면, 특정 드라이브의 데이터에 접근할 수 없게 되어 중단이 발생합니다.
클라우드 저장 시스템에서 단일 지점 실패가 존재하는 이유는 무엇인가?
데이터 저장 시스템의 단일 지점 실패는 일반적으로 하드웨어 장치에서 발생하는 것처럼 들립니다. 그러나 클라우드 저장/분산 저장의 경우, 단일 지점 실패가 여전히 존재하는가? 그로 인한 영향은 얼마나 심각한가요?
중앙 집중식 클라우드 저장 서비스 제공업체는 종종 단일 데이터 센터 고장 위험이 있다고 보도됩니다. 이는 클라우드 저장 서비스가 클라우드 호스팅 서비스와 마찬가지로 개별 또는 일부 데이터 센터에 집중되어 있으며, 클라우드 저장 서비스를 사용할 때 그 중 하나의 데이터 센터를 선택해야 하기 때문입니다. 데이터가 있는 데이터 센터에서 전력 또는 네트워크 고장이 발생하면 정상 서비스에 영향을 미칩니다.
그렇다면 중앙 집중식 클라우드 서비스 제공업체의 단일 지점 실패 빈발 문제를 어떻게 해결할 수 있을까요? 단일 지점 실패를 해결하는 방법은 "중복"입니다. 주요 서버는 클러스터로 중복되어야 하며, 네트워크 연결은 다중 경로로 중복되어야 하고, 저장은 미러링 또는 RAID 중복을 통해 이루어져야 하며, 전체 데이터 센터는 재해 복구 및 이중 활성화를 통해 중복되어야 합니다.
부인할 수 없는 것은, 주요 중앙 집중식 클라우드 서비스 제공업체가 클라우드 저장 시장을 차지하고 있기 때문에 서로 간에 기술 "성벽"과 상업적 장벽이 존재하여 사용자의 데이터가 "클라우드" 간에 복사되기 어렵다는 점입니다. 각자 독립적으로 운영되는 데이터 센터는 데이터가 서로 다른 클라우드 간에 스냅샷이나 복사를 허용하지 않습니다. 따라서 중앙 집중식 클라우드 저장의 상업 모델 하에서 사용자가 사용하는 "클라우드"에 문제가 발생하면 다른 "클라우드"가 즉시 인수하고 처리할 수 없습니다. 단일 지점 실패로 인한 위험은 여전히 중앙 집중적으로 처리되고 통제되며, 사용자는 자신이 선택한 클라우드가 고장 나지 않기를 바라야 하며, 더 신뢰할 수 있는 해결책은 없습니다.
탈중앙화 클라우드 저장이 단일 지점 실패를 해결하는 방법
탈중앙화 클라우드 저장은 그 자체의 분산 구조 덕분에 중앙 집중식 단일 지점 실패 문제를 상당 부분 피할 수 있습니다. 현재의 분산 저장 시스템에서, Filecoin, Arweave, Storj 등을 예로 들면, 유휴 저장 자원을 가진 사용자는 저장 네트워크의 일원이 될 수 있으며, 저장 공간을 임대하여 일정한 보상을 받을 수 있습니다. 각 프로젝트는 고유한 특징을 가지고 있지만, 단일 지점 실패 문제에 있어서는 분산의 자연스러운 장점 외에 더 많은 혁신 기술을 보여주지 못했습니다. 예를 들어, P2P 저장 주문 서비스를 채택하는 경우, 단일 지점 실패를 방지하기 위해 네트워크가 여러 저장 제공업체와 거래를 성사시켜 다중 복제를 실현해야 합니다.
CESS는 안전하고 효율적이며 오픈 소스이며 확장 가능한 탈중앙화 클라우드 저장 네트워크로서, 그 분산 구조는 자연스럽게 단일 지점 실패 문제를 피합니다. CESS는 네트워크와 저장 모두 분산되어 있습니다. 다른 탈중앙화 저장 프로젝트와 비교할 때, CESS의 차별점은 다중 복구 가능한 저장 증명 메커니즘( PoDR²)을 도입한 것입니다. 우리는 두 가지 측면에서 이 저장 증명이 단일 지점 실패와 재해 복구 능력에 대한 장점을 분석합니다:
- 다중 복제
PoDR²는 제로 트러스트 데이터 백업 및 복구 증명 알고리즘입니다. 저장 데이터는 암호화 처리 후 조각으로 나누어 여러 광부 노드에 무작위로 전송됩니다. PoDR² 메커니즘 하에서는 기본적으로 세 개의 복제가 생성됩니다. 물론 시스템은 사용자가 복제 수를 사용자 정의할 수 있도록 지원합니다. 동형 서명 메커니즘을 활용하여 저장 광부가 CESS 시스템에서 지정한 또는 사용자가 지정한 데이터 복제 수를 정확히 저장했는지 확인합니다. 물론 전통적인 중앙 집중식 클라우드 저장도 여러 번의 백업을 지원하지만, 그 백업 수는 여전히 중앙 집중식 저장 및 통제에 의해 결정되며, 다중 복제를 통해 안전성을 크게 향상시킬 수는 없습니다.
- 복구 가능성
앞서 언급한 "중복"이 단일 지점 실패를 해결하는 방법이라고 했습니다. 그 이면에는 복사 및 복구가 있습니다. CESS의 PoDR² 메커니즘을 통해 데이터가 다중 복제 처리된 후, 중복 인코딩을 활용하여 각 데이터의 임의의 2개 블록이 손상되더라도 중복 인코딩을 통해 복구할 수 있습니다. 이어서 CESS 시스템은 각 데이터 세그먼트에 대해 보조 후속 데이터 저장 증명의 검증 매개변수를 생성하여 후속 복제 증명, 시공 증명 및 PoDR² 저장 증명에 사용합니다. 이 메커니즘에서 CESS 체인은 복제된 데이터 세그먼트를 무작위로 다양한 저장 광부에게 분배합니다. 따라서 특정 저장 광부가 데이터 삭제, 손실, 해킹 공격을 겪더라도, PoDR²는 다른 저장 광부로부터 데이터를 추출하여 검색 및 복구를 제공하여 사용자 데이터 저장의 안전성을 최대한 보호합니다.
특히 PoDR² 메커니즘 하에서 CESS 시스템은 저장 광부의 데이터를 주기적으로 검사합니다(즉, 저장 노드에 저장된 데이터가 유효한지, 존재하는지 또는 수정되었는지 확인)하여, 데이터의 진실성과 가용성을 보장합니다.
단일 지점 실패 문제를 넘어, 이는 각 시스템이 어떻게 사전에 위험을 예측하고 메커니즘을 회피하며 데이터 재해 복구 솔루션을 제공하는 능력을 반영합니다. 데이터 가용성 측면에서 볼 때, CESS의 다중 복구 가능한 저장 증명 메커니즘은 데이터 가용성을 최대한 보장합니다. 안전성 측면에서, CESS는 데이터를 조각내고, 중복시키며, 이를 저장 광부에게 분산시켜 전 세계 데이터 중복성과 복구를 실현했습니다. CESS는 탈중앙화 클라우드 저장 시스템이 직면한 단일 지점 실패 문제를 진정으로 해결하고, 데이터 보유성을 기반으로 한 다중 복구 가능한 저장 증명 메커니즘(PoDR²)을 제공하여, 동종 프로젝트보다 훨씬 뛰어난 인코딩 및 디코딩 효율성을 실현했습니다. 사용자는 데이터를 안전하게 저장할 수 있을 뿐만 아니라, 유연하고 효율적으로 데이터를 접근할 수 있습니다.