본문 바로가기
카테고리 없음

데이터 중복제거(Data Deduplication)

by 밍사원 2024. 8. 26.
반응형

[De-duplication이란]

효율적인 대규모 데이터공간 절감을 위해 만들어진 기술로서 스토리지나 백업 솔루션에서 주로 사용되는 기능

스토리지 요구사항 비용을 크게 감소시킬 있고 증가되는 데이터를 효과적으로 관리할 있음

디스크 타입과 데이터 블록크기, 저장되는 데이터 종류에 따라 중복제거 비율이 상이함

 

 

[중복제거 방법]

중복제거 기능이 활성화 볼륨 전체 파일에 걸쳐 반복되는 패턴을 식별

서로 다른 데이터들 간에 중복되는 부분을 검출하고 기준이 되는 데이터를 제외한 나머지 데이터 위치에 포인터(Chunk) 두어 용량을 절감

 

 

[중복제거 위치에 따른 장단점]

 

 

[중복제거의 오해와 진실]

  1. 이미 중복제거가 되어 있는 데이터를 Zip등으로 압축하게 되면 스토리지에서는 새로운 데이터로 인식하여 오히려 용량이 증가한다
  2. 중복제거를 사용하면 데이터를 재작성하여 읽기/쓰기를 하기 때문에 오버헤드가 발생하고 이에 따라 IOPS 떨어질 있음
  3. 중복제거기능은 일반적인 볼륨쓰기와 다르기 때문에 포맷이 가능한 단위로 작성하고 백업 등에서는 폴더나 개체단위로 중복제거 데이터가 저장됨
  4. 단위 디스크에 중복제거의 포인터를 읽을 있는 메타데이터가 포함되어 있기 때문에 중복제거가 데이터를 다른 매체로 이동할 경우 중복제거가 풀리거나 읽을 없음
  5. 중복제거 기능은 중복해서 사용할 없음

 

 

[All Flash 환경에서의 중복제거 기능]

  1. vSAN 6.2부터 사용가능
  2. 캐시 디스크는 중복제거 기능을 없음
  1. Deduplication(중복제거) Compression(압축) 기능은 세트, 한가지 기능만 활성화 없음(vsan 7.0부터 압축만 가능)
  1. vSAN에서의 중복제거( 압축) 기능은 데이터스토어 단위가 아닌 (모든)디스크그룹 단위로 구성됨
  • 중복제거가 되어 있는 용량 디스크 장애 발생 Cluster 전체 디스크가 모든 디스크가 장애로 표시
  1. 따라서 개별교체를 진행할 없고 해당 디스크 그룹을 우선 삭제하여 디스크 교체 새로 만들어야
  2. 운용중에 중복제거 기능을 enable/disable 가능하나 disable 모든 디스크 그룹이 순차적으로 삭제, 재포맷, 재작성 되어지며 데이터가 많을수록 오버헤드가 많이 발생
  3. vSAN 데이터스토어 가용공간이 부족하면 데이터 재작성을 공간이 없기 때문에 중복제거 기능을 on/off 없음

 

https://kb.vmware.com/s/article/2147343

 

며칠 전 vSAN All Flash 모드에  대한 중요한 패치가 공개되었습니다.

 

내용은 Checksum 에러로 인해 특정한 조작이나 IO 패턴이 발생했을 경우, 가상머신에 대한 접근불가, 호스트 실패, 재동기 실패 등의 치명적인 상황이 발생한다고 합니다.

 

조건은 ESXi 6.0 Patch 4 (build number 4558694) 이상의 vSAN, 즉 vSAN 버전 6.2, 6.5, 6.6, 6.6.1의 All Flash 구성에 중복제거를 유효화했을 경우이며, KB에 의하면 즉시 수정 패치를 적용할 것을 권장하고 있습니다.

 

출처: <https://virthive.wordpress.com/tag/vsan/>

반응형