2013. 10. 31. 19:37ㆍDeduplication
이 논문에서는 적은 오버헤드로 dedup처리량을 증가시키고 전송 효율을 향상시키 위해 AA-Dedupe인 application-Aware 소스 중복제거를 제시하였다.
Observation 1: 대부분의 저장 공간은 매우 작은 sub-file들이 큰 파일로 만들어져 있다.
Implication: 이러한 큰 파일을 위해 해시 함수를 이용하는 파일-레벨 중복 제거로 개인 컴퓨팅 환경에서 dedup 하기에 충분하다.
Observation 2: application level 중복 제거에서 다양한 type들이 있으면 데이터량이 많아도 상관이 없다.
Implication: 애플리케이션 기반 중복 제거는 독립적으로 중복을 각각 애플리케이션에서 제거함으로써 병행처리 할수 있어 효율향상이 된다.
Observation 3: SC청킹은 static application data or virtual machine disk images에서 CDC청킹 방법보다 더 좋은 유효성을 보여준다.
Implication: CDC-based 중복 제거가 일반적인 데이터 중복 제거에서 중복을 발견함에 있어 최고이지만, SC-based 중복 제거는 static application data or virtual machine disk images에서 높은 효율을 보여주기때문에 우선적으로 선택할수 있다.
Observation 4: 중복 제거의 계산 오버헤드는 중복 제거의 데이터 용량에 의해 결정된다.
Implication: 오버헤드를 감소 시키려면 큰 청크를 사용하는것이 유일한 방법이다.
AA-Dedupe의 주요 아이디어는 애플리케이션 인식을 기반으로 intelligent data chunking와 적합한 해시함수를 사용함으로써 계산 오버헤드를 줄이고 index도 유형에 따라 검색하게 되므로 검색 장애를 완하시켜준다.
그림5에서 보면 첫째로 파일크기에 따른 파일을 여과한다. 그다음 intelligent chunker로 의해 여러가지 청킹에 의하여 분할된다. 분할된 청크는 같은 유형의 파일 디스크에 저장된 인덱스와 해시비교를 통해 중복 제거를 한다.
File size filter
우리의 통계에 따르면 61%되는 파일이 10KB를 넘지 않는다. 작은 파일은 여과목표로 된다. 또한 이런 파일은 Whole File Chunking (WFC) 파일 기반 dedup을 사용한다.
Intelligent data chunking
청킹은 데이터 중복효율에 중요한 영향을 미친다. 그래서 아래그림과 같이 파일 유형에 따라 청킹방법과 해시값을 구한다.
Hash function selection in Deduplicator
중복 제거의 대부분의 계산 오버헤드는 WFC와 SC의 fingerprinting 연산에 쓰인다. 그래서 SHA-1는20B Rabin hash값을 쓰며 MD5는16B Rabin hash값을 쓰고 WFC는 12B Rabin hash값을 사용한다.
AA-Dedupe에서 중복 제거는 적절한 청킹방법과 해시 함수를 이용한 선택적 파일 type기반으로 만들어 졌다. 논문 너머지 부분에서는 기존의 backup시스템과의 효율비교 였다.
'Deduplication' 카테고리의 다른 글
IM-Dedup: An Image Management System Based on Deduplication Applied in DWSNs (0) | 2013.10.31 |
---|---|
Deduplication기법 (0) | 2013.10.24 |
Data Deduplication Using Dynamic Chunking (0) | 2013.10.23 |
EndRE: An End-System Redundancy Elimination Service for Enterprises (0) | 2013.10.23 |
Venti : a new approach to archival storage (0) | 2013.10.23 |