AA-Dedupe An Application-Aware Source Deduplication Approach for Cloud Backup Services in the Personal Computing Environment

2013. 10. 31. 19:37Deduplication

논문에서는 적은 오버헤드로 dedup처리량을 증가시키고 전송 효율을 향상시키 위해 AA-Dedupe application-Aware 소스 중복제거를 제시하였다.

Observation 1: 대부분의 저장 공간은 매우 작은 sub-file들이 파일로 만들어져 있다.

Implication: 이러한 파일을 위해 해시 함수를 이용하는 파일-레벨 중복 제거로 개인 컴퓨팅 환경에서 dedup 하기에 충분하다.

 

Observation 2: application level 중복 제거에서 다양한 type들이 있으면 데이터량이 많아도 상관이 없다.

Implication: 애플리케이션 기반 중복 제거는 독립적으로 중복을 각각 애플리케이션에서 제거함으로써 병행처리 할수 있어 효율향상이 된다.

 

Observation 3: SC청킹은 static application data or virtual machine disk images에서 CDC청킹 방법보다 좋은 유효성을 보여준다.

Implication: CDC-based 중복 제거가 일반적인 데이터 중복 제거에서 중복을 발견함에 있어 최고이지만, SC-based 중복 제거는 static application data or virtual machine disk images에서 높은 효율을 보여주기때문에 우선적으로 선택할수 있다.

 

Observation 4: 중복 제거의 계산 오버헤드는 중복 제거의 데이터 용량에 의해 결정된다.

Implication: 오버헤드를 감소 시키려면 청크를 사용하는것이 유일한 방법이다.

 

AA-Dedupe 주요 아이디어는 애플리케이션 인식을 기반으로 intelligent data chunking 적합한 해시함수를 사용함으로써 계산 오버헤드를 줄이고 index 유형에 따라 검색하게 되므로 검색 장애를 완하시켜준다.

그림5에서 보면 첫째로 파일크기에 따른 파일을 여과한다. 그다음 intelligent chunker 의해 여러가지 청킹에 의하여 분할된다. 분할된 청크는 같은 유형의 파일 디스크에 저장된 인덱스와 해시비교를 통해 중복 제거를 한다.

File size filter

우리의 통계에 따르면 61%되는 파일이 10KB 넘지 않는다. 작은 파일은 여과목표로 된다. 또한 이런 파일은 Whole File Chunking (WFC) 파일 기반 dedup 사용한다.

Intelligent data chunking

청킹은 데이터 중복효율에 중요한 영향을 미친다. 그래서 아래그림과 같이 파일 유형에 따라 청킹방법과 해시값을 구한다.

Hash function selection in Deduplicator

중복 제거의 대부분의 계산 오버헤드는 WFC SC fingerprinting 연산에 쓰인다. 그래서 SHA-120B Rabin hash값을 쓰며 MD516B Rabin hash값을 쓰고 WFC 12B Rabin hash값을 사용한다.

 

AA-Dedupe에서 중복 제거는 적절한 청킹방법과 해시 함수를 이용한 선택적 파일 type기반으로 만들어 졌다. 논문 너머지 부분에서는 기존의 backup시스템과의 효율비교 였다.