Flesh out hammer data dedup
authoraggelos <aggelos@web>
Sat, 13 Mar 2010 13:54:48 +0000 (05:54 -0800)
committerCharlie <root@leaf.dragonflybsd.org>
Sat, 13 Mar 2010 13:54:48 +0000 (05:54 -0800)
docs/developer/gsoc2010/index.mdwn

index e8820d1..4ad9d52 100644 (file)
@@ -34,11 +34,17 @@ Meta information:
 ---
 
 ##### HAMMER Data dedup
-* Add a data de-duplication mechanism to HAMMER.
 
-* Potential data matches using CRCs during pruning runs,
-  verify duplicate data, collapse the B-Tree reference,
-  and account for the additional ref in the allocator.
+The HAMMER filesystem is very efficient in sharing data between its fine-grained
+snapshots, but when you copy (or otherwise duplicate) a file or directory tree, the data
+is no longer shared. This is suboptimal because then we make poor use of disk space
+and the same data gets cached multiple times wasting precious RAM space.
+
+The goal of this project is to add a data de-duplication mechanism to the HAMMER
+filesystem. A reasonable approach would be to detect potential data matches using
+CRCs during pruning runs. Then you could verify there is actual duplication of data
+(i.e. the match is not a false positive), collapse the B-Tree reference and account for the
+additional reference in the allocator.
 
 Meta information: