<div dir="ltr">I use xxhash <a href="https://github.com/Cyan4973/xxHash">https://github.com/Cyan4973/xxHash</a> to do hashes...  much faster.</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Jun 18, 2019 at 7:18 AM Benjamin Redling <<a href="mailto:benjamin.rampe@uni-jena.de">benjamin.rampe@uni-jena.de</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">You mean like a COW filesystem with end-to-end checksums were you can<br>
send snapshots and don't care to much about MD5?<br>
<br>
I looked it up. Spectrum Scale fka. GPFS has end-to-end checksums,<br>
(global) snapshots and mmapplypolicy to get the list of files to backup<br>
-- at least Commvault according to their documentation is leveraging it<br>
to get the changed files.<br>
<br>
Know I wonder were that "theory" doesn't match practice...<br>
<br>
Over and out.<br>
<br>
On 17.06.19 16:39, Michael Di Domenico wrote:<br>
> rsync on 10PB sounds painful.  i haven't used GPFS in a very long<br>
> time, so i might have a gap in knowledge.  but i would be surprised if<br>
> GPFS doesn't have a changelog, where you can watch the files that<br>
> changed through the day and only copy the ones that did?  much like<br>
> what robinhood does for lustre.<br>
> <br>
> On Mon, Jun 17, 2019 at 9:44 AM Bill Wichser <<a href="mailto:bill@princeton.edu" target="_blank">bill@princeton.edu</a>> wrote:<br>
>><br>
>> We have moved to a rsync disk backup system, from TSM tape, in order to<br>
>> have a DR for our 10 PB GPFS filesystem.  We looked at a lot of options<br>
>> but here we are.<br>
>><br>
>> md5 checksums take a lot of compute time with huge files and even with<br>
>> millions of smaller ones.  The bulk of the time for running rsync is<br>
>> spent in computing the source and destination checksums and we'd like to<br>
>> alleviate that pain of a cryptographic algorithm.<br>
>><br>
>> Googling around, I found no mention of using a technique like this to<br>
>> improve rsync performance.  I did find reference to a few hashing<br>
>> algorithms though which could certainly work here (xxhash, murmurhash,<br>
>> sbox, cityhash64).<br>
>><br>
>> Rsync has certainly been around for a few years!  We are going to pursue<br>
>> changing the current checksum algorithm and using something much faster.<br>
>>   If anyone has done this already and would like to share their<br>
>> experiences that would be wonderful. Ideally this could be some optional<br>
>> plugin for rsync where users could choose which checksummer to use.<br>
>><br>
>> Bill<br>
>> _______________________________________________<br>
>> Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
>> To change your subscription (digest mode or unsubscribe) visit <a href="https://beowulf.org/cgi-bin/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">https://beowulf.org/cgi-bin/mailman/listinfo/beowulf</a><br>
> _______________________________________________<br>
> Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
> To change your subscription (digest mode or unsubscribe) visit <a href="https://beowulf.org/cgi-bin/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">https://beowulf.org/cgi-bin/mailman/listinfo/beowulf</a><br>
> <br>
<br>
<br>
-- <br>
FSU Jena | JULIELab.de/Staff/Redling<br>
☎ +49 3641 9 44323<br>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="https://beowulf.org/cgi-bin/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">https://beowulf.org/cgi-bin/mailman/listinfo/beowulf</a><br>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature"><div dir="ltr">Dr Stuart Midgley<br><a href="mailto:sdm900@gmail.com" target="_blank">sdm900@gmail.com</a></div></div>