In großen Text- und Musikarchiven sind redundante Dubletten nicht zu vermeiden und aufgrund unterschiedlicher Dateinamen und Pfade kaum zu erkennen. Das Tool rdfind (Redundant Data Find) ist das wohl zuverlässigste Linux-Werkzeug zur Beseitigung identischer Dateien. Es ist mit gleichnamigem Paketnamen in allen Standard-Paketquellen erreichbar.
Der erste Analyseschritt ist die Größenanalyse. Alle Dateien mit nicht eindeutiger Größe erfahren im zweiten und dritten Schritt eine Binäranalyse der Kopf- und Enddaten. Alle Daten, die danach immer noch zweideutig sind, erhalten im letzten und aufwendigsten Schritt eine Checksummenprüfung. Einen Analyselauf ohne Aktion (beginnend im aktuellen Verzeichnis) starten Sie so:
rdfind -minsize 4000 .
Der hier genutzte Schalter „-minsize“ gibt eine Mindestdateigröße vor, ab der sich das Aufräumen lohnt. Das Ergebnis mit allen gefundenen Dubletten schreibt rdfind in die Datei „results.txt“ im aktuellen Verzeichnis. Diese auszuwerten und dann manuell zu löschen, ist die sicherste Vorgehensweise. Rdfind kennt aber mehrere Möglichkeiten, automatisch zu löschen. Die radikalste Option ist das Löschen aller Dubletten:
rdfind -minsize 4000 -deleteduplicates true .
Es geht aber auch sanfter:
rdfind -minsize 4000 -makesymlinks true .
Hier werden die Dubletten durch Softlinks ersetzt.

