Удаление дубликатов файлов с помощью Python

Python Программирование и разработка

В этой статье мы собираемся использовать концепцию, называемую хешированием, для идентификации уникальных файлов и удаления повторяющихся файлов с помощью Python.

Требуемые модули:

  • tkinter: нам нужно дать нам возможность выбрать папку, в которой мы хотим выполнить этот процесс очистки, поэтому каждый раз, когда мы запускаем код, мы должны получать диалоговое окно файла для выбора папки, и мы собираемся использовать библиотеку Tkinter. В этой библиотеке у нас есть метод «askdirectory», который можно использовать, чтобы попросить пользователя выбрать каталог. Чтобы установить эту библиотеку, введите следующую команду в IDE/терминале.
pip install tk
  • hashlib: чтобы использовать хеш-функцию md5, нам нужна библиотека hashlib. Чтобы установить эту библиотеку, введите следующую команду в IDE/терминале.
pip install hashlib
  • os: этот модуль помогает нам удалять дубликаты файлов, предоставляя функции для извлечения содержимого файлов, удаления файлов и т. д. Чтобы установить эту библиотеку, введите следующую команду в IDE/терминал. Модуль os является частью стандартной библиотеки Python.

Подход:

  • Мы попросим пользователя выбрать папку, и мы будем искать в этом зонтичном каталоге все повторяющиеся и избыточные файлы.
  • Мы возьмем содержимое каждого файла и пропустим его через хеш-функцию, которая сгенерирует уникальную строку, соответствующую уникальному файлу.
  • Хэш-строка будет иметь фиксированный размер, и размер будет зависеть от типа используемой хэш-функции. У нас есть много хеш-функций, таких как md5, SHA1 или SHA 256 и многие другие. В этой статье мы будем использовать хэш md5, и он всегда будет создавать хэш-значение длиной 32 символа, независимо от размера файла и типа файла.
  • Чтобы обнаружить дубликаты файлов, а затем удалить эти файлы, мы будем поддерживать словарь Python.
  • Мы собираемся передать хеш-строку каждого файла внутри каждой подпапки корневого каталога в качестве ключей словаря и путей к файлам в качестве значений словаря.
  • Каждый раз при вставке новой файловой записи мы будем проверять, не появляются ли в нашем словаре повторяющиеся записи. Если мы найдем какой-либо дубликат файла, мы возьмем путь к файлу и удалим этот файл.
Читайте также:  Поиск по списку объектов в Python

Поэтапная реализация

Шаг 1: Импортируйте библиотеки Tkinter, os, hashlib и pathlib.

Python 3

from tkinter.filedialog import askdirectory
from tkinter import Tk
import os
import hashlib
from pathlib import Path

Шаг 2: Мы используем tk.withdraw, потому что мы не хотим, чтобы окно графического интерфейса tkinter появлялось на нашем экране, нам нужен только диалог файла для выбора папки. askdirectory(title=»Select a folder») эта строка кода открывает диалоговое окно на экране, через которое мы можем выбрать папку.

Python 3

Tk().withdraw()
file_path = askdirectory(title="Select a folder")

Шаг 3: Далее нам нужно перечислить все файлы в нашей корневой папке. Для этого нам нужен модуль ОС, os.walk() принимает путь к нашей корневой папке в качестве аргумента, проходит через каждый подкаталог данной ему папки и выводит список всех файлов. Эта функция возвращает список кортежей с тремя элементами. Первый элемент — это путь к этой папке, второй элемент — все подпапки внутри этой папки, а третий элемент — список всех файлов внутри этой папки.

Python 3

list_of_files = os.walk(file_path)

Шаг 4: Наша конечная цель — перечислить все файлы в каждом подкаталоге и в главном каталоге, поэтому мы запускаем цикл for для всех файлов. Нам нужно открыть каждый файл и преобразовать его в хеш-строку, для этого мы определим переменную с именем hash_file. Хэш-функция md5 преобразует все содержимое нашего файла в хэш md5. Чтобы открыть файл, нам нужно сначала указать путь к нему, поэтому здесь мы используем другую функцию в модуле os, которая называется os.path.join(). Итак, мы скажем открыть файл, используя путь к файлу в режиме чтения. Это преобразует наш файл в хэш md5. Чтобы получить хеш-строку, мы будем использовать метод hexdigest().

Python 3

for root, folders, files in list_of_files:
    for file in files:
        file_path = Path(os.path.join(root, file))
        Hash_file = hashlib.md5(open(
          file_path,'rb').read()).hexdigest()

Шаг 5: Чтобы обнаружить дубликаты файлов, мы собираемся определить пустой словарь. Мы добавим элементы в этот словарь, и ключом каждого элемента будет хэш файла, а значением будет путь к файлу. Если хэш файла уже был добавлен в этот уникальный словарь файлов, это означает, что мы нашли дубликат файла, и нам нужно удалить этот файл, поэтому мы просто удалим этот файл с помощью функции os.remove(). Если его там нет, мы добавим его в этот словарь.

Python3

unique_files = dict()
if Hash_file not in unique_files:
    unique_files[Hash_file] = file_path
else:
    os.remove(file_path)
    print(f"{file_path} has been deleted")

Ниже приведена полная реализация:

Python3

from tkinter.filedialog import askdirectory
 
# Importing required libraries.
from tkinter import Tk
import os
import hashlib
from pathlib import Path
 
# We don't want the GUI window of
# tkinter to be appearing on our screen
Tk().withdraw()
 
# Dialog box for selecting a folder.
file_path = askdirectory(title="Select a folder")
 
# Listing out all the files
# inside our root folder.
list_of_files = os.walk(file_path)
 
# In order to detect the duplicate
# files we are going to define an empty dictionary.
unique_files = dict()
 
for root, folders, files in list_of_files:
 
    # Running a for loop on all the files
    for file in files:
 
        # Finding complete file path
        file_path = Path(os.path.join(root, file))
 
        # Converting all the content of
        # our file into md5 hash.
        Hash_file = hashlib.md5(open(file_path, 'rb').read()).hexdigest()
 
        # If file hash has already #
        # been added we'll simply delete that file
        if Hash_file not in unique_files:
            unique_files[Hash_file] = file_path
        else:
            os.remove(file_path)
            print(f"{file_path} has been deleted")
Оцените статью
bestprogrammer.ru
Добавить комментарий