智能去重释放存储空间

File Deduplicator

专业技能

收藏 8k

下载 2.8k

版本 1.0.0

基于内容哈希的智能重复文件检测清理工具，支持多种检测方式与安全删除机制，适合数字囤积者释放存储空间

基本信息

技能名称?File Deduplicator
中文名称?智能去重释放存储空间
作者?michael-laffin
分类?专业技能
版本?1.0.0
标签?deduplication, storage-cleanup, file-management, disk-space, md5-hashing, data-organization, local-tool

使用方法

使用说明
核心用法
File-Deduplicator 是一款面向存储管理的重复文件清理工具，提供三层次的检测机制：内容哈希（MD5）精确识别完全相同的文件，大小比对快速筛选相似媒体文件，名称相似度捕获版本迭代产生的重复文档。支持递归目录扫描、排除模式配置（如 .git、node_modules），以及白名单保护关键目录。
主要工作流程为：扫描 → 分析 → 预览/执行。 findDuplicates 用于发现重复， removeDuplicates 执行清理，两者均支持 dryRun 模式先行验证。清理策略灵活，可保留最新/最旧/最小/最大文件，支持直接删除、移至归档或生成操作日志备查。
显著优点
检测精准：内容哈希确保 100% 精确匹配，不受重命名影响；三种方法互补覆盖不同场景
操作安全：默认非自动确认、大小阈值保护（默认 10MB）、归档替代删除、完整操作日志支持有限恢复
性能可控：批量处理（1000 文件/批次）、哈希缓存优化，百万级文件峰值内存约 200MB
配置灵活：JSON 配置持久化偏好，排除模式与目录白名单防止误扫系统关键区域
潜在局限
哈希局限：MD5 存在理论碰撞风险（实际文件场景概率极低），且无法检测内容相似但非完全一致的文件（如不同压缩率图片、轻微编辑版本）
媒体文件效率：大体积视频/RAW 照片的内容哈希较慢，建议配合大小检测或阈值跳过
恢复限制："Undo 功能"依赖操作日志，若日志丢失或超出窗口期则无法恢复；非真正文件系统级回收站机制
无内置备份：归档功能需用户指定路径，非自动云同步或版本控制集成
适合人群
数字囤积者：长期积累照片、文档、下载文件，需定期清理释放 SSD/HDD 空间
开发/运维人员：清理构建产物、重复依赖、日志归档，优化 CI/CD 缓存与备份体积
文档管理员：统一报告、合同、设计稿版本，防止 "file_v1_final_真的最终版.doc" 类混乱
常规风险
| 风险场景 | 说明 | 缓解措施 | |---------|------|---------| | 误删重要文件 | 自动确认开启 + 阈值设置不当 | 默认关闭 autoConfirm，设置合理 sizeThreshold，优先使用 dryRun | | 权限不足导致中断 | 系统目录或正在使用的文件 | 清晰错误提示，建议 sudo 或关闭占用程序后重试 | | 磁盘空间不足 | 归档模式下移动大文件至同盘 | 操作前检查可用空间，跨盘归档或先删后移 | | 哈希碰撞误报 | 不同内容产生相同 MD5 | 实际概率极低；敏感场景可二次校验文件大小或采样比对 | 该工具作为 MIT 开源的本地文件管理技能，无网络传输、无云端依赖，数据隐私风险可控。

智能去重释放存储空间

基本信息

使用方法

标签

💬 评论 (0)

发表评论