基于内容哈希的智能重复文件检测清理工具,支持多种检测方式与安全删除机制,适合数字囤积者释放存储空间
基本信息
- 技能名称?File Deduplicator
- 中文名称?智能去重释放存储空间
- 作者?michael-laffin
- 分类?专业技能
- 版本?1.0.0
- 标签?deduplication, storage-cleanup, file-management, disk-space, md5-hashing, data-organization, local-tool
使用方法
使用说明
核心用法
File-Deduplicator 是一款面向存储管理的重复文件清理工具,提供三层次的检测机制: 内容哈希(MD5) 精确识别完全相同的文件, 大小比对 快速筛选相似媒体文件, 名称相似度 捕获版本迭代产生的重复文档。支持递归目录扫描、排除模式配置(如 .git、node_modules),以及白名单保护关键目录。
主要工作流程为:扫描 → 分析 → 预览/执行。 findDuplicates 用于发现重复, removeDuplicates 执行清理,两者均支持 dryRun 模式先行验证。清理策略灵活,可保留最新/最旧/最小/最大文件,支持直接删除、移至归档或生成操作日志备查。
显著优点
检测精准 :内容哈希确保 100% 精确匹配,不受重命名影响;三种方法互补覆盖不同场景
操作安全 :默认非自动确认、大小阈值保护(默认 10MB)、归档替代删除、完整操作日志支持有限恢复
性能可控 :批量处理(1000 文件/批次)、哈希缓存优化,百万级文件峰值内存约 200MB
配置灵活 :JSON 配置持久化偏好,排除模式与目录白名单防止误扫系统关键区域
潜在局限
哈希局限 :MD5 存在理论碰撞风险(实际文件场景概率极低),且无法检测内容相似但非完全一致的文件(如不同压缩率图片、轻微编辑版本)
媒体文件效率 :大体积视频/RAW 照片的内容哈希较慢,建议配合大小检测或阈值跳过
恢复限制 :"Undo 功能"依赖操作日志,若日志丢失或超出窗口期则无法恢复;非真正文件系统级回收站机制
无内置备份 :归档功能需用户指定路径,非自动云同步或版本控制集成
适合人群
数字囤积者 :长期积累照片、文档、下载文件,需定期清理释放 SSD/HDD 空间
开发/运维人员 :清理构建产物、重复依赖、日志归档,优化 CI/CD 缓存与备份体积
文档管理员 :统一报告、合同、设计稿版本,防止 "file_v1_final_真的最终版.doc" 类混乱
常规风险
| 风险场景 | 说明 | 缓解措施 | |---------|------|---------| | 误删重要文件 | 自动确认开启 + 阈值设置不当 | 默认关闭 autoConfirm,设置合理 sizeThreshold,优先使用 dryRun | | 权限不足导致中断 | 系统目录或正在使用的文件 | 清晰错误提示,建议 sudo 或关闭占用程序后重试 | | 磁盘空间不足 | 归档模式下移动大文件至同盘 | 操作前检查可用空间,跨盘归档或先删后移 | | 哈希碰撞误报 | 不同内容产生相同 MD5 | 实际概率极低;敏感场景可二次校验文件大小或采样比对 | 该工具作为 MIT 开源的本地文件管理技能,无网络传输、无云端依赖,数据隐私风险可控。
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!