8 minute read

🔒 LocalDocDiff - 本地文档查重工具

一个完全在浏览器中运行的文档查重工具,基于 TF-IDF 和余弦相似度算法,保护您的隐私,无需上传任何文件到服务器。

🌟 特性

  • 🔒 100%本地处理 - 所有文档处理均在您的浏览器中完成
  • 🚀 无需安装 - 直接使用浏览器打开即可使用
  • 📊 智能算法 - 基于 TF-IDF + 余弦相似度算法
  • 💾 多格式导出 - 支持 HTML、JSON、TXT 格式报告
  • 🛡️ 隐私保护 - 您的文档永远不会离开您的设备
  • 📱 响应式设计 - 适配各种设备屏幕大小

📋 支持的文件格式

  • Microsoft Word 文档 (. Docx)

🚀 快速开始

在线使用

直接访问 [工具链接] 即可开始使用(将 HTML 文件在浏览器中打开)

使用方法

  1. 选择文档
    • 点击”选择文件”按钮或直接将 Word 文档拖拽到文件区域
    • 支持同时选择多个文档进行批量比较
    • 至少需要选择 2 个文档才能进行分析
  2. 设置参数
    • 相似度阈值 (0.5-0.95):设置文本相似的最低标准,推荐 0.7-0.8
    • 完全重复阈值 (0.8-0.99):设置完全重复的标准,推荐 0.95
    • 最小词数 (1-20):过滤掉过短的段落,提高分析准确性
  3. 开始分析
    • 点击”开始查重分析”按钮
    • 查看实时进度和状态
    • 等待分析完成
  4. 查看结果
    • 摘要统计:查看总体分析结果
    • 详细匹配:查看每处相似或重复的文本
    • 导出报告:保存分析结果为 HTML、JSON 或 TXT 格式

🔧 技术原理

算法流程

  1. 文本提取:从 Word 文档中提取原始文本
  2. 预处理:清洗文本、中文分词
  3. 特征提取:使用 TF-IDF 算法构建文本特征向量
  4. 相似度计算:使用余弦相似度计算文本相似度
  5. 结果分类:根据阈值将结果分为”相似”和”完全重复”

核心技术

  • TF-IDF (词频-逆文档频率):衡量词语在文档中的重要程度
  • 余弦相似度:计算文本向量之间的夹角余弦值
  • 中文文本处理:支持中文文档的智能分析和比较

🔒 隐私保护

核心承诺

  • ✅ 所有处理在浏览器中完成
  • ✅ 文档不会上传到任何服务器
  • ✅ 不会收集任何用户数据
  • ✅ 不会存储任何分析结果
  • ✅ 完全开源,代码透明

技术保障

  • 使用现代 Web 标准 API
  • 无网络请求,完全离线运行
  • 关闭页面后所有数据自动清除

📊 结果解释

相似度评分

  • 0.95-1.0:完全重复或几乎相同的内容
  • 0.7-0.95:高度相似的内容
  • 0.5-0.7:中等相似度内容
  • < 0.5:不相似的内容(默认被过滤)

结果分类

  • 完全重复:相似度 ≥ 完全重复阈值的内容
  • 相似:相似度 ≥ 相似度阈值但 < 完全重复阈值的内容

💡 使用建议

参数设置建议

  • 学术论文查重:相似度阈值 0.7,完全重复阈值 0.95
  • 代码查重:相似度阈值 0.8,完全重复阈值 0.98
  • 一般文档:相似度阈值 0.6,完全重复阈值 0.9

最佳实践

  1. 确保文档格式正确(. Docx)
  2. 根据文档类型调整阈值参数
  3. 对于长文档,适当提高最小词数以减少噪音
  4. 多次测试以找到最适合的参数组合

🛠️ 技术栈

  • 前端:纯 HTML + CSS + JavaScript
  • 文档处理:Mammoth. Js (Word 文档解析)
  • 算法:TF-IDF + 余弦相似度
  • UI 框架:原生 CSS,响应式设计

🌐 浏览器兼容性

  • ✅ Chrome 60+
  • ✅ Firefox 55+
  • ✅ Safari 11+
  • ✅ Edge 79+

📝 注意事项

已知限制

  • 仅支持. Docx 格式的 Word 文档
  • 大文档处理可能需要较长时间
  • 中文分词采用简单分词算法
  • 不支持图片、表格中的文本提取

性能优化

  • 建议单次分析文档数量不超过 20 个
  • 单个文档大小建议不超过 10 MB
  • 复杂格式可能影响提取效果

🐛 故障排除

常见问题

  1. 文件无法上传
    • 检查文件格式是否为. Docx
    • 检查浏览器是否支持 File API
  2. 分析过程卡住
    • 尝试减少同时分析的文档数量
    • 检查文档大小,过大文档可能影响性能
  3. 结果不准确
    • 调整相似度阈值参数
    • 增加最小词数设置
  4. 页面无响应
    • 刷新页面重新开始
    • 检查浏览器控制台是否有错误信息

📄 许可证

本项目采用 MIT 许可证。

👨‍💻 开发者

AsgeologeekFan
个人网站

🤝 贡献

欢迎提交 Issue 和 Pull Request 来改进这个项目!

📞 支持

如果您在使用过程中遇到问题,请:

  1. 查看本文档的故障排除部分
  2. 在 GitHub 仓库中提交 Issue
  3. 联系开发者获取帮助

重要提醒:本工具旨在辅助文档查重,结果仅供参考。对于重要的学术或商业用途,建议使用专业的查重服务进行最终确认。

最后更新:2025 年 11 月 17 日

Updated: