本地智能文档搜索引擎,零 API 密钥

qmd Local Search

收藏 6.4k
下载 2.8k
版本 1.0.0

本地高性能文档搜索引擎,融合 BM25 关键词、向量语义与 LLM 重排序,零 API 密钥,秒级检索海量 Markdown 与代码文件

基本信息

  • 技能名称?qmd Local Search
  • 中文名称?本地智能文档搜索引擎,零 API 密钥
  • 作者?bheemreddy181
  • 分类?专业技能
  • 版本?1.0.0
  • 标签?cli, search, knowledge-base, local-llm, privacy, markdown, bm25, vector-search, reranking

使用方法

使用说明
核心用法
qmd 是一款专为本地知识库设计的全文检索工具,替代传统 find 命令实现智能文件发现。其核心工作流分为三步:

  1. 索引构建 —— 通过 qmd collection add 将文件夹注册为集合,支持 .md,.py 等自定义掩码过滤
  2. 多模检索 —— 提供三种查询模式:
  3. 内容提取 —— qmd get 支持行号定位与多文件批量获取, --json/--md 格式化输出便于下游处理
    qmd search :BM25 关键词匹配(速度优先)
    qmd vsearch :向量语义搜索(理解意图)
    qmd query :混合检索 + LLM 重排序(质量优先)
    显著优点
    全本地执行 :embedding、reranker、生成模型均自动下载到本地,无需 OpenAI/Anthropic API 密钥,彻底杜绝数据外泄风险
    检索架构先进 :BM25 + 向量 + LLM 三重排序,在学术评测框架(如 BEIR)中被验证优于单一策略
    性能优化 :针对大型目录避免 find 式的遍历挂起,索引后查询毫秒级响应
    开发者友好 :代码片段定位( --line-numbers )、YAML/JSON 结构化输出、glob 批量获取,完美适配 AI 编程助手上下文注入场景
    潜在缺点与局限
    冷启动成本 :首次运行 qmd embed 需数分钟下载 300M 参数模型并构建向量索引,GB 级文档库耗时显著
    资源占用 :embedding 与重排序模型常驻内存,低配设备(
    增量更新限制 : qmd update 需手动触发,无实时监控文件变更的守护进程机制
    格式覆盖偏科 :对 PDF、Office 等非 Markdown 二进制格式原生不支持,需前置转换
    适合人群
    隐私敏感型开发者(医疗、金融、法律领域知识库检索)
    离线环境或内网隔离场景下的技术文档管理
    需要向 LLM 注入精准上下文的 AI 编程工作流用户
    Obsidian/Logseq 等本地笔记工具的进阶检索插件替代方案
    常规风险
    模型供应链 :自动下载的 embeddinggemma-300M 、 qwen3-reranker 等模型来自第三方 HuggingFace 镜像,需校验哈希完整性防止投毒
    索引泄露 :向量索引文件(通常存储于 ~/.qmd/ )包含文档语义指纹,共享设备需加密存储
    结果幻觉 :LLM 重排序虽提升相关性,但 0.6B 参数模型对复杂查询的理解力有限,极端情况下可能过滤有效结果

标签

专业技能

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!