摘要:在大模型时代, 向量数据库的广泛应用推动了向量索引规模的急剧膨胀. 如何在磁盘级向量索引中高效支持大规模向量的更新操作, 并同时提供高性能的查询服务, 已成为近年来的重要研究课题. 针对当前领先算法 FreshDiskANN 在查询与更新混合负载场景中面临的查询吞吐瓶颈和极端查询延迟过高等问题, 受到日志合并思想在次级索引中的成功应用启发, 提出了一种基于LSM (log-structured merge)思想的更新友好型磁盘向量索引框架LSMDiskANN. 在继承 FreshDiskANN架构的基础上, 设计并实现了包含磁盘中间层的3层架构, 同时引入了磁盘组件搜索参数的动态确定机制以及面向合并操作删除阶段的重布局算法, 从而进一步降低查询延迟和合并过程中的 I/O 开销. 实验结果表明, 在多个经典大规模高维向量数据集上, LSMDiskANN系统查询吞吐量最高提升35.5%, 更新吞吐量最高提升14.24%, 极端查询延迟最多降低73.45%, 所提出框架和策略能够有效提升系统在混合负载场景下的整体性能与稳定性.