搜索引擎复习

Sat, 21 Feb 2026 00:00:00 +0000

信息检索核心原理

- 信息检索 IR 核心原理
- IR 的基本对象与术语
- 文档、语料、字段
- Document（文档）：检索的基本单位
- Fields（字段）：title、body、tags
- Tokenization/Analysis （分词与分析链）
- 典型分析链
- 字符过滤（去 HTML、统一全角半角、大小写）
- Tokenizer（切词：英文按空格/规则，中文依赖分词器）
- Token Filter
- stopword（停用词）
- stemming/lemmatization（词干/词形还原）
- synonym（同义词）
- ngram（前缀/模糊）
- 倒排索引相关名词
- Term（词项）：token 的规范化结果
- Posting list：某 term 出现在那些 doc 中的列表
- DocID：文档编号
- tf(term frequency)：该词在 doc 内出现的次数
- df(document frequency)：包含该词的 doc 数
- idf(inverse document frequency)：词的区分能力
- 相关性：从 TF-IDF 到 BM25
- TF-IDF 的直觉
- 核心思想
- 一个词在文档里出现的越多（tf 越大）-> 越相关
- 一个词在整个语料越稀有（df 越小/idf 越大）-> 越能区分文档
- tf = count(t in d)
- idf = log(N/df)
- TF-IDF 容易出现两类不稳
- tf 线性增长导致刷词得分优势
- 文档长短差异导致长文天然占优势
- BM25：工程默认答案
- 核心思想
- tf 饱和：词出现 1->2 词提升很大，20->21 词提升小（防刷词）
- 长度归一化：长文不会因为词多天然优势
- 得分计算
- score(d, q) = Σ[ idf(t) * ( tf*(k1+1) / ( tf + k1*(1 - b + b*|d|/avgdl ))) ]
- k1：控制 tf 饱和速度
- b：控制长度归一化强度
- |d|/avgdl：文档长度与平均长度的比例
- 字段权重
- 现实检索几乎都是多字段：title/body/tags
- 常见做法：对字段分别计算 BM25，再加权组合
- 查询模型
- 布尔检索
- AND/OR/NOT，精准过滤
- 工程上常用于 filter（不参与打分）而非主排序）
- filter 可缓存，query 参与打分不易缓存
- 向量空间模型
- doc/query 看作高维向量，维度是 term，相似度用 cosine
- sim = cos(q,d)
- 概率检索
- BM25 术语概率检索思想的经典落地

搜索引擎 on 安橙的博客

搜索引擎复习

信息检索核心原理

索引结构与写入链路