【信息检索与数据挖掘期末复习】(五)LanguageModel-创新互联
一个传统的语言生成模型可以用于识别或生成字符串
创新互联公司专注于波密网站建设服务及定制,我们拥有丰富的企业做网站经验。 热诚为您提供波密营销型网站建设,波密网站制作、波密网页设计、波密网站官网定制、成都微信小程序服务,打造波密网络公司原创品牌,更为您提供波密网站排名全网营销落地服务。我们可以将有穷自动机看作是一种确定性的语言模型
基本模型:每一个文档都是通过一个像这样的自动机生成的,只不过这种自动机是有概率的
一种最简单的语言模型等价于一个概率有穷自动机,该自动机仅仅由一个节点组成,它也只有一个生成不同词项的概率分布
- STOP 并不是一个词,它是一个结束符
eg:
可以看到,对于该查询,
P
(
q
u
e
r
y
∣
M
d
1
)
<
P
(
q
u
e
r
y
∣
M
d
2
)
P(query|M_{d1})< P(query|Md2)
P(query∣Md1)IR中的语言模型 IR中最早使用也是最基本的语言模型是查询似然模型 每个文档都被看作一个语言模型(d ->
M
d
M_d
Md)。检索的目标是按照其与查询相关的概率
p
(
d
∣
q
)
p(d|q)
p(d∣q) 进行排序。
p
(
q
)
p(q)
p(q) 对所有文档来说是一样的,所以可以忽略
p
(
d
)
p(d)
p(d) 是先验概率,我们常常将其视为对所有文档是相同的
p
(
q
∣
d
)
p(q|d)
p(q∣d) 是文档 d 在对应语言模型下,生成 q 的概率 我们按照
p
(
d
∣
q
)
p(d|q)
p(d∣q) 排序,实际上就是按照查询似然
p
(
q
∣
d
)
p(q|d)
p(q∣d) 进行排序。 如何计算
p
(
q
∣
d
)
p(q|d)
p(q∣d) 呢? 等价于多项式朴素贝叶斯模型(基于条件独立假设) 我们可以将上式转化为 如何得到
p
(
t
∣
M
d
)
p(t|M_d)
p(t∣Md)? 在大似然估计及一元语言模型假设的情况下 问题: 解决上述两个问题的方法是平滑 不仅仅是为了避免零概率,实际上实现了词项权重计算的主要部分 想法:对非零的概率结果进行折扣,对未出现的词的概率赋予一定的值 在一般的参照概率分布中,文档中未出现的查询项都可能在查询中出现,它的概率在某种程度上接近但不可能超过整个文档集中偶然出现的概率。 也就是说,若
t
f
t
,
d
=
0
tf_{t,d} = 0
tft,d=0,那么 $\hat{P}\left(t \mid M_{d}\right) \le \frac{\mathrm{cf}_{t}}{T} \$ 将基于文档的多项式分布和基于全部文档集估计出的多项式分布相混合,这类模型称为线性插值语言模型
M
c
M_c
Mc 是基于全部文档集构造的语言模型 如何设置正确的
λ
\lambda
λ 是获得良好性能的关键 上面是对一个词的平滑,对整个查询的平滑就是乘积 向量空间模型是基于相似度的,是几何 / 线性代数的概念。其余两个都是基于概率论的
t
f
tf
tf在三个模型中都用了
d
f
df
df
c
f
cf
cf 长度归一化 理论基础的对比,使用指标的对比,长度归一化的对比 你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧
Jelinek-Mercer 平滑
两种平滑的对比
向量空间 VS BM25 VS LM
分享标题:【信息检索与数据挖掘期末复习】(五)LanguageModel-创新互联
标题URL:http://scjbc.cn/article/dchsij.html