目录
如何获取语义信息
上下文预测任务
核心思想:通过预测上下文来学习词表示,属于自监督学习。
Word2Vec、BERT 与词嵌入的关系
词嵌入(Word Embedding)
Word2Vec → 静态词嵌入
BERT → 动态上下文词嵌入
词嵌入和位置编码的关系
通过word2vec,模型学会了什么?学会的信息对于transformer而言有什么用
1. 词的“语义地图”
2.词频和分布信息
3.简单句法关系
Word2vec的局限性
Word2vec学到的信息对Transformer有什么用
如何获取语义信息
上下文预测任务
核心思想:通过预测上下文来学习词表示,属于自监督学习。
- Word2Vec:
- CBOW:用上下文预测中心词
- Skip-gram:用中心词预测上下文
- 目标:相近的词在向量空间中距离更近
- BERT:
- Masked Language Model (MLM):用上下文预测被遮蔽的词
- Next Sentence Prediction (NSP):判断两个句子是否相邻
- 目标:学习双向上下文表示
Word2Vec、BERT 与词嵌入的关系
词嵌入(Word Embedding)
将词映射为稠密向量的技术,是表示学习的基础。
Word2Vec → 静态词嵌入
- 每个词对应一个固定向量
- 不考虑上下文,如“银行”在“存钱”和“河岸”中向量相同
- 轻量、训练快,适合小规模任务
BERT → 动态上下文词嵌入
- 同一词在不同上下文中得到不同向量
- 双向编码,能捕捉更丰富的语义
- 参数多、计算量大,但表示能力更强
词嵌入(概念)
├── Word2Vec(静态词嵌入的实现)
│ └── 通过上下文预测学习固定向量
│
└── BERT(动态上下文词嵌入的实现)
└── 通过上下文预测学习上下文相关向量
词嵌入和位置编码的关系
核心关系
互补关系:词嵌入提供“是什么”,位置编码提供“在哪里”。
具体说明
- 词嵌入(Word Embedding)
- 作用:将词映射为向量,编码语义
- 特点:相同词在不同位置得到相同向量
- 局限:不包含位置信息
- 位置编码(Positional Encoding)
- 作用:为序列中的位置提供向量表示
- 特点:不同位置得到不同向量
- 目的:让模型知道词的顺序
在Transformer中的结合方式:
相加融合:两者维度相同,直接相加后输入模型。
Word2vec通过一个看似简单的任务——根据上下文预测中心词(CBOW)或根据中心词预测上下文(Skip-gram),学到了以下核心信息:
1. 词的“语义地图”
示例:vec(“国王”) - vec(“男人”) + vec(“女人”) ≈ vec(“女王”)
- 学到了语义类比关系(性别、复数、国家-首都等)
- 意思相近的词在向量空间中彼此靠近
- 这种相似性是基于用法的统计相似性,而非词典定义
2.词频和分布信息
- 高频词(如“的”、“是”)向量通常较短,位于空间中心
- 低频词(如“晦涩”、“量子”)向量较长,位于边缘
- 共享相似分布的词会聚集(如各种“水果”名)
3.简单句法关系
- 学习到词性信息:名词、动词、形容词会形成不同簇
- 简单的形态变化:cat → cats, run → running
Word2vec的局限性
静态表示:每个词只有一个固定向量
“苹果”在“我吃苹果”和“苹果股价”中是同一个向量
无法处理一词多义
上下文无关:不考虑句子中其他词的影响
纯粹基于整个语料库的共现统计
仅捕捉浅层关联:无法理解复杂句法、逻辑、长距离依赖
本文作者:cc
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA
许可协议。转载请注明出处!