百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

超细节的对比学习和SimCSE知识点(超细节操作)

ztj100 2024-11-14 19:22 11 浏览 0 评论

2020年的Moco和SimCLR等,掀起了对比学习在CV领域的热潮,2021年的SimCSE,则让NLP也乘上了对比学习的东风。下面就尝试用QA的形式挖掘其中一些细节知识点,去更好的理解对比学习和SimCSE。

1、如何去理解对比学习,它和度量学习的差别是什么?

2、对比学习中一般选择一个batch中的所有其他样本作为负例,那如果负例中有很相似的样本怎么办?

3、infoNCE loss 如何去理解,和CE loss有什么区别?

4、对比学习的infoNCE loss 中的温度常数的作用是什么?

5、SimCSE中的dropout mask 指的是什么,dropout rate的大小影响的是什么?

6、SimCSE无监督模式下的具体实现流程是怎样的,标签生成和loss计算如何实现?

1、如何去理解对比学习,它和度量学习的差别是什么?

对比学习的思想是去拉近相似的样本,推开不相似的样本,而目标是要从样本中学习到一个好的语义表示空间。

论文[1]给出的 “Alignment and Uniformity on the Hypersphere”,就是一个非常好的去理解对比学习的角度。

好的对比学习系统应该具备两个属性:Alignment和Uniformity(参考上图)。

所谓“Alignment”,指的是相似的例子,也就是正例,映射到单位超球面后,应该有接近的特征,也即是说,在超球面上距离比较近;

所谓“Uniformity”,指的是系统应该倾向在特征里保留尽可能多的信息,这等价于使得映射到单位超球面的特征,尽可能均匀地分布在球面上,分布得越均匀,意味着保留的信息越充分。分布均匀意味着两两有差异,也意味着各自保有独有信息,这代表信息保留充分。(参考自[2])

度量学习和对比学习的思想是一样的,都是去拉近相似的样本,推开不相似的样本

但是对比学习是无监督或者自监督学习方法,而度量学习一般为有监督学习方法

而且对比学习在loss设计时,为单正例多负例的形式,因为是无监督,数据是充足的,也就可以找到无穷的负例,但如何构造有效正例才是重点

而度量学习多为二元组或三元组的形式,如常见的Triplet形式(anchor,positive,negative),Hard Negative的挖掘对最终效果有较大的影响

2、对比学习中一般选择一个batch中的所有其他样本作为负例,那如果负例中有很相似的样本怎么办?

在无监督无标注的情况下,这样的伪负例,其实是不可避免的,首先可以想到的方式是去扩大语料库,去加大batch size,以降低batch训练中采样到伪负例的概率,减少它的影响。

另外,神经网络是有一定容错能力的,像伪标签方法就是一个很好的印证,但前提是错误标签数据或伪负例占较小的比例。

PS:也确有人考虑研究过这个问题,可以参考论文[3][4]

3、infoNCE loss 如何去理解,和CE loss有什么区别?

infoNCE loss 全称 info Noise Contrastive Estimation loss,对于一个batch中的样本i,它的loss为:

要注意的是,log里面的分母叠加项是包括了分子项的

分子是正例对的相似度,分母是正例对+所有负例对的相似度,最小化infoNCE loss,就是去最大化分子的同时最小化分母,也就是最大化正例对的相似度,最小化负例对的相似度

上面公式直接看可能没那么清晰,可以把负号放进去,分子分母倒过来化简一下就会很明了了

CE loss,Cross Entropy loss,在输入p是softmax的输出时:

在分类场景下,真实标签y一般为one-hot的形式,因此,CE loss可以简化成(i 位置对应标签1):

看的出来,info NCE loss和在一定条件下简化后的CE loss是非常相似的

但有一个区别要注意的是:

infoNCE loss中的 K 是batch的大小,是可变的,是第 i 个样本要和batch中的每个样本计算相似度,而batch里的每一个样本都会如此计算,因此上面公式只是样本 i 的loss

CE loss中的 K 是分类类别数的大小,任务确定时是不变的,i 位置对应标签为1的位置

不过实际上,infoNCE loss 就是直接可以用CE loss 去计算的

注:1)info NCE loss 不同的实现方式下,它的计算方式和K 的含义可能会有差异;2)info NCE loss是基于 NCE loss 的,对公式推导感兴趣的可以参考[5]

4、对比学习的infoNCE loss 中的温度常数t的作用是什么?

论文[6]给出了非常细致的分析,知乎博客[7]则对论文[6]做了细致的解读,这里摘录它的要点部分:

温度系数的作用是调节对困难样本的关注程度:越小的温度系数越关注于将本样本和最相似的困难样本分开,去得到更均匀的表示。然而困难样本往往是与本样本相似程度较高的,很多困难负样本其实是潜在的正样本,过分强迫与困难样本分开会破坏学到的潜在语义结构,因此,温度系数不能过小

考虑两个极端情况,温度系数趋向于0时,对比损失退化为只关注最困难的负样本的损失函数;当温度系数趋向于无穷大时,对比损失对所有负样本都一视同仁,失去了困难样本关注的特性。

还有一个角度:

可以把不同的负样本想像成同极点电荷在不同距离处的受力情况,距离越近的点电荷受到的库伦斥力更大,而距离越远的点电荷受到的斥力越小。

对比损失中,越近的负例受到的斥力越大,具体的表现就是对应的负梯度值越大[4]。这种性质更有利于形成在超球面均匀分布的特征。

对照着公式去理解:

当温度系数很小时,越相似也即越困难的负例,对应的就会越大,在分母叠加项中所占的比重就会越大,对整体loss的影响就会越大,具体的表现就是对应的负梯度值越大[7]

当然,这仅仅是提供了一种定性的认识,定量的认识和推导可以参见博客[7]

5、SimCSE中的dropout mask 指的是什么,dropout rate的大小影响的是什么?

一般而言的mask是对token级别的mask,比如说BERT MLM中的mask,batch训练时对padding位的mask等。

SimCSE中的dropout mask,对于BERT模型本身,是一种网络模型的随机,是对网络参数W的mask,起到防止过拟合的作用。

而SimCSE巧妙的把它作为了一种noise,起到数据增强的作用,因为同一句话,经过带dropout的模型两次,得到的句向量是不一样的,但是因为是相同的句子输入,最后句向量的语义期望是相同的,因此作为正例对,让模型去拉近它们之间的距离。

在实现上,因为一个batch中的任意两个样本,经历的dropout mask都是不一样的,因此,一个句子过两次dropout,SimCSE源码中实际上是在一个batch中实现的,即[a,a,b,b...]作为一个batch去输入

dropout rate大小的影响,可以理解为,这个概率会对应有dropout的句向量相对无dropout句向量,在整个单位超球体中偏移的程度,因为BERT是多层的结构,每一层都会有dropout,这些noise的累积,会让句向量在每个维度上都会有偏移的,只是p较小的情况下,两个向量在空间中仍较为接近,如论文所说,“keeps a steady alignment”,保证了一个稳定的对齐性。

6、SimCSE无监督模式下的具体实现流程是怎样的,标签生成和loss计算如何实现?

这里用一个简单的例子和Pytorch代码来说明:

前向句子embedding计算:

假设初始输入一个句子集sents = [a,b],每一句要过两次BERT,因此复制成 sents = [a,a,b,b]

sents 以batch的形式过BERT等语言模型得到句向量:batch_emb = [a1,a2,b1,b2]

batch 标签生成:

标签为1 的地方是相同句子不同embedding对应的位置


a1

a2

b1

b2

a1

0

1

0

0

a2

1

0

0

0

b1

0

0

0

1

b2

0

0

1

0

pytorch中的CE_loss,要使用一维的数字标签,上面的one-hot标签可转换成:[1,0,3,2]

可以把label拆成两个部分:奇数部分[1,3...]和偶数部分[0,2...],交替的每个奇数在偶数前面。因此实际生成的时候,可以分别生成两个部分再concat并reshape成一维

pytorch中label的生成代码如下:

Bash
# 构造标签
batch_size = batch_emb.size(0)
y_true = torch.cat([torch.arange(1,batch_size,step=2,dtype=torch.long).unsqueeze(1),
                    torch.arange(0,batch_size,step=2,dtype=torch.long).unsqueeze(1)],
                    dim=1).reshape([batch_size,])

score和loss计算:

batch_emb 会先norm,再计算任意两个向量之间的点积,得到向量间的余弦相似度,维度是:[batch_size, batch_size]

但是对角线的位置,也就是自身的余弦相似度,需要mask掉,因为它肯定是1,是不产生loss的

然后,要除以温度系数,再进行loss的计算,loss_func 采用CE loss,注意CE loss中是自带softmax计算的

Bash
    # 计算score和loss
    norm_emb = F.normalize(batch_emb, dim=1, p=2)
    sim_score = torch.matmul(norm_emb, norm_emb.transpose(0,1))
    sim_score = sim_score - torch.eye(batch_size) * 1e12
    sim_score = sim_score * 20      # 温度系数为 0.05,也就是乘以20
    loss = loss_func(sim_score, y_true)

完整代码:

loss_func = nn.CrossEntropyLoss()
def simcse_loss(batch_emb):
    """用于无监督SimCSE训练的loss
    """
    # 构造标签
    batch_size = batch_emb.size(0)
    y_true = torch.cat([torch.arange(1, batch_size, step=2, dtype=torch.long).unsqueeze(1),
                        torch.arange(0, batch_size, step=2, dtype=torch.long).unsqueeze(1)],
                       dim=1).reshape([batch_size,])

    # 计算score和loss
    norm_emb = F.normalize(batch_emb, dim=1, p=2)
    sim_score = torch.matmul(norm_emb, norm_emb.transpose(0,1))
    sim_score = sim_score - torch.eye(batch_size) * 1e12
    sim_score = sim_score * 20
    loss = loss_func(sim_score, y_true)
    return loss

注:看过论文源码[8]的同学可能会发现,这个和论文源码中的实现方式不一样,论文源码是为了兼容无监督SimCSE和有监督SimCSE,并兼容有hard negative的三句输入设计的,因此实现上有差异。

看过苏神源码[9]的同学也会发现,构造标签的地方不一样,那是因为keras的CE loss用的是one-hot标签,pytorch用的是数字标签,但本质一样。

参考:

[1]、Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

[2]、https://zhuanlan.zhihu.com/p/367290573

[3]、Debiased Contrastive Learning

[4]、ADACLR: Adaptive Contrastive Learning Of Representation By Nearest Positive Expansion

[5]、https://zhuanlan.zhihu.com/p/334772391

[6]、Understanding the Behaviour of Contrastive Loss

[7]、https://zhuanlan.zhihu.com/p/357071960

[8]、https://github.com/princeton-nlp/SimCSE

[9]、https://github.com/bojone/SimCSE



相关推荐

配置Java环境变量:(WIN7为例)(java1.7配置环境变量)

1.JAVA_HOME变量的设置2.Path变量的设置3.ClassPath变量的设置二、JDK安装群文件下载好之后,进入文件夹,双击根据提示进行安装,直至安装完成。(建议默认地址,一下以默认...

JDK的下载安装与环境变量的配置(jdk安装教程及环境变量配置win10)

一、JDK下载1.jdk下载地址官网https://www.oracle.com2.选择Products3.选择Java4.选择JavaSE,进入OracleJDK5.根据需要选择版本6.我所...

linux java 项目 设置外部yml 设置jvm 并添加启动停止以及重启脚本

linux安装jdk1.8jdk1.8可私聊我发给你1.在/usr/local下用mkdir新建了一个文件夹java然后把文件上传到java里面...

JDK1.8安装&环境变量配置(jdk怎么安装环境变量)

1、下载并安装JDK1.8链接:https://pan.baidu.com/s/1bfceFjfTQvLylu7a3T7fyg?pwd=ydtm...

Java 技术文档(详细版)(java文档教程)

1.简介Java是一种面向对象的编程语言,由SunMicrosystems于1995年发布,现由Oracle公司维护。其核心特点是“一次编写,到处运行”,这得益于Java虚拟机(...

JavaJDK环境变量配置(javajdk环境变量配置不用配置路径吗)

1.Java环境搭建1.1JDK与JREJDK(JavaDevelopmentKitJava开发工具包)JDK是提供给Java开发人员使用的,其中包含了java的开发工具,也包括了JRE。所...

Java编程从零开始 01Java的安装和配置

点击右上角,加关注,私信“项目课程”,即可获得高并发分布式电商项目以及适合初学者的网盘项目课程视频和源码哦...

《我的世界》服务器搭建(搭建我的世界服务器配置要求)

1.CentOS7环境1.1更改YUM源...

java入门教程1 - 安装和配置(win和linux)

windows安装和配置安装java...

Java基础篇——环境配置(java环境搭建及配置教程)

Java语言简介Java语言源自于Oracle-Sun公司,是当今最通用、最流行的软件开发语言之一。Java是简单的、面向对象的语言,最大的特性是与平台无关,有“writeonce,runeve...

Java路径-02-Java环境配置(java环境变量配置路径)

1Window环境配置1.1下载...

JDK的安装与环境变量的配置(jdk安装好如何配置环境变量?用什么符合隔开?)

JDK的安装与环境变量的配置1.jdk的安装:jdk的安装,傻瓜式安装,一路下一步jdk中的两个文件夹libbin...

Centos8搭建Java环境(JDK1.8+Nginx+Tomcat9+Redis+Mysql)

一、开篇1.1目的每次换新的服务器,都要找资料配下环境,所以我写这篇文章,重新梳理了一下,方便了自己,希望也能给大家带来一些帮助。安装的软件有:JDK1.8+Nginx+Tomcat9+...

Windows系统——配置java环境变量

怎么配置java环境变量呢?首先是安装好jdk然后我的电脑右键选择属性然后选择左侧高级系统设置高级然后点环境变量...

程序员:JDK的安装与配置(完整版)(jdk的安装与配置使用)

对于Java程序员来说,jdk是必不陌生的一个词。但怎么安装配置jdk,对新手来说确实头疼的一件事情。我这里以jdk10为例,详细的说明讲解了jdk的安装和配置,如果有不明白的小伙伴可以评论区留言哦...

取消回复欢迎 发表评论: