阅读列表:0
总览
mindmap
root((mindmap))
NLP
可控序列生成
中文输入法
推理增强
incontext learning
finetuned
DeepLearning
Efficient Training
Foundamental
Causality
启发式
导图绘制工具:
待分类 [8/12]
- ☑
Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org
在 LLaMA 上用 ShareGPT 数据微调的对话模型,并用 GPT4 作为评估
类似于支持多轮对话版本的 Stanford Alpaca, alpaca 是指令跟随模型,训练数据格式是 instruction/input/output, 而 vicuna 则是 user/assistant 格式并且支持多轮,写成正则就是 [user/assistant]+ 形式的训练数据结构。
Vicuna 和 alpaca 都没有正式发表,而是 blog 形式,但 Vicuna 把用 gpt-4 评估扩展成了一篇论文。
- ☑
When Does Perceptual Alignment Benefit Vision Representations?
“图片-相似图片-不那么相似的图片”进行 triplet 对比学习
https://percep-align.github.io/
感知对齐(Perceptual Alignment)通过约束图像在表示空间中如果人类判断它们在视觉上相似,就应当彼此靠近,从而将表示的相似性结构与人类感知的相似性结构对齐。
NIGHTS 数据集是衡量人类感知相似性的,在这个数据集上进行微调就达到了视觉感知对齐。
这种对齐的用词来自于大预言模型中人类偏好对齐,作者希望迁移到视觉上。
NIGHTS 数据集包含了 2 万个合成的图像三元组,每个三元组都带有两选一的强制选择判断。与其他数据集相比,NIGHTS 的数据集三元组包含了丰富的中层变化,如颜色、风格、姿态和物体数量等。 每个数据包括三张图片和一个标签 y,三图片分别是 x,x0 和 x1, 它们都是相似的,但如果 y=0 则表示 x0 和 x 更相似。
在这种数据集上进行对比学习微调后(减小 x 到 x0 距离,增大 x 到 x1 的距离),在视觉搜索、多模态分类、计数等下游任务有更好的效果。但在细粒度图片分类上有可能会下降(因为相似的对象可能会认为是同一个导致分类错误增多)
- ☑
How poor is the stimulus? Evaluating hierarchical generalization in neural networks trained on child-directed speech
陈述句改成疑问句需要语法树结构的识别能力
文章目标是评估没有层次偏好的神经网络(LSTM 和 Transformer)在类似于儿童语言输入的数据上,是否能够像儿童一样进行句法泛化。
在 CHILDES 儿童英语数据集上训练 LSTM 和 Transformer
虽然这两种模型在捕捉儿童指向语的表面统计特征(通过困惑度(perplexity)衡量)方面表现良好。 泛化方式: 但在泛化过程中,这些模型更倾向于使用不正确的线性规则,而不是正确的层次规则。这意味着模型在生成是/否问题时,未能正确理解句子的层次结构。
(4a) "The boy who has talked can read." 层次结构规则下的疑问句:(4b) "Can the boy who has talked read?" 线性顺序规则下的疑问句:(4c) "Has the boy who talked can read?"( 表示不符合语法的句子)
注意这个例子,线性规则意味着就是找第一个出现的助动词,而不是核心动词。
在研究中,LSTM 和 Transformer 模型在训练后更倾向于遵循线性顺序规则,而不是层次结构规则。这表明:
模型的泛化方式不符合人类: 尽管这些模型能够有效捕捉到输入数据的表面统计特征,但在需要理解和应用层次结构的任务上表现不足。 人类语法习得的独特性: 儿童在学习语言时,能够准确识别和应用层次结构规则,这可能依赖于更强的先天归纳偏好或其他认知机制,而不仅仅是基于输入数据的统计学习。
- ☑
Semantic Training Signals Promote Hierarchical Syntactic Generalization in Transformers
https://adityayedetore.github.io/assets/pdf/emnlp_2024_semantic_cues_to_hierarchy.pdf emnlp2024, 和 How poor is the stimulus? 一脉相承 通过比较仅基于形式训练的 Transformer 模型与同时基于形式和意义训练的 Transformer 模型,评估后者是否在层次化泛化上表现更接近人类。
研究发现: 同时接受形式和意义训练的 Transformer 模型确实比仅接受形式训练的模型更倾向于层次化的泛化。这表明,即使没有内在的层次结构偏好,统计学习者也可以利用语义训练信号来启动层次化的句法泛化。
形式和意义在这里显然被分的很清楚了,核心问题是,这里的语义是什么?一些标签吗? 居然是逻辑表达式, the newt does sleep 的语义是: sleep(x:Newt(x)) , 采用了组合语义(compositional semantics),主要参考了 Coppock 和 Champollion(2022)的假设。
实验里还包括对 grokking 的研究,这个实验感觉可以考虑复现,包括语法,逻辑语义,groking, 还有对逻辑结构中哪些信息促使模型进行
- ☑
Grokking of Hierarchical Structure
细节
Grokking of Hierarchical Structure in Vanilla Transformers. 这个有代码
这篇算是 tree projection 的实验扩展?即只是研究 groking 现象,证明 transformer 确实有 grokking 能力
- ☐
Tree projections
提出了一种衡量 Transfomer “含树量” 的公式
- ☑
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
一个新的符号推理数据集,显示当前的 LLMs 更多依赖于模式匹配而非真正的逻辑推理,亟需进一步改进和优化。
在 GSM-Symbolic 上的主要发现:
- LLMs 在面对同一问题的不同实例时表现出明显的差异,尤其是当问题中的数值被改变时,所有模型的性能都会下降。
- 随着问题中从句数量的增加,模型的表现显著恶化,表明当前 LLMs 在处理复杂逻辑推理时存在脆弱性。
- 当在问题中添加一个看似相关但实际上不影响解答的从句时,所有最先进的模型的表现都会大幅下降(最高达 65%), 这表明这些模型的推理过程更多依赖于模式匹配,而非真正的逻辑推理。
然而 pattern matching 算是推理的重要能力
- ☑
Thinking LLMs: General Instruction Following with Thought Generation
生成多个思考过程和回答,用另外的模型评估后进行 DPO
Recipe 👩🍳 - no need for human data!
- Start with instruct model.
- Prompt to think & respond. Initially works poorly.
Iterate:
- Sample k thought+responses
- Use standard judge on responses alone
- Construct full preference pairs & run DPO
Takes 3-4 iterations to work.
- ☑
Inheritune: Training Smaller Yet More Attentive Language Models
从 Transfomer 退化现象分析引伸出的高效训练小模型的方法: Inheritune
首次在标准 LLMs 中系统性地分析了注意力退化现象,具体表现为注意力矩阵的秩(rank)逐渐降低,甚至在深层变为单列矩阵, 这被称为 “懒惰层”(lazy layers)。
如何获得紧凑高效的 Transformer
- 继承早期层:从一个预训练的较大模型中继承早期的Transformer块。
- 逐步扩展和训练:在继承初始层之后,逐步增加更多的Transformer块, 并继续训练,直到目标小模型的性能达到或超过参考大模型的表现。
- ☐
CCN+: A neuro-symbolic framework for deep learning with requirements
对于多分类任务,假设有 A,B,C 三个标签,满足 A->~B, 也就是 A 为真时 B 不能为真,如何训练神经网络?
关键点:多分类,逻辑约束,自动驾驶
分类中逻辑约束的例子:
- 约束1:如果标签 A 为真,则标签 B 必须为假。逻辑描述为:A -> ~B
- 约束2:标签 C 必须至少与标签 A 或 B 中的一个为真。C <-> (A | B)
我们一般将其拆分成联合析取形式,比如 A->~B 等价于 ~A|~B, 第二个约束则转为 (~C|A|B)&(~A|~B|C)
这种约束要映射成损失函数
- ☐
AoE: Angle-optimized Embeddings for Semantic Textual Similarity 2024ACL
文本 embedding 对标的是 semantic textual similarity (STS) 任务
STS 是 LLM 应用中的关键,比如 RAG 中搜索,主要依赖于 cos 函数,但 cos 函数有饱和区使得梯度容易消失,比如两个标记为很相似的句子,cosine 距离很小,由于其导数是 -sin(x) 因此 x 接近 0 的时候梯度非常小,导致一些微妙的语义无法学习出来,于是作者把句子的 embedding 用复数表示,实部捕捉表面的差异,虚部捕捉微妙差异。这是第一篇分析 cosine 函数饱和并且用复数作为句子 embedding 来解决这个问题的研究。
- ☐
Matryoshka Representation Learning NeurIPS2022
关于 embedding 效率的问题