阅读列表:0

2023-07-11 二 22:36 2025-02-21 五 22:25

总览

mindmap
  root((mindmap))
    NLP
      可控序列生成
        中文输入法
      推理增强
        incontext learning
        finetuned
    DeepLearning
      Efficient Training
      Foundamental
    Causality
    启发式

导图绘制工具：

在线编辑： https://mermaid.live/
icon 查询： Find the Perfect Icon for Your Project in Font Awesome 5 | Font Awesome

待分类 `[8/12]`

☑
Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org

在 LLaMA 上用 ShareGPT 数据微调的对话模型，并用 GPT4 作为评估

类似于支持多轮对话版本的 Stanford Alpaca, alpaca 是指令跟随模型，训练数据格式是 instruction/input/output, 而 vicuna 则是 user/assistant 格式并且支持多轮，写成正则就是 [user/assistant]+ 形式的训练数据结构。

Vicuna 和 alpaca 都没有正式发表，而是 blog 形式，但 Vicuna 把用 gpt-4 评估扩展成了一篇论文。
☑
When Does Perceptual Alignment Benefit Vision Representations?

“图片-相似图片-不那么相似的图片”进行 triplet 对比学习

https://percep-align.github.io/

感知对齐（Perceptual Alignment）通过约束图像在表示空间中如果人类判断它们在视觉上相似，就应当彼此靠近，从而将表示的相似性结构与人类感知的相似性结构对齐。

NIGHTS 数据集是衡量人类感知相似性的，在这个数据集上进行微调就达到了视觉感知对齐。

这种对齐的用词来自于大预言模型中人类偏好对齐，作者希望迁移到视觉上。

NIGHTS 数据集包含了 2 万个合成的图像三元组，每个三元组都带有两选一的强制选择判断。与其他数据集相比，NIGHTS 的数据集三元组包含了丰富的中层变化，如颜色、风格、姿态和物体数量等。每个数据包括三张图片和一个标签 y，三图片分别是 x,x0 和 x1, 它们都是相似的，但如果 y=0 则表示 x0 和 x 更相似。

在这种数据集上进行对比学习微调后（减小 x 到 x0 距离，增大 x 到 x1 的距离），在视觉搜索、多模态分类、计数等下游任务有更好的效果。但在细粒度图片分类上有可能会下降（因为相似的对象可能会认为是同一个导致分类错误增多）
☑
How poor is the stimulus? Evaluating hierarchical generalization in neural networks trained on child-directed speech

陈述句改成疑问句需要语法树结构的识别能力

文章目标是评估没有层次偏好的神经网络（LSTM 和 Transformer）在类似于儿童语言输入的数据上，是否能够像儿童一样进行句法泛化。

在 CHILDES 儿童英语数据集上训练 LSTM 和 Transformer

虽然这两种模型在捕捉儿童指向语的表面统计特征（通过困惑度（perplexity）衡量）方面表现良好。泛化方式：但在泛化过程中，这些模型更倾向于使用不正确的线性规则，而不是正确的层次规则。这意味着模型在生成是/否问题时，未能正确理解句子的层次结构。

(4a) "The boy who has talked can read." 层次结构规则下的疑问句：(4b) "Can the boy who has talked read?" 线性顺序规则下的疑问句：(4c) "Has the boy who talked can read?"（表示不符合语法的句子）

注意这个例子，线性规则意味着就是找第一个出现的助动词，而不是核心动词。

在研究中，LSTM 和 Transformer 模型在训练后更倾向于遵循线性顺序规则，而不是层次结构规则。这表明：

模型的泛化方式不符合人类：尽管这些模型能够有效捕捉到输入数据的表面统计特征，但在需要理解和应用层次结构的任务上表现不足。人类语法习得的独特性：儿童在学习语言时，能够准确识别和应用层次结构规则，这可能依赖于更强的先天归纳偏好或其他认知机制，而不仅仅是基于输入数据的统计学习。
☑
Semantic Training Signals Promote Hierarchical Syntactic Generalization in Transformers

https://adityayedetore.github.io/assets/pdf/emnlp_2024_semantic_cues_to_hierarchy.pdf emnlp2024, 和 How poor is the stimulus? 一脉相承通过比较仅基于形式训练的 Transformer 模型与同时基于形式和意义训练的 Transformer 模型，评估后者是否在层次化泛化上表现更接近人类。

研究发现：同时接受形式和意义训练的 Transformer 模型确实比仅接受形式训练的模型更倾向于层次化的泛化。这表明，即使没有内在的层次结构偏好，统计学习者也可以利用语义训练信号来启动层次化的句法泛化。

形式和意义在这里显然被分的很清楚了，核心问题是，这里的语义是什么？一些标签吗？居然是逻辑表达式， the newt does sleep 的语义是： sleep(x:Newt(x)) ，采用了组合语义（compositional semantics），主要参考了 Coppock 和 Champollion（2022）的假设。

实验里还包括对 grokking 的研究，这个实验感觉可以考虑复现，包括语法，逻辑语义，groking, 还有对逻辑结构中哪些信息促使模型进行
☑
Grokking of Hierarchical Structure

细节

Grokking of Hierarchical Structure in Vanilla Transformers. 这个有代码

这篇算是 tree projection 的实验扩展？即只是研究 groking 现象，证明 transformer 确实有 grokking 能力
☐
Tree projections

提出了一种衡量 Transfomer “含树量” 的公式
☑
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
一个新的符号推理数据集，显示当前的 LLMs 更多依赖于模式匹配而非真正的逻辑推理，亟需进一步改进和优化。

在 GSM-Symbolic 上的主要发现：
- LLMs 在面对同一问题的不同实例时表现出明显的差异，尤其是当问题中的数值被改变时，所有模型的性能都会下降。
- 随着问题中从句数量的增加，模型的表现显著恶化，表明当前 LLMs 在处理复杂逻辑推理时存在脆弱性。
- 当在问题中添加一个看似相关但实际上不影响解答的从句时，所有最先进的模型的表现都会大幅下降（最高达 65%），这表明这些模型的推理过程更多依赖于模式匹配，而非真正的逻辑推理。
然而 pattern matching 算是推理的重要能力
☑
Thinking LLMs: General Instruction Following with Thought Generation
生成多个思考过程和回答，用另外的模型评估后进行 DPO

Recipe 👩‍🍳 - no need for human data!
- Start with instruct model.
- Prompt to think & respond. Initially works poorly.
Iterate:
- Sample k thought+responses
- Use standard judge on responses alone
- Construct full preference pairs & run DPO
Takes 3-4 iterations to work.
☑
Inheritune: Training Smaller Yet More Attentive Language Models
从 Transfomer 退化现象分析引伸出的高效训练小模型的方法： Inheritune

首次在标准 LLMs 中系统性地分析了注意力退化现象，具体表现为注意力矩阵的秩（rank）逐渐降低，甚至在深层变为单列矩阵，这被称为 “懒惰层”（lazy layers）。

如何获得紧凑高效的 Transformer
- 继承早期层：从一个预训练的较大模型中继承早期的Transformer块。
- 逐步扩展和训练：在继承初始层之后，逐步增加更多的Transformer块，并继续训练，直到目标小模型的性能达到或超过参考大模型的表现。
☐
CCN+: A neuro-symbolic framework for deep learning with requirements
对于多分类任务，假设有 A,B,C 三个标签，满足 A->~B, 也就是 A 为真时 B 不能为真，如何训练神经网络？

关键点：多分类，逻辑约束，自动驾驶

分类中逻辑约束的例子：
- 约束1：如果标签 A 为真，则标签 B 必须为假。逻辑描述为：A -> ~B
- 约束2：标签 C 必须至少与标签 A 或 B 中的一个为真。C <-> (A | B)
我们一般将其拆分成联合析取形式，比如 A->~B 等价于 ~A|~B, 第二个约束则转为 (~C|A|B)&(~A|~B|C)

这种约束要映射成损失函数

https://github.com/atatomir/CCN
☐
AoE: Angle-optimized Embeddings for Semantic Textual Similarity 2024ACL

文本 embedding 对标的是 semantic textual similarity (STS) 任务

STS 是 LLM 应用中的关键，比如 RAG 中搜索，主要依赖于 cos 函数，但 cos 函数有饱和区使得梯度容易消失，比如两个标记为很相似的句子，cosine 距离很小，由于其导数是 -sin(x) 因此 x 接近 0 的时候梯度非常小，导致一些微妙的语义无法学习出来，于是作者把句子的 embedding 用复数表示，实部捕捉表面的差异，虚部捕捉微妙差异。这是第一篇分析 cosine 函数饱和并且用复数作为句子 embedding 来解决这个问题的研究。
☐
Matryoshka Representation Learning NeurIPS2022

关于 embedding 效率的问题

radioLinkPopups

#collections

如对本文有任何疑问，欢迎通过 github issue 或进行反馈

总览

待分类 [8/12]

待分类 `[8/12]`