阅读列表:2
自然语言处理
Seq2Seq, MT, Subword Models
[[https://www.aclweb.org/anthology/P02-1040.pdf][BLEU]] [[https://arxiv.org/pdf/1409.3215.pdf][Sequence to Sequence Learning with Neural Networks]] [[https://arxiv.org/pdf/1211.3711.pdf][early seq2seq speech recognition pape:Sequence Transduction with Recurrent Neural Networks]] [[https://arxiv.org/pdf/1409.0473.pdf][original seq2seq+attention paper: Neural Machine Translation by Jointly Learning to Align and Translate ]] [[https://distill.pub/2016/augmented-rnns/][Attention and Augmented Recurrent Neural Networks]] [[https://arxiv.org/pdf/1703.03906.pdf][practical advice for hyperparameter choices: Massive Exploration of Neural Machine Translation Architectures]] [[https://arxiv.org/abs/1604.00788.pdf][Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models]] [[https://arxiv.org/pdf/1808.09943.pdf][Revisiting Character-Based Neural Machine Translation with Capacity and Compression]]
Attention and Transformers
- [1706.03762] Attention Is All You Need
- Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
- Ar5iv
- [1607.06450] Layer Normalization
- Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton
- Ar5iv
- [1606.08415] Gaussian Error Linear Units (GELUs)
- Dan Hendrycks, Kevin Gimpel
- Ar5iv
怎样缓解灾难性遗忘?持续学习最新综述三篇_51CTO 博客_灾难性遗忘问题
[[https://arxiv.org/pdf/1802.05751.pdf][Image Transformer]] [[https://arxiv.org/pdf/1809.04281.pdf][Music Transformer: Generating music with long-term structure]]
通用可控序列生成(NLG)
- A Survey of Controllable Text Generation Using Transformer-based Pre-trained Language Models | ACM Computing Surveys
- 2023 在 ACM 期刊发表,2022 Arxiv; Ar5iv; 引用 100+
- Controllable Neural Text Generation | Lil'Log
- 2021 blog 综述
- A Causal Lens for Controllable Text Generation
- Zhiting Hu, Li Erran Li
- NeurIPS2021; Ar5iv; 引用 30+
- Exploring Controllable Text Generation Techniques - ACL Anthology
- Shrimai Prabhumoye, Alan W Black, Ruslan Salakhutdinov
- COLING2020; Ar5iv; 引用 70+
- [1908.04319] Neural Text Generation with Unlikelihood Training
- ICLR2019; Ar5iv ;349
Training language models to follow instructions with human feedback
- NeurIPS 2022
- Long Ouyang, Jeffrey Wu, Xu Jiang, openai
基本是 chatgpt 的原型文章,其解决的问题是,模型增大并不会使得模型符合人的意图,这里人类意图是很宽泛的, 因此本文试图展示的是,有一种通用方法可以在多个不同场景下可以让模型生成的句子更符合当前场景下人类所期望的回答。 这种通用方法包括:
- 一组 prompts 数据集,用该数据集进行微调
- 一组对相同 prompts 进行多种补全并有打分的数据集,用该数据集进行强化学习微调
微调的结果叫做 InstructGPT ,其使用的是 human evaluation 方式,显示指令微调后的 1.3B 模型比原始 175B GPT-3 对齐效果更好。
读完摘要后想要继续了解的:
- 微调是什么形式的数据
- reward 模型如何训练的,比如对于一个 prompt 只是有两个不同的补全结果,然后对应人的打分吗? 这样似乎可以用对比学习了
- 为什么要这两步,不能直接用 PPO? 或者先 PPO 后微调,如何实验论证这种消融性。
这些基本都在 suppliment pdf 中,而不是正文,在 A.3 Dataset sizes 一节里回答了前两个问题,SFT 是每个 prompts 都有多个标注者的回答(没有说具体数值),对于 RM 模型,每个 prompts 会输出 K=4 到 K=9 个补全结果,然后按照 C(K,2) 两两对比学习,参考: ChatGPT的先辈InstructGPT详细解读 - 知乎 具体实现: chatGPT训练,你需要知道的奖励模型(Reward Model) - 知乎 第三个问题似乎没有回答。
- How to generate text: using different decoding methods for language generation with Transformers huggingface 教程,比较 high level
- [1811.00512] Learning Beam Search Policies via Imitation Learning
- Renato Negrinho, Matthew R. Gormley, Geoffrey J. Gordon
- CMU; NIPS2018; Ar5iv ; 28
- [1606.02960] Sequence-to-Sequence Learning as Beam-Search Optimization
- Sam Wiseman, Alexander M. Rush
- Harvard; EMNLP 2016; Ar5iv
[1805.06087] Learning to Write with Cooperative Discriminators
- Ari Holtzman, Jan Buys, Maxwell Forbes, Antoine Bosselut, David Golub, Yejin Choi
- ACL2018; Ar5iv
- [1809.01215] Generating More Interesting Responses in Neural Conversation Models with Distributional Constraints
- Ashutosh Baheti, Alan Ritter, Jiwei Li, Bill Dolan
- [2010.02650] If beam search is the answer, what was the question?
- Clara Meister, Tim Vieira, Ryan Cotterell
- EMNLP 2020; Ar5iv
- [1912.02164] Plug and Play Language Models: A Simple Approach to Controlled Text Generation
- Sumanth Dathathri, Andrea Madotto, el.
ICLR 2020 ; code
p(x) 表示语言模型 p(x|a) 表示条件语言模型,比如 a={正面,负面}, p(x|正面) 就是对情感为正的句子建模,这个模型比较难获得。但 p(a|x) 分类器是容易训练的 根据 Bayes 定理可以知道 p(x|a)=p(a|x)p(x)/p(a), 分母认为是常数,因此可以通过 p(a|x)p(x) 来对 p(x|a) 建模,问题是如何从 p(a|x)p(x) 中采样?暴力的做法就是每次从 p(x) 采样出 x, 然后给 p(a|x), 如果这个概率是预期的(比如是情感为正)则保留,否则拒绝,这就是简单的用 p(x) 作为 proposal 的拒绝采样的思路,但显然效率十分低下,甚至永远得不到预期句子。
手段(可以解释为一种 Metropolis-adjusted Langevin sampler): 前向传播: 语言模型进行前向传播,生成一个初始的文本序列和相应的隐藏状态。 属性评估: 这些隐藏状态被送入属性分类器。 反向传播: 属性分类器输出一个概率分布,表示生成的文本是否具有目标属性。然后,计算这个输出与目标属性之间的损失函数,并对其进行反向传播以获得梯度。 更新隐藏状态: 使用这个梯度来微调或更新语言模型的隐藏状态。
对于 transformer 只需要更新预测时的最后一个 token 的隐藏层(可以是所有也可以是部分)
- What makes a good conversation? | Abigail See 2019 年综述性质论文 其中总结了 Control method 2: Weighted Decoding (WD) 即对输出 token 的分布进行加权(比如稀缺度)
[1909.05858] CTRL: A Conditional Transformer Language Model for Controllable Generation 重新训练了一个带 prefix 的语言模型,同时讨论了挺多种解码策略。给不同的序列加上 prefix 标签后练感觉很奇怪的一种方式,有点类似监督学习,因为句子需要带标签(虽然从 reddit 上容易获得)
Natural Language Generation:
[[https://arxiv.org/abs/1904.09751.pdf][The Curious Case of Neural Text Degeneration]] [[https://arxiv.org/abs/1704.04368.pdf][Get To The Point: Summarization with Pointer-Generator Networks]] [[https://arxiv.org/abs/1805.04833.pdf][Hierarchical Neural Story Generation]] [[https://arxiv.org/abs/1603.08023.pdf][How NOT To Evaluate Your Dialogue System]]
代码生成
相比自然语言的好处是,生成结果可以自动执行并验证正确性
[[https://arxiv.org/pdf/2108.07732.pdf][Program Synthesis with Large Language Models]] [[https://www.science.org/doi/full/10.1126/science.abq1158][Competition-level code generation with AlphaCode]] [[https://arxiv.org/abs/2107.03374][Evaluating Large Language Models Trained on Code]]
关联较弱文章
- [1909.08593] Fine-Tuning Language Models from Human Preferences
- openai RLHF 文 e
- [1610.09038] Professor Forcing: A New Algorithm for Training Recurrent Networks
- Alex Lamb, Anirudh Goyal, Ying Zhang, Saizheng Zhang, Aaron Courville, Yoshua Bengio
- NIPS2016; Ar5iv
- [1904.13015] Towards Coherent and Engaging Spoken Dialog Response Generation Using Automatic Conversation Evaluators 本文是从对话角度来设计了打分器(连贯性,参与度等,因此是一个多轮对话序列的判别器,且要人工标注)并用打分结果对 beamsearch 候选句子重排,属于对话特征研究型 对通用可控序列生成启发较小。
- Byte-based Multilingual NMT for Endangered Languages - ACL Anthology
- Mengjiao Zhang, Jia Xu
- COLING2022 小语种上多语言翻译,主要分析了用 byte 作为词粒度的模型
形式化方法与 LLM 结合
这里并不一定是生成,但用到了形式化方法
Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought | OpenReview
- Abulhair Saparov, He He
- ICLR2023 ; P1
为什么还需要别的方式来分析 CoT, 原论文的分析哪里不足? 核心在于没有对推理的每一步进行检查,评审也提到本文很多结论与其他论文类似,但核心是提供了一种形式化的分析实验。
构造了一个根据一阶逻辑自动生成的数据集 PrOntoQA, CoT 里的 steps 都是形式语言,可以被直接 parse
在 InstructGPT 和 GPT-3 上的结果表明,LLMs 单步演绎推理的能力很强,但是对于 proof planning 比较弱, When multiple valid deduction steps are available, they are not able to systematically explore the different options. 这个结论可能会导向 ToT
-
- Aaron Traylor, Roman Feiman, Ellie Pavlick
- ACL2021 short; P1
作者想回答一个很好的问题:
Under what conditions should we expect that meaning and form covary sufficiently, such that a language model with access only to form might nonetheless succeed in emulating meaning?
结论是实验中模型都无法区分 AND 和 OR 等,如何做实验论证呢?
-
- Kyle Richardson, Ashish Sabharwal
- AAAI2022; Allen Institute
提出了一个根据形式理论对难度进行分类的数据集(以及制造这种数据集的方法,数据集是形式生成,但用的是自然语言), 其中主要是 natural language satisfiability (NLSat) problems.
有点类似 Corr2Cau 数据?
Fine-Tuning Language Models Using Formal Methods Feedback | OpenReview
- NuCLeaR 2024
这里作者用生成的数据进行指令微调,问题是这里是在自动驾驶场景上应用的,兴趣度减少
Dehallucinating Large Language Models Using Formal Methods Guided Iterative Prompting
- Susmit Jhaa etl
- ICAA2023
这个会议关注点在安全性上,该论文场景也是自动驾驶,只提出了一个大体框架
具体实现问题: How to develop beam search with a set of predefined responses? · Issue #81 · google/seq2seq
Editor
中文输入法
(只考虑深度学习模型) 传统 Ngram 的问题:只考虑文本中的局部上下文(即前 N-1 个词),因此它不能捕捉到超过 N 个词的长距离依赖关系。 这可能满足了 70% 需求了,因为大部分人打字输入的时候也不会太长,2 到 4 个可能是最多的,另外由于输入法的选项是实时出现的,因此输入用户输入很长的句子时,可以先确定之前的输入,然后继续用 ngram
- [2311.01166] Generative Input: Towards Next-Generation Input Methods Paradigm
- 比较新,值得关注
- Exploring and Adapting Chinese GPT to Pinyin Input Method - ACL Anthology
- Minghuan Tan, Yong Dai, Duyu Tang, Zhangyin Feng, Guoping Huang, Jing Jiang, Jiwei Li, Shuming Shi
- ACL2022; Ar5iv
- VisualJoyce/Transformers4IME: Transformers for Input Method Engine
[2205.11737] PERT: A New Solution to Pinyin to Character Conversion Task
- Jinghui Xiao, Qun Liu, Xin Jiang, Yuanfeng Xiong, Haiteng Wu, Zhe Zhang (华为诺亚)
- 挂在 arxiv 但似乎一直没有正式发表
从头训练了一个 Bert 编码器模型,输入是拼音序列输出是中文序列,结合了 n-gram 特征,大致是先根据词库算出了转移矩阵,然后在 PERT 上用 CRF 解码。 可以处理 Out-Of-Domain 问题(实际有一个查词库过程,类似在传统输入法上加如 bert 得分 rerank)。
论文附录对比了本文和 A Pre-trained Language Model for Chinese Pinyin-to-Character Task Based on BERT 的结果, 这看上去是韩国汉阳大学论文硕士论文(中国人和韩国人合作写的中文输入法论文),原版找不到,只有以下链接有一个 2 页的介绍 https://journal-home.s3.ap-northeast-2.amazonaws.com/site/2020f/presentation/0060.pdf
用了两个编码器加一个解码器,但以上简短介没有说清哪里输入拼音特征。
没有说清楚的点(或者没读仔细): - 训练任务是什么,如何给定上下文?是随机 mask 掉句子的末尾然后预测吗?或者就是 MLM 任务? - 结合 ngram 是做转移矩阵统计吗,有没有 smoothing 之类 - 如何搜索到词库来更新 veterbi 的路径得分?
- [1810.09309] Real-time Neural-based Input Method
- Jiali Yao, Raphael Shu, Xinjian Li, Katsutoshi Ohtsuki, Hideki Nakayama
- 微软、CMU Ar5iv
关键在于 real time, 实际是对 softmax 的优化,不是讲新输入法算法,为什么可以优化?
To solve the issue, we propose incremental softmax approximation approach, which computes softmax with a selected subset vocabulary and fix the stale probabilities when the vocabulary is updated in future steps. We refer to this method as incremental selective softmax
- [1712.04158] Tracing a Loose Wordhood for Chinese Input Method Engine
- Xihu Zhang, Chu Wei, Hai Zhao (上交) Ar5iv 这是 pinyinGPT 在提到拼音切分准确度到 98% 时引用的,但发现这篇文章并不是做拼音切分
- Moon IME: Neural-based Chinese Pinyin Aided Input Method with Customizable Association - ACL Anthology
- Yafang Huang, Zuchao Li, Zhuosheng Zhang, Hai Zhao (上交)
- ACL2018 system Demo 论文,不是 long paper, 介绍了对输入法功能进行扩展的系列方案,包括自动补全(seq2seq),相似词汇推荐和联想(搜索),甚至还有拼音到英文的翻译等,没有提到技术细节。 论文中 association function 就是联想功能。
- Open Vocabulary Learning for Neural Chinese Pinyin IME - ACL Anthology
- Zhuosheng Zhang, Yafang Huang, Hai Zhao (上交 2019 ACL ) Ar5iv
seq2seq 模型,双向 LSTM 编码器是拼音序列,通过 attention 连接到解码器,解码器里中文上下文的 embedding 包括了词粒度和字粒度(这是过去融合特征的典型手段),预测的时候是用预测的 output_states 和所有候选词的 embedding 内积排序来实现,主要是可以和词库里的新增词做比较筛选。
加入了一个动态词库,比如用户输入时选择了某个词,那么这个词会被加入到动态词库里。
个人感觉这种方法更接近在传统输入法上加入了语言模型来 rerank 的思路
中文分词
- Chinese Word Segmentation | Papers With Code papers with code 里的总结
- A Fast Decoder for Joint Word Segmentation and POS-Tagging Using a Single Discriminative Model - ACL Anthology
- Yue Zhang, Stephen Clark
- 这是一篇很早的文章,用 beam search 做?
- TopWORDS-Seg: Simultaneous Text Segmentation and Word Discovery for Open-Domain Chinese Texts via Bayesian Inference - ACL Anthology
- Changzai Pan, Maosong Sun, Ke Deng
- ACL2022
- TopWORDS-Poetry: Simultaneous Text Segmentation and Word Discovery for Classical Chinese Poetry via Bayesian Inference | OpenReview
- Changzai Pan, Feiyue Li, Ke Deng
- EMNLP2023, 同上一篇作者,这次应用在古诗词上
- BED: Boundary-Enhanced Decoder for Chinese Word Segmentation | OpenReview
- Shiting Xu, Dongge Tang, Weiwei Jiang, Qing Yang
- ICLR2023 被拒,但可以看其中的 review 点评
- RethinkCWS: Is Chinese Word Segmentation a Solved Task? - ACL Anthology
- Jinlan Fu, Pengfei Liu, Qi Zhang, Xuanjing Huang
- EMNLP2020
- 对应代码 neulab/InterpretEval: Interpretable Evaluation for (Almost) All NLP Tasks
- Attention Is All You Need for Chinese Word Segmentation - ACL Anthology
- Sufeng Duan, Hai Zhao
- EMNLP2020
QA 推理增强
Compositional Generalization COGS: A Compositional Generalization Challenge Based on Semantic Interpretation - ACL Anthology
Finetuned Language Models Are Zero-Shot Learners Learning to summarize from human feedback
QA:
- 封闭性:这里主要指根据某个非结构文本来回答问题。(理论上 QA 是考验机器的"理解能力",但很多封闭数据集已经 solved, 不过机器的理解能力并没有被认为达到人类水平,因为对抗样本或者 OOD 样本表现还是很差)
- 开放性: open domain
QA 和 chatgpt 通用对话的区别是什么? QA 实际更偏重解决问题,有许多实际应用,比如取代顾问,行政人员,比如去初次去办理财务报销,有很多问题,这些问题更多是针对某些财务流程文件的询问。
SQuAD: 100,000+ Questions for Machine Comprehension of Text Bidirectional Attention Flow for Machine Comprehension Reading Wikipedia to Answer Open-Domain Questions Latent Retrieval for Weakly Supervised Open Domain Question Answering Dense Passage Retrieval for Open-Domain Question Answering Learning Dense Representations of Phrases at Scale
- [2305.14201] Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
- Tiedong Liu, Bryan Kian Hsiang Low
- huggingface; Ar5iv;
- [2305.18654] Faith and Fate: Limits of Transformers on Compositionality
- Nouha Dziri, Ximing Lu, Yejin Choi. el
- AllenNLP; Ar5iv;
[2312.06585] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
- deepmind 团队
先用 LLM 生成数据(可以验证的数学结果),然后用一个二分器判断这个结果
CoT W/o Prompting
(NO_ITEM_DATA:wangChainofThoughtReasoningPrompting2024)
- deepmind 团队
作者说在 top k 采样中,有一些就是天然的 CoT 路径,这个思路可能是显然的,极端来说,所有随机采样路径中, 肯定有一些是有 CoT 的,因此一般人可能不会想到这能继续如何研究,如何能识别出这种 CoT?
- 加入一个额外的判断这是否为 CoT 的模型进行筛选?
- 加入某种语法检查机制里判断其中是多步的?
- 手动检查?那就回到完全解释性分析了,能否进入应用层面?
发现在 topk 里,自然就偏向 CoT? we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model’s decoded answer. 这真的是有趣的发现了。这是一种心细地检查,经验上验证:
- 哪些数据里这种现象更普遍?
- 如果有 few-shot 方式,decoding 结果会如何?
还能做什么样的研究来支撑这个发现?
- 只对第一步解码的时候采取 topk 分支,当然这部分需要实验来支撑?什么实验?
- 更多的 top k 分支,比如扩展到 beam search
- 2.2 是最核心的,引入了一个基于 logits 的"特征值", 这个值越高,那么 CoT 路径得分也越高
其他问题:
- 包括如何提取出答案,因为如果是 few-shot, 答案更多是固定出现的
- 在不同位置进行 branching
- 类似 self-consistency 聚合后的效果
- 在 standard QA 下采样的问题
另外,对解码器限制的成本不比 prompt 低,因为解码要探索更多的空间,这个代价可能比 attention 还高
提到了 bypasses the confounders of prompting 这个概念
- 用 PaLM-2: 这个足够吗?是否要考虑 gpt4
- 还有 Mistral 模型
Retrieval augmented in-context learning
模型分析、解释和编辑
[[https://web.stanford.edu/class/cs224n/slides/cs224n-2023-lecture18-analysis.pdf][Analysis and Interpretability Basics (by John Hewitt)]] [[https://web.stanford.edu/class/cs224n/slides/Been-Kim-StanfordLectureMarch2023.pdf][Model Interpretability and Editing (by Been Kim)]] [[https://dl.acm.org/doi/10.1145/2939672.2939778][LIME: Ribeiro et al. 2016]] [[https://aclanthology.org/P19-1452/][Probing: Tenney et al. 2018]] [[http://proceedings.mlr.press/v70/sundararajan17a.html][IG: Sundararajan et al. 2017]] [[https://ai.stanford.edu/blog/causal-abstraction/][Causal abstraction: Geiger et al. 2022]] [[https://proceedings.mlr.press/v162/geiger22a.html][IIT: Geiger, Wu, et al. 2022]] [[https://arxiv.org/abs/2303.02536][DAS: Geiger, Wu, et al. 2023]] [[https://distill.pub/2020/circuits/][Circuits: Cammarata et al. 2020]]
其他
CNN,
ConvNets, Tree Recursive Neural Networks and Constituency Parsing
Convolutional Neural Networks for Sentence Classification
Improving neural networks by preventing co-adaptation of feature detectors
A Convolutional Neural Network for Modelling Sentences
Parsing with Compositional Vector Grammars.
Constituency Parsing with a Self-Attentive Encoder
语言学: Insights between NLP and Linguistics (by Isabel Papadimitriou)
共指消解 End-to-end Neural Coreference Resolution
经典任务引用:
- beam search: (NO_ITEM_DATA:sutskeverSequenceSequenceLearning2014)
- teacher forcing: (NO_ITEM_DATA:sutskeverGeneratingTextRecurrent2011)