阅读列表:2

2023-07-11 二 22:36 2025-02-21 五 22:25

自然语言处理

Seq2Seq, MT, Subword Models

[[https://www.aclweb.org/anthology/P02-1040.pdf][BLEU]]
[[https://arxiv.org/pdf/1409.3215.pdf][Sequence to Sequence Learning with Neural Networks]]
[[https://arxiv.org/pdf/1211.3711.pdf][early seq2seq speech recognition pape:Sequence Transduction with Recurrent Neural Networks]]
[[https://arxiv.org/pdf/1409.0473.pdf][original seq2seq+attention paper: Neural Machine Translation by Jointly Learning to Align and Translate ]]
[[https://distill.pub/2016/augmented-rnns/][Attention and Augmented Recurrent Neural Networks]]
[[https://arxiv.org/pdf/1703.03906.pdf][practical advice for hyperparameter choices: Massive Exploration of Neural Machine Translation Architectures]]
[[https://arxiv.org/abs/1604.00788.pdf][Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models]]
[[https://arxiv.org/pdf/1808.09943.pdf][Revisiting Character-Based Neural Machine Translation with Capacity and Compression]]

Attention and Transformers

通用可控序列生成(NLG)

代码生成

相比自然语言的好处是,生成结果可以自动执行并验证正确性

[[https://arxiv.org/pdf/2108.07732.pdf][Program Synthesis with Large Language Models]]
[[https://www.science.org/doi/full/10.1126/science.abq1158][Competition-level code generation with AlphaCode]]
[[https://arxiv.org/abs/2107.03374][Evaluating Large Language Models Trained on Code]]

关联较弱文章

形式化方法与 LLM 结合

这里并不一定是生成,但用到了形式化方法

  • Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought | OpenReview

    • Abulhair Saparov, He He
    • ICLR2023 ; P1

    为什么还需要别的方式来分析 CoT, 原论文的分析哪里不足? 核心在于没有对推理的每一步进行检查,评审也提到本文很多结论与其他论文类似,但核心是提供了一种形式化的分析实验。

    构造了一个根据一阶逻辑自动生成的数据集 PrOntoQA, CoT 里的 steps 都是形式语言,可以被直接 parse

    在 InstructGPT 和 GPT-3 上的结果表明,LLMs 单步演绎推理的能力很强,但是对于 proof planning 比较弱, When multiple valid deduction steps are available, they are not able to systematically explore the different options. 这个结论可能会导向 ToT

  • AND does not mean OR: Using Formal Languages to Study Language Models’ Representations - ACL Anthology

    • Aaron Traylor, Roman Feiman, Ellie Pavlick
    • ACL2021 short; P1

    作者想回答一个很好的问题:

    Under what conditions should we expect that meaning and form covary sufficiently, such that a language model with access only to form might nonetheless succeed in emulating meaning?

    结论是实验中模型都无法区分 AND 和 OR 等,如何做实验论证呢?

  • Pushing the Limits of Rule Reasoning in Transformers through Natural Language Satisfiability | Proceedings of the AAAI Conference on Artificial Intelligence

    • Kyle Richardson, Ashish Sabharwal
    • AAAI2022; Allen Institute

    提出了一个根据形式理论对难度进行分类的数据集(以及制造这种数据集的方法,数据集是形式生成,但用的是自然语言), 其中主要是 natural language satisfiability (NLSat) problems.

    有点类似 Corr2Cau 数据?

  • Fine-Tuning Language Models Using Formal Methods Feedback | OpenReview

    • NuCLeaR 2024

    这里作者用生成的数据进行指令微调,问题是这里是在自动驾驶场景上应用的,兴趣度减少

  • Dehallucinating Large Language Models Using Formal Methods Guided Iterative Prompting

    • Susmit Jhaa etl
    • ICAA2023

    这个会议关注点在安全性上,该论文场景也是自动驾驶,只提出了一个大体框架

具体实现问题: How to develop beam search with a set of predefined responses? · Issue #81 · google/seq2seq

Editor

中文输入法

(只考虑深度学习模型) 传统 Ngram 的问题:只考虑文本中的局部上下文(即前 N-1 个词),因此它不能捕捉到超过 N 个词的长距离依赖关系。 这可能满足了 70% 需求了,因为大部分人打字输入的时候也不会太长,2 到 4 个可能是最多的,另外由于输入法的选项是实时出现的,因此输入用户输入很长的句子时,可以先确定之前的输入,然后继续用 ngram

  • [1810.09309] Real-time Neural-based Input Method
    • Jiali Yao, Raphael Shu, Xinjian Li, Katsutoshi Ohtsuki, Hideki Nakayama
    • 微软、CMU Ar5iv
    • 关键在于 real time, 实际是对 softmax 的优化,不是讲新输入法算法,为什么可以优化?

      To solve the issue, we propose incremental softmax approximation approach, which computes softmax with a selected subset vocabulary and fix the stale probabilities when the vocabulary is updated in future steps. We refer to this method as incremental selective softmax

  • [1712.04158] Tracing a Loose Wordhood for Chinese Input Method Engine
    • Xihu Zhang, Chu Wei, Hai Zhao (上交) Ar5iv 这是 pinyinGPT 在提到拼音切分准确度到 98% 时引用的,但发现这篇文章并不是做拼音切分
  • Moon IME: Neural-based Chinese Pinyin Aided Input Method with Customizable Association - ACL Anthology
    • Yafang Huang, Zuchao Li, Zhuosheng Zhang, Hai Zhao (上交)
    • ACL2018 system Demo 论文,不是 long paper, 介绍了对输入法功能进行扩展的系列方案,包括自动补全(seq2seq),相似词汇推荐和联想(搜索),甚至还有拼音到英文的翻译等,没有提到技术细节。 论文中 association function 就是联想功能。
  • Open Vocabulary Learning for Neural Chinese Pinyin IME - ACL Anthology
    • Zhuosheng Zhang, Yafang Huang, Hai Zhao (上交 2019 ACL ) Ar5iv
    • seq2seq 模型,双向 LSTM 编码器是拼音序列,通过 attention 连接到解码器,解码器里中文上下文的 embedding 包括了词粒度和字粒度(这是过去融合特征的典型手段),预测的时候是用预测的 output_states 和所有候选词的 embedding 内积排序来实现,主要是可以和词库里的新增词做比较筛选。

      加入了一个动态词库,比如用户输入时选择了某个词,那么这个词会被加入到动态词库里。

      个人感觉这种方法更接近在传统输入法上加入了语言模型来 rerank 的思路

QA 推理增强

Compositional Generalization COGS: A Compositional Generalization Challenge Based on Semantic Interpretation - ACL Anthology

[2303.13716] ReCOGS: How Incidental Details of a Logical Form Overshadow an Evaluation of Semantic Interpretation

Finetuned Language Models Are Zero-Shot Learners Learning to summarize from human feedback

QA:

  • 封闭性:这里主要指根据某个非结构文本来回答问题。(理论上 QA 是考验机器的"理解能力",但很多封闭数据集已经 solved, 不过机器的理解能力并没有被认为达到人类水平,因为对抗样本或者 OOD 样本表现还是很差)
  • 开放性: open domain

QA 和 chatgpt 通用对话的区别是什么? QA 实际更偏重解决问题,有许多实际应用,比如取代顾问,行政人员,比如去初次去办理财务报销,有很多问题,这些问题更多是针对某些财务流程文件的询问。

SQuAD: 100,000+ Questions for Machine Comprehension of Text Bidirectional Attention Flow for Machine Comprehension Reading Wikipedia to Answer Open-Domain Questions Latent Retrieval for Weakly Supervised Open Domain Question Answering Dense Passage Retrieval for Open-Domain Question Answering Learning Dense Representations of Phrases at Scale

CoT W/o Prompting

(NO_ITEM_DATA:wangChainofThoughtReasoningPrompting2024)

  • deepmind 团队

作者说在 top k 采样中,有一些就是天然的 CoT 路径,这个思路可能是显然的,极端来说,所有随机采样路径中, 肯定有一些是有 CoT 的,因此一般人可能不会想到这能继续如何研究,如何能识别出这种 CoT?

  • 加入一个额外的判断这是否为 CoT 的模型进行筛选?
  • 加入某种语法检查机制里判断其中是多步的?
  • 手动检查?那就回到完全解释性分析了,能否进入应用层面?

发现在 topk 里,自然就偏向 CoT? we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model’s decoded answer. 这真的是有趣的发现了。这是一种心细地检查,经验上验证:

  • 哪些数据里这种现象更普遍?
  • 如果有 few-shot 方式,decoding 结果会如何?

还能做什么样的研究来支撑这个发现?

  • 只对第一步解码的时候采取 topk 分支,当然这部分需要实验来支撑?什么实验?
    • 更多的 top k 分支,比如扩展到 beam search
  • 2.2 是最核心的,引入了一个基于 logits 的"特征值", 这个值越高,那么 CoT 路径得分也越高
  • 其他问题:

    • 包括如何提取出答案,因为如果是 few-shot, 答案更多是固定出现的
    • 在不同位置进行 branching
    • 类似 self-consistency 聚合后的效果
    • 在 standard QA 下采样的问题

    另外,对解码器限制的成本不比 prompt 低,因为解码要探索更多的空间,这个代价可能比 attention 还高

提到了 bypasses the confounders of prompting 这个概念

  • 用 PaLM-2: 这个足够吗?是否要考虑 gpt4
  • 还有 Mistral 模型

模型分析、解释和编辑

[[https://web.stanford.edu/class/cs224n/slides/cs224n-2023-lecture18-analysis.pdf][Analysis and Interpretability Basics (by John Hewitt)]]

[[https://web.stanford.edu/class/cs224n/slides/Been-Kim-StanfordLectureMarch2023.pdf][Model Interpretability and Editing (by Been Kim)]]

[[https://dl.acm.org/doi/10.1145/2939672.2939778][LIME: Ribeiro et al. 2016]]
[[https://aclanthology.org/P19-1452/][Probing: Tenney et al. 2018]]
[[http://proceedings.mlr.press/v70/sundararajan17a.html][IG: Sundararajan et al. 2017]]
[[https://ai.stanford.edu/blog/causal-abstraction/][Causal abstraction: Geiger et al. 2022]]
[[https://proceedings.mlr.press/v162/geiger22a.html][IIT: Geiger, Wu, et al. 2022]]
[[https://arxiv.org/abs/2303.02536][DAS: Geiger, Wu, et al. 2023]]
[[https://distill.pub/2020/circuits/][Circuits: Cammarata et al. 2020]]
radioLinkPopups

如对本文有任何疑问,欢迎通过 github issue 邮件 metaescape at foxmail dot com 进行反馈