阅读列表:7
应用类
生物信息与医疗
- Applications of transformer-based language models in bioinformatics: a survey | Bioinformatics Advances | Oxford Academic
- Shuang Zhang, Rui Fan, Yuti Liu, Shuang Chen, Qiao Liu, Wanwen Zeng
- Bioinformatics Advances 2023;
- agemagician/ProtTrans: ProtTrans is providing state of the art pretrained language models for proteins. ProtTrans was trained on thousands of GPUs from Summit and hundreds of Google TPUs using Transformers Models.
-
- Ashay Patel, Petru-Danial Tudiosu, Walter H.L. Pinaya, Gary Cook, Vicky Goh, Sebastien Ourselin, M. Jorge Cardoso
- Journal of Machine Learning for Biomedical Imaging2023; Ar5iv
- [2305.01526] Huatuo-26M, a Large-scale Chinese Medical QA Dataset
- Jianquan Li, Xidong Wang, Xiangbo Wu, Zhiyi Zhang, Xiaolong Xu, Jie Fu, Prayag Tiwari, Xiang Wan, Benyou Wang
- 深圳大数据研究院,港中文
- Ar5iv 论文
- 制作了 2600 万对医疗对话数据,问题是,搜索到了数据后,还要做什么?为了说明这个数据集好,作者做三方面的事情:
- 比较了所有其他医学对话或通用数据集大小,该数据集规模大(当然在搜集数据时主要目的应该就是 "大"),来源包括在线医疗对话、医学百科全书、医学知识库。
- 将数据集作为 benchmark: 用现有的经典(或者 SOTA) 模型在该数据集上测试,效果都低于预期,这说明新数据集更"难" ,还有很大的探索和利用空间,作者用到的现有模型:
- sparse retrieval 类: BM25, DeepCT
- dense retrieval 类: DPR
- 生成类: GPT2, T5
- 把数据集作为当前模型的增强(与上一个任务对偶):
- 在该数据集上训练一个对话模型,然后用现有的经典医学对话数据集 cMedQA2 和 webMedQA 上做测试,发现效果不错, 这说明新数据集比旧数据集覆盖面更广
- 作为外部数据集用在 retrieval-augmented generation(RAG) 上,同样在 cMedQA2 和 webMedQA 上测试生成文本认为,效果更好
- 由于数据集足够大,甚至可以用来做预训练,在 Bert 和 RoBERTa 上,训练出的模型在医学 NLP 任务上有很大提升。
3D, 机器人相关 [4/4]
- ☑
对点云分割后的部分的语义理解,构造了数据集并提出新的 3d 语义分割方法
CVPR2023; Generalizable and Actionable Parts (GAParts).
从 PartNet-Mobility dataset and the AKB-48 dataset 里选出 1166 个 3d 实例,27 个分类,8489 个部分,在同类数据集里算是 large-scale 了,对“部分”的分类要求的是 有类似的 visual recognition 以及 aligned actionability 也就是在样式和功能上都是相似的
同时为了解决
- ☑
[2305.10764] OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding
为了对点云和其他多模态(文本,图片)对比学习模型做 scaling, 设计了一些训练优化方法
NeruIPS2023,主要是构造了规模更大质量更高的 3d 物体的数据集(包括文本描述和不同视角图片)
方法包括:
- 将 Objaverse, ShapeNetCore, 3D-FUTURE and ABO 四个数据集合并成一个,对每个 3d 物体渲染 12 个不同角度的图片
- 用 GPT4 过滤了 Objaverse 里的一些不合理描述,因为该数据集是网络上的,很多对 3d 的描述是不准确的(比如 “2022 年 1 月设计作业”),用 BLIP 对 3D 物体的 thumbnail 做 caption 生成描述 用图片相似搜索找到相近图片,把相近图片的描述也作为 3D 物体的文本描述
- 对比了不同点云编码器 scaling 前后在新的数据集上预训练的结果
- Hard Negative Mining: 由于数据样本的不平衡(比如房子是常见的点云对象,因此该分类里有非常多个,而钱包则很少),这意味着对比学习的时候,一些相似但类别不同的对象(苹果和樱桃)被放在同一个 batch 的概率很低,训练效率就会更低,因此作者先用一般的随机方式预训练,等网络接近收敛之后,用该网络的编码器去对各个点云做 knn, 找到特征层 k 邻近的 m 个点云。第二轮训练的时候,每个 batch 先随机选 s 个 3d 对象,并找到最邻近的 m 个其他点云,得到 sxm 个点云作为当前 batch 中的候选点云,由于相似性质,这些点云中就有和原始点云很接近的对象,但其中更容易包含类别相同的点云对,这导致假阴性(false negative),于是论文借助点云的图片和文本特征,把那些类别相同的点云对过滤掉。
- ☑
Same Object, Different Grasps: Data and Semantic Knowledge for Task-Oriented Grasping
发布 TaskGrasp 数据集和 GCNGrasp 框架
动机:To truly get to human-level grasping, we must study not just stable grasping or grasping for an object’s primary use-case but rather how to grasp depending on both the task and the object.
数据集信息:
- 单目 RGB-D 图片转成了点云(有多个视角的融合,但由于是相机扫描,且拍摄透明桌面上的物体,基本只有表面和单侧点云)作为输入,6-DOF grasps 姿态作为标注格式
- 191 个物体,56 个任务场景。75 个种类(根据 WordNet) 191 个物体和 56 个场景组合起来共有 10k 实例,这些实例会要求有不同的抓取姿势,对于每个实例随机标准了 600 个抓取姿势,用最远点采样选出相互距离比较远因此多样性更丰富的 25 个姿势,用 Amazon Mechanical Turk 众包方式去标注这 25 个姿势,用 0 表示在该任务下对物体不合理的抓取姿势,1 表示合理
算法实现:
- 用 GCN 进行知识图谱推理,其中一个图节点是用 pointnet++ 把包含抓取姿势的点云编码成的向量
- ☑
Point Cloud Completion: A Survey
主要关注输入部分点云 + 单视图 RGB 图片,输出原始点云和预测的缺失
https://ieeexplore.ieee.org/abstract/document/10366848
部分点云(PPC) + 单视图 RGB 图像: ViPC [19] 使用单视图图像获取全局结构先验信息,并结合来自部分输入的局部细节和相机姿态(视角)信息。 相反,CSDN [35] 使用图像作为内在的、细粒度的形状特征来源,以微调生成的输出。 Aiello等人 [36] 和 Zhang等人 [37] 通过使用图像作为弱监督信号,探索互补信息和跨模态数据在粗到细补全中的应用。 Wu等人 [38] 将来自图像的2D特征信息与来自部分点云的3D特征信息相结合,用于无监督补全。
输入部分点云(PPC) + 预测的缺失部分: 为了保留输入点云的原始局部细节,一些算法仅预测输入的缺失部分。然后,将预测结果与输入结合并进行优化,以实现更详细的结果 [12], [54], [56], [60], [67], [68], [69], [70], [71]。