阅读列表:7

2023-07-11 二 22:36 2025-02-21 五 22:25

应用类

生物信息与医疗

Applications of transformer-based language models in bioinformatics: a survey | Bioinformatics Advances | Oxford Academic
- Shuang Zhang, Rui Fan, Yuti Liu, Shuang Chen, Qiao Liu, Wanwen Zeng
- Bioinformatics Advances 2023;
agemagician/ProtTrans: ProtTrans is providing state of the art pretrained language models for proteins. ProtTrans was trained on thousands of GPUs from Summit and hundreds of Google TPUs using Transformers Models.
[2304.07147] Cross Attention Transformers for Multi-modal Unsupervised Whole-Body PET Anomaly Detection
- Ashay Patel, Petru-Danial Tudiosu, Walter H.L. Pinaya, Gary Cook, Vicky Goh, Sebastien Ourselin, M. Jorge Cardoso
- Journal of Machine Learning for Biomedical Imaging2023; Ar5iv
- [2305.01526] Huatuo-26M, a Large-scale Chinese Medical QA Dataset
  - Jianquan Li, Xidong Wang, Xiangbo Wu, Zhiyi Zhang, Xiaolong Xu, Jie Fu, Prayag Tiwari, Xiang Wan, Benyou Wang
  - 深圳大数据研究院，港中文
  - Ar5iv 论文
  - 制作了 2600 万对医疗对话数据，问题是，搜索到了数据后，还要做什么？为了说明这个数据集好，作者做三方面的事情：
    - 比较了所有其他医学对话或通用数据集大小，该数据集规模大（当然在搜集数据时主要目的应该就是 "大"），来源包括在线医疗对话、医学百科全书、医学知识库。
    - 将数据集作为 benchmark: 用现有的经典（或者 SOTA）模型在该数据集上测试，效果都低于预期，这说明新数据集更"难" ，还有很大的探索和利用空间，作者用到的现有模型：
      - sparse retrieval 类： BM25, DeepCT
      - dense retrieval 类： DPR
      - 生成类： GPT2, T5
    - 把数据集作为当前模型的增强（与上一个任务对偶）：
      - 在该数据集上训练一个对话模型，然后用现有的经典医学对话数据集 cMedQA2 和 webMedQA 上做测试，发现效果不错，这说明新数据集比旧数据集覆盖面更广
      - 作为外部数据集用在 retrieval-augmented generation(RAG) 上，同样在 cMedQA2 和 webMedQA 上测试生成文本认为，效果更好
      - 由于数据集足够大，甚至可以用来做预训练，在 Bert 和 RoBERTa 上，训练出的模型在医学 NLP 任务上有很大提升。

3D, 机器人相关 `[4/4]`

☑
[2211.05272] GAPartNet: Cross-Category Domain-Generalizable Object Perception and Manipulation via Generalizable and Actionable Parts

对点云分割后的部分的语义理解，构造了数据集并提出新的 3d 语义分割方法

CVPR2023; Generalizable and Actionable Parts (GAParts).

从 PartNet-Mobility dataset and the AKB-48 dataset 里选出 1166 个 3d 实例，27 个分类，8489 个部分，在同类数据集里算是 large-scale 了，对“部分”的分类要求的是有类似的 visual recognition 以及 aligned actionability 也就是在样式和功能上都是相似的

同时为了解决
☑
[2305.10764] OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding
为了对点云和其他多模态（文本，图片）对比学习模型做 scaling, 设计了一些训练优化方法

NeruIPS2023,主要是构造了规模更大质量更高的 3d 物体的数据集（包括文本描述和不同视角图片）

方法包括：
- 将 Objaverse, ShapeNetCore, 3D-FUTURE and ABO 四个数据集合并成一个，对每个 3d 物体渲染 12 个不同角度的图片
- 用 GPT4 过滤了 Objaverse 里的一些不合理描述，因为该数据集是网络上的，很多对 3d 的描述是不准确的（比如 “2022 年 1 月设计作业”），用 BLIP 对 3D 物体的 thumbnail 做 caption 生成描述用图片相似搜索找到相近图片，把相近图片的描述也作为 3D 物体的文本描述
- 对比了不同点云编码器 scaling 前后在新的数据集上预训练的结果
- Hard Negative Mining: 由于数据样本的不平衡（比如房子是常见的点云对象，因此该分类里有非常多个，而钱包则很少），这意味着对比学习的时候，一些相似但类别不同的对象（苹果和樱桃）被放在同一个 batch 的概率很低，训练效率就会更低，因此作者先用一般的随机方式预训练，等网络接近收敛之后，用该网络的编码器去对各个点云做 knn, 找到特征层 k 邻近的 m 个点云。第二轮训练的时候，每个 batch 先随机选 s 个 3d 对象，并找到最邻近的 m 个其他点云，得到 sxm 个点云作为当前 batch 中的候选点云，由于相似性质，这些点云中就有和原始点云很接近的对象，但其中更容易包含类别相同的点云对，这导致假阴性（false negative），于是论文借助点云的图片和文本特征，把那些类别相同的点云对过滤掉。

☑
Same Object, Different Grasps: Data and Semantic Knowledge for Task-Oriented Grasping
发布 TaskGrasp 数据集和 GCNGrasp 框架

动机：To truly get to human-level grasping, we must study not just stable grasping or grasping for an object’s primary use-case but rather how to grasp depending on both the task and the object.

数据集信息：
- 单目 RGB-D 图片转成了点云（有多个视角的融合，但由于是相机扫描，且拍摄透明桌面上的物体，基本只有表面和单侧点云）作为输入，6-DOF grasps 姿态作为标注格式
- 191 个物体，56 个任务场景。75 个种类（根据 WordNet） 191 个物体和 56 个场景组合起来共有 10k 实例，这些实例会要求有不同的抓取姿势，对于每个实例随机标准了 600 个抓取姿势，用最远点采样选出相互距离比较远因此多样性更丰富的 25 个姿势，用 Amazon Mechanical Turk 众包方式去标注这 25 个姿势，用 0 表示在该任务下对物体不合理的抓取姿势，1 表示合理
算法实现：
- 用 GCN 进行知识图谱推理，其中一个图节点是用 pointnet++ 把包含抓取姿势的点云编码成的向量
☑
Point Cloud Completion: A Survey

主要关注输入部分点云 + 单视图 RGB 图片，输出原始点云和预测的缺失

https://ieeexplore.ieee.org/abstract/document/10366848

部分点云（PPC） + 单视图 RGB 图像： ViPC [19] 使用单视图图像获取全局结构先验信息，并结合来自部分输入的局部细节和相机姿态（视角）信息。相反，CSDN [35] 使用图像作为内在的、细粒度的形状特征来源，以微调生成的输出。 Aiello等人 [36] 和 Zhang等人 [37] 通过使用图像作为弱监督信号，探索互补信息和跨模态数据在粗到细补全中的应用。 Wu等人 [38] 将来自图像的2D特征信息与来自部分点云的3D特征信息相结合，用于无监督补全。

输入部分点云（PPC） + 预测的缺失部分：为了保留输入点云的原始局部细节，一些算法仅预测输入的缺失部分。然后，将预测结果与输入结合并进行优化，以实现更详细的结果 [12], [54], [56], [60], [67], [68], [69], [70], [71]。

radioLinkPopups

#collections

如对本文有任何疑问，欢迎通过 github issue 或进行反馈

应用类

生物信息与医疗

3D, 机器人相关 [4/4]

3D, 机器人相关 `[4/4]`