2023年09月22日:Language Models of Code are Few-Shot Commonsense Learners

  • 主页 /
  • 通知公告 /
  • 通知公告

2023年09月22日:Language Models of Code are Few-Shot Commonsense Learners

【报告内容】

汇报人:陈可纬

汇报单位:福建理工大学

主题:《Language Models of Code are Few-Shot Commonsense Learners》

1、Introduction

2、Method

3、Experiments

4、Conclusion

【报告总结】

1.待解决的问题描述

不同于传统的常识推理任务,如阅读理解或问答,结构化常 识旨在在给定自然语言输入的情况下生成结构化输出。结构化常识推理任务依赖于 LLM 学习的自然语言知识,并  且需要复杂的结构化预测和生成能力。语言模型主要在自由格式文本上进行预训练,而这些序列化 结构化输出与大多数预训练数据有很大差异。因此语言模型 在结构化常识推理任务上效果不理想。

2.相关创新方案

1)将所需的输出图扁平化为类似于代码段的形式,以便于模型更好的去理解,将结构化文本推理任务转化为更容易被模型理解的代码生成任务;

2)用Code-LLM 来替换 NL-LLM 从而更好地理解转换为代码生成任务的结构化推理任务;

3)将一定数量的文本和代码段进行一定组合,扩充,然后作为prompt,引导模型进行结构化常识推理。

3.实验总结

 1)提出了第一个使用大型语言代码模型进行结构化常识生成的工作。通过将输出的常识性结构转换为Python代码,提供了一种简单有效的方法,可以利用CodeLLM的代码生成能力进行结构化生成。这些结果为结构常识推理开辟了一个有希望的方向。

 2)本文提出的规则和方法适用于需要“语言理解”和结构化预测的其他 NLP 任务。

 (3)证明了Code-LLM 是比 NL-LLM 结构更好的常识推理器。

4.未来工作

我们工作的另一个局限性是,我们只使用英语数据集进行实验。探索结构化生成方法在跨语言环境中的有效性是一件有趣且重要的事情,考虑如何提高模型的解释性和可解释性,特别是当模型生成代码段时。这对于实际应用和对模型决策的信任至关重要。在结构化常识推理任务中,社交和情感因素可能起到重要作用。考虑如何在任务中考虑这些因素,以更准确地模拟人类的常识推理能力。

报告时间:2023年092219:30

腾讯会议:371 3868 6615

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)