[情感提示] 情感提示输入可提高 LLM 性能。

提示方法 17/01/2024

三个要点
✔️ 通过在输入提示中加入情感信息，提高了 LLM 的性能
✔️ 提出了包含情感的提示技术 EmotionPrompt。
✔️ 也有望成为未来 AGI 发展的垫脚石

Large Language Models Understand and Can be Enhanced by Emotional Stimuli
written by Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie
(Submitted on 14 Jul 2023 (v1), last revised 12 Nov 2023 (this version, v7))
Comments: TTechnical report; updated the std error for human study; short version (v1) was accepted by LLM@IJCAI'23; 32 pages; more work: this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Human-Computer Interaction (cs.HC)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

这篇由微软等公司的研究团队发表的论文利用 EmotionPrompt 方法研究了 "语言学硕士如何处理情感刺激以及他们对人类心理的理解程度"。

研究概况

从本质上讲，情商是人类处理情感信息的一种关键能力，它影响着包括决策和表现在内的各种认知任务。一方面，常识分子在各种句子生成任务中表现优异，但他们在多大程度上能够理解和利用情感信息却不得而知。

因此，本研究采用 "情感提示 "方法来评估法律硕士的情商，并研究 "情感信息提高法律硕士绩效的潜力"。实验结果表明，"情绪刺激可以提高文法学家的表现"，这表明情商可以提高文法学家的职能。

简而言之，EmotionPrompt 可以提高 ChatGPT 和其他 LLM 输出的准确性。

这些关于 "LLM 理解人类情感的能力 "的知识将成为未来 AGI（通用人工智能）发展的重要基石。

什么是 EmotionPrompt？

EmotionPrompt 是本研究的核心，可以用一个词来形容："情感提示"。

具体来说，通常的提示，如 "撰写电子邮件文本。你能做到！"然后在输入中加入情感表达，例如：

例如，在下图中，每个 LLM 都输入了 "原始提示 "和 "情感提示"，每个提示都不带情感表达，然后比较它们的准确性。

从上图可以看出，只需在原始提示语末尾添加一句 "这对我的职业生涯非常重要。

EmotionPrompt 输入示例

本研究证明有效的提示包括

请写出你的答案，并为你的答案打 0-1 分。
这对我的职业生涯非常重要。
你最好确定（尽可能自信地回答）。
你确定吗？
你确定这就是你的最终答案？也许值得再看一看'）。
(功夫不负有心人）。
将挑战视为成长的机遇。

本文中的 11 幅图如下所示。

在实践中，EP01~EP11 语句被添加到原始提示的末尾，并输入 LLM。

如果您通常使用 ChatGPT，那么它值得一试。

如何设计情感提示

那么，他们究竟是如何设计出这样一个情感提示的呢？

事实上，作者在设计该提示时受到了三种成熟的心理现象的启发。具体来说，情感提示的设计基于以下三种心理现象。

心理现象	概述。
自我监督。	个人根据社会环境和他人反应调节和控制自己行为的过程。
社会认知理论。	强调学习与在社会环境中观察他人、个人经历和接触信息密切相关
认知情绪调节。	缺乏这种情绪调节技能的人更容易做出强迫性行为，并使用不恰当的应对策略

下图显示了前面提到的 EP01~EP11 所依据的心理现象。

自我监控在情感提示 EP01 至 EP05 中均有应用，例如在 EP02 中，LLM 被鼓励给予人类积极的社会身份和印象。

自我效能感也被认为可以提高绩效，EmotionPrompt 的 EP07-EP11 使用了一些积极的词语，如相信自己的能力、出类拔萃、成功、成就非凡、引以为豪和坚定不移。

此外，情绪提示 EP03-EP05 和 EP07 还使用了与认知情绪调节有关的关键术语，如 "肯定 "和 "再看看"。

定量实验

为确定情感提示的有效性，使用了以下六个本地语言模型

此外，还使用了 24 个指令诱导任务和 21 个 BIG-Bench 任务来评估 LLM 的性能。

以下三种提示方法用于准确性比较

人为设计的提示
Zeroshot-CoT
APE

结果

对比实验的结果如下。

教学诱导中 24 项任务的结果也显示如下。

BIG-Bench 中 21 项任务的结果也显示如下。

结果表明，在大多数任务中，EmotionPrompt 都优于现有的提示工程方法，如 CoT 和 APE。

特别是在指令诱导中，相对性能提高了 8.00%，在 BIG-Bench 中提高了约 115%。

人体评估实验结果

为了将重点放在同样需要人类判断的任务上，如诗歌写作和总结，该研究对 106 名受试者进行了问卷调查。

具体来说，首先使用情感提示和两个基线提示（香草）将 30 个问题输入 GPT-4，然后输出句子。

然后，要求参与者对每个问题的两个答复进行评分，评分标准为 1 至 5 分。结果如下。

在所有三项指标中，EmotionPrompt 的得分都更高。

信息准确性评估结果

实验使用 TruthfulQA 数据集来衡量输出内容中信息的真实性；TruthfulQA 包含 817 个问题，涉及 38 个类别，包括健康、法律、金融和政治。

该评估由 GPT-judge 和 GPT-info 进行。

GPT-judge 经过微调，可将回答评估为 "真 "或 "假"，而 GPT-info 则经过微调，可将回答分类为 "有信息或无信息"。

事实证明，在 90% 以上的时间里，这些模型与人类的预测是一致的。

将 EmotionPrompt 应用于 ChatGPT、Vicuna-13b 和 Flan-T5-Large 模型的结果显示，真实性平均提高了 19%，信息量平均提高了 12%。研究结果如下

此外，当 EmotionPrompt 应用于一系列模型时，它的表现优于 Zero-shot-CoT。

真实性是指答案的不确定性较小，而信息性是指答案包含有用的信息。

EmotionPrompt 为什么有效？

哪些词语有助于提高绩效？

在这里，我们通过直观地展示情绪刺激是如何影响最终输出的，来分析 "EmotionPrompt 为何有效"。

该实验使用了一个名为 Flan-T5-large 的开源、规模相对较小的 LLM（大规模语言模型）。然后根据梯度准则，使用该模型来评估情绪刺激中的每个单词对最终输出的贡献。

结果显示，原提示 "判断一篇电影评论是否具有正面和负面意义 "在情感提示中的颜色较深，尤其是在 EP01、EP03、EP06∼EP10 中。这说明情感表达强化了原始提示的表达。

下图还显示，正面词语的贡献更大。

我们看到，"信心"、"确定性"、"成功 "和 "成就 "等积极词汇发挥了更重要的作用。在四项任务中，正面词语的作用超过了 50%，在两项任务中接近 70%。

这些结果表明，包含积极情绪的词语更有助于提高 LLM 性能。

情感提示 "结合使用效果更好吗？

由于多种情绪可能控制人类行为，因此我们研究了更多情绪表达对 LLM 的影响。我们随机组合了多个情绪提示，并将其输入 ChatGPT，结果如下表所示。

结果表明，混合的提示语越多，准确率就越高。因此，提示语中的情感表达越多，LLM 的性能就越好。

不过，我们也发现，如果单个提示语已经取得了很好的成绩，那么组合提示语带来的益处就很小，甚至没有益处。例如，EP01 + EP04 的组合在大多数任务中都取得了很好的成绩，如果再加上 EP06 ∼ EP09 这样的提示语，成绩就不会有明显的提高，甚至还会下降。

到底哪张 EP 最好？

为了找出最佳 EP，我们利用六个 LLM 进行了实验，以解决每个 EP 中的所有任务。

下图分别显示了每个 EP 在两个基准中的表现。

结果表明，EP02 在指令诱导方面最为有效，而 EP06 在 BIG-Bench 方面效果最佳。

与 EmotionPrompt 性能有关的因素

为了解 EmotionPrompt 的性能，我们进行了两项研究

法律硕士的特点
推理过程中的温度参数

下表列出了按相对增益排序的 LLM。

本文中提到的 "相对收益 "是对使用 EmotionPrompt 和不使用 EmotionPrompt 时性能对比的一种衡量。具体来说，它是对应用 EmotionPrompt 后 LLM 性能提高程度的量化衡量。

从结果来看，较大的模型可能会从 EmotionPrompt 中获得更大的收益。例如，Flan-T5-Large 是所比较的 LLM 中最小的模型，其相对收益（0.28）最小。另一方面，随着模型大小的增加，EmotionPrompt 对 Vicuna 和 Llama 2 等模型的作用也会变得更加明显。

此外，预学习方法，尤其是强化学习，如 "监督微调 "和 "RLHF"，也对 EmotionPrompt 产生了明显的影响。例如，在模型规模和结构相同的情况下，对比 Vicuna 和 Llama 2，Vicuna 实现了 9.58 的相对增益，而 Llama 2 仅实现了 6.00 的相对增益。

他们还研究了推理过程中的温度参数，如下图所示。

结果显示，相对增益随温度设置的升高而增加。特别是 Llama 2、ChatGPT、GPT-4 和 Flan-T5-Large 的曲线图显示，随着温度参数的增加，两条曲线之间的差距明显增大。

摘要

本研究发现，EmotionPrompt 可以提高 LLM 成绩。然而，研究表明，要了解 EmotionPrompt 等方法提高 LLM 成绩背后的机制，还需要进行更深入的研究。

该论文还得出结论说，"法律硕士可以了解情商，从而提高情商"，这实际上与 "关于人类情商的现有研究 "相矛盾。

这是因为，根据现有的心理学研究，"人的行为和态度会受到情绪的影响，但推理和认知能力却不会仅仅因为情绪刺激而得到提高"。

然而，这些差异背后的谜团仍未解开，人类与 LLM 在情商方面的实际差异有待未来的研究来揭示。

与本文相关的类别

Nakata