关于GPT-4的一些技术要点

关于GPT-4的一些技术要点

OpenAI宣布创建GPT-4,这是一个大型多模态模型,能够接受图像和文本输入,同时发出文本输出。该模型在各种专业和学术基准上表现出人类水平的性能,尽管它在许多现实世界的场景中的能力不如人类。例如,GPT-4的模拟律师考试分数约为应试者的前10%,而GPT-3.5的分数则约为后10%。OpenAI花了6个月时间,利用从他们的对抗性测试项目和其他来源获得的经验,反复调整GPT-4。因此,该模型在事实性、可引导性和保持在护栏内等方面的表现比以前的版本更好,但仍有改进的空间。

GPT-3.5和GPT-4之间的差异在闲谈中可能是微妙的,但在处理复杂的任务时就变得很明显。GPT-4在可靠性、创造性和处理细微指令的能力方面优于GPT-3.5。各种基准被用来测试两个模型之间的差异,包括最初为人类准备的模拟考试。所用的考试是最新的公开考试或明确为此目的而购买的2022-2023年练习考试。没有为这些考试做专门的训练,尽管模型之前在训练中遇到了一小部分问题。获得的结果被认为是有代表性的,可以在技术报告中找到。

一些比较的结果

GPT-4和GTP-3.5对比结果

Source : https://openai.com/research/gpt-4

GTP-4不同语种测试结果
Source : https://openai.com/research/gpt-4

视觉输入

🔥推荐阅读-利用TensorLeap进行有效的迁移学习:克服领域差距

GPT-4可以处理文本和图像输入,允许用户指定任何语言或视觉任务。它可以根据包括各种领域的文字和图像的输入,如带有文字的文件、照片、图表或屏幕截图,生成自然语言和代码等文本输出。GPT-4在纯文本和混合输入上显示类似的能力。它还可以用为纯文本语言模型开发的技术来加强,如少数几个镜头和思维链的提示。然而,图像输入功能仍处于研究阶段,没有公开提供。

局限性

尽管GPT-4具有令人印象深刻的能力,但它与它的前辈们有着类似的局限性。它的主要局限性之一是缺乏完全的可靠性,因为它仍然倾向于产生不正确的信息和推理错误,通常被称为 “幻觉”。因此,在利用语言模型输出时,尤其是在高风险的情况下,谨慎行事是至关重要的。为了解决这个问题,应该根据具体的使用情况采取不同的方法,如人工审查、以额外的背景为基础,或完全避免高风险的使用。

尽管它仍然面临着可靠性的挑战,但与以前的模型相比,GPT-4在减少幻觉方面显示出明显的改进。内部对抗性事实评估表明,GPT-4的得分比最新的GPT-3.5模型高40%,比以前的迭代有很大的改进。

语言模型GPT-4可能在其输出中表现出偏差,尽管努力减少偏差。该模型的知识仅限于2021年9月之前的事件,需要从经验中学习。它有时会犯推理错误,过于轻信他人,并在困难的问题上失败,与人类类似。GPT-4可能会自信地做出不正确的预测,通过目前的后期训练过程,它的校验率会降低。然而,目前正在努力确保该模型具有合理的默认行为,反映出广泛的用户价值,并可在一定范围内根据公众的意见进行定制。

评论留言