跳到主要内容

GPT4在各种专业和学术基准上表现出全面超越人类水平的表现

昨天OpenAI发布GPT4,相较于GPT3.5,GPT4的能力提升,官方给的回答是:在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现 GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

另外GPT4是多模态,相对3,输入除了文本多了图像。(图像现在仍然是预览版的功能,还未开放)

官方举了个很形象的GPT4相较于3的推理能力和文字对话能力的一个例子。

上面是GPT3.5,老的GPT只能写到A-G,就编不下去了,新的GPT对这种任务非常轻松:

A beautiful Cinderella, dwelling eagerly, finally gains happiness; inspiring jealous kin, love magically nurtures opulent prince; quietly rescues, slipper triumphs, uniting very wondrously, xenial youth zealously.

GPT4在最初为人类设计的模拟考试的测试结果

从测试结果可以看出GPT4相较于3.5在统一律师资格考试,高考,GRE定量数学,提升显著,分别从和人类一起参加考试的排名后10%提升至前10%;后40%提升至前12%;后25%提升至前20%。

GPT4在大规模多任务语言理解的测试结果

GPT4出来之前的测试结果:

ModelAuthorsHumanitiesSocial SciencesSTEMOtherAverage
Chinchilla (70B, few-shot)Hoffmann et al., 202263.679.354.973.967.5
Gopher (280B, few-shot)Rae et al., 202156.271.947.466.160.0
GPT-3 (175B, fine-tuned)Brown et al., 202052.563.941.457.953.9
flan-T5-xlChung et al., 202246.357.739.055.149.3
UnifiedQAKhashabi et al., 202045.656.640.254.648.9
GPT-3 (175B, few-shot)Brown et al., 202040.850.436.748.843.9
GPT-3 (6.7B, fine-tuned)Brown et al., 202042.149.235.146.943.2
flan-T5-largeChung et al., 202239.149.133.247.441.9
flan-T5-baseChung et al., 202234.038.127.637.034.2
GPT-2Radford et al., 201932.833.330.233.132.4
flan-T5-smallChung et al., 202229.930.927.529.729.5
Random BaselineN/A25.025.025.025.025.0

GPT4的测试结果:

在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型。

综合来说,GPT4虽然在现实世界场景中的能力不如人类,GPT4在各种专业和学术基准上表现出全面超越人类水平的表现。