最新版ChatGPT-4优缺点评测:GPT4.0相当于人类什么水平?

生活网 2023-03-15 11:21:09

聊天机器人模型最新版本GPT-4技术到底怎么样?为了了解这模型差异,根据官方实验表明,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。

首先,在美国BAR律师执照统考模拟中,GPT-4得分约为前10%——击败了90%人类,而ChatGPT背后的GPT-3.5得分约为倒数10%;生物奥林匹克竞赛,GPT-3.5能达到后31%水平分位,GPT-4可达到前1%水平分位;研究生入学考试(GRE)、SAT数学考试成绩中,也有大幅提升,击败了80%以上的人类答题水平,而医学知识自测考试准确率达75%。

第二个测试是与其他英文机器学习模型的技术能力。研究团队使用微软AzureTranslate,将MMLU基准——一套涵盖57个主题、14000个多项选择题翻译成多种语言。在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中,有24种语言下,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla、PaLM)的英语语言性能。

而在TruthfulQA等外部基准测试方面,GPT-4也取得了进展。OpenAI测试了GPT-4模型将事实与错误陈述的对抗性选择区分开的能力。实验结果显示,GPT-4基本模型在此任务上仅比GPT-3.5略好。但在经过RLHF训练之后,二者的差距就很大了,例如GPT-4在测试中并不是所有时候它都能做出正确的选择。

此外,GPT-4还支持做编程、玩梗图、回答关键问题、理解图片、看懂法语题目并解答等其他更多扩展技术能力,研究人员发现,GPT-4能随着时间不断处理令人兴奋地新任务——现在的矛盾是AI的能力和人类想象力之间的矛盾。不过OpenAI表示,图像输入是研究预览,目前不公开。

总的来说,GPT-4相对于以前的模型(经过多次迭代和改进)已经显著减轻了判断失误问题。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比ChatGPT使用的GPT-3.5模型能力高40%。

很显然,虽然GPT-4对于许多现实场景的处理比人类差,但在各种专业和学术基准上已表现出和人类相当的水平。

不过,GPT-4模型也有很多不足,有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息,以及对实时事件的不了解等。

1、该模型在其输出中可能会有各种偏见,但OpenAI在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。

2、GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。

3、GPT-4预测时也可能出错但很自信,意识到可能出错时也不会再检查一遍(double-check)。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过OpenAI目前训练后的过程,校准减少了。

OpenAI表示,研究团队一直在对GPT-4进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。数据显示,与GPT-3.5相比,模型对不允许内容的请求的响应倾向降低了82%,而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合要求的频率提高了29%。

另外,OpenAI团队还聘请了50多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试,从而为改进GPT模型提供了依据。

“随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力——我们认为这对安全至关重要。”OpenAI表示。

目前GPT-4版本默认速率限制为每分钟40k个Token和每分钟200个请求,而GPT-4的上下文长度为8192个Token,最多提供32768个Token上下文(约50页文本)版本的有限访问,但版本也会随着时间自动更新。

不过,目前OpenAI公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,也不包括期待已久的AI视频功能,也并没有开放GPT-4的任何核心技术论文信息。

但OpenAI正在开源其软件框架OpenAIEvals,用于创建和运行基准测试以评估GPT-4等模型,同时逐个样本地检查它们的性能。

复旦大学计算机学院教授、博士生导师黄萱菁此前表示,OpenAI迄今为止没有开放过它的模型,只开放过API接口,你可以调用它,但拿不到GPT-3.5内部细节,而且今年连论文都没有,需要大家去猜测。

生活网声明:资讯来源于网络,属作者个人观点,仅供参考。 投诉
为您推荐
ChatGPT最新版本有什么缺点?GPT-4.0限制和局限功能简介 2023-03-15IT世界 GPT4.0可以用来做什么工作?chatGPT-4最新应用举例说明 2023-03-15IT世界 GPT-4和GPT-3.5真正区别在哪里?新版本更新有什么变化? 2023-03-15IT世界 GPT4在哪下载使用?人工智能chatGPT-4怎么开通? 2023-03-15IT世界
如何免费使用chatGPT4?GPT-4技术哪个软件可以用? 2023-03-15IT世界 华星光电的屏幕好吗?TCL华星最新屏幕什么水平? 2023-03-15IT世界 GPT4做一个网站只要十秒:GPT4和GPT3.5对比新版本有何升级? 2023-03-15IT世界 三千元手机性价比之王2023排行榜:3000左右手机哪款比较好? 2023-03-14IT世界
华为手表最新款是哪个型号?2023新上市WATCH最新消息汇总 2023-03-14IT世界 3000元最值得入手的手机是哪款?2023年红米三千左右的手机推荐 2023-03-14IT世界 3000元的手机推荐2023最新机型:iQOO哪款手机适合打游戏? 2023-03-14IT世界 三千左右买什么手机合适?2023年华为3000元手机哪个好? 2023-03-14IT世界
华为折叠屏手机最新款2023最新消息:MateX3新机配置如何? 2023-03-14IT世界 华为P60相机可以放大多少倍?手机光学变焦倍数或高于华为P50 2023-03-14IT世界 华为P60拍照影像怎么样?手机摄像头技术有什么更新升级? 2023-03-14IT世界 iPhone15和14版本更新变化一览:两款手机尺寸有什么不同? 2023-03-14IT世界
iPhone15和14的区别在哪里?2023新款外观设计有什么变化? 2023-03-14IT世界 苹果音箱最新款什么时候上市?2023HomePod发布时间最新消息汇总 2023-03-14IT世界 原神全球排名第几?2023年出海手游游戏最新排行榜第一 2023-03-14IT世界 三星S24最新消息2023汇总:Galaxy S24处理器是什么型号? 2023-03-14IT世界
苹果官方翻新机价格是多少?2023iPhone官方翻新手机多少钱? 2023-03-14IT世界 一加Ace2V芯片性能如何?一加Ace2V手机处理器速度快吗? 2023-03-13IT世界 一加Ace2V手机可以买吗?一加Ace2V值得不值得入手呢? 2023-03-13IT世界
m.life.southmoney.com
生活网 © 版权所有 闽ICP备18014564号-1
权利通知