近期,新一代语言模型ChatGPT引起了广泛关注。由OpenAI开发的ChatGPT在短短两个月内吸引了超过1亿的活跃用户,成为了备受瞩目的人工智能聊天机器人程序。今年3月,OpenAI发布了其最新版本的大型语言模型GPT-4。而最近,加拿大科学家在《放射学》杂志上发表的一篇新论文中提到,ChatGPT通过了美国放射学委员会的考试。

为了评估ChatGPT在美国放射学委员会考试问题上的表现,并探索其优势和局限性,多伦多大学的研究人员进行了相关测试。研究团队使用了150道与加拿大皇家学院和美国放射学委员会考试风格、内容和难度相当的选择题。
根据研究结果,基于GPT-3.5的ChatGPT在这些考题中的正确率为69%,接近70%的及格线。该模型在解答低阶思维问题方面表现较好,正确率达到84%。然而,在回答高级思维问题时,其正确率仅为60%。
与此同时,性能更为优异的GPT-4在这些选择题中的正确率达到了81%。而在高阶思维问题方面,GPT-4的正确率也为81%。值得注意的是,尽管GPT-4在高阶思维问题上表现出色,但在低阶思维问题上的正确率仅为80%,答错了12道题。相比之下,GPT-3.5在这些题目上全部答对,这引发了研究团队对GPT-4收集信息可靠性的担忧。
ChatGPT通过美国放射学委员会的考试,但其在不同思维层次问题上的表现存在差异。随着语言模型的发展,尤其是GPT-4的问世,人们对其在各个领域的应用和性能表现充满期待,但同时也需关注其可靠性和局限性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。