ChatGPT通过美放射学委员会考试，优势与局限性显露

AI资讯2年前 (2023)发布 GPTHub

116 0 12

近期，新一代语言模型ChatGPT引起了广泛关注。由OpenAI开发的ChatGPT在短短两个月内吸引了超过1亿的活跃用户，成为了备受瞩目的人工智能聊天机器人程序。今年3月，OpenAI发布了其最新版本的大型语言模型GPT-4。而最近，加拿大科学家在《放射学》杂志上发表的一篇新论文中提到，ChatGPT通过了美国放射学委员会的考试。

为了评估ChatGPT在美国放射学委员会考试问题上的表现，并探索其优势和局限性，多伦多大学的研究人员进行了相关测试。研究团队使用了150道与加拿大皇家学院和美国放射学委员会考试风格、内容和难度相当的选择题。

根据研究结果，基于GPT-3.5的ChatGPT在这些考题中的正确率为69%，接近70%的及格线。该模型在解答低阶思维问题方面表现较好，正确率达到84%。然而，在回答高级思维问题时，其正确率仅为60%。

与此同时，性能更为优异的GPT-4在这些选择题中的正确率达到了81%。而在高阶思维问题方面，GPT-4的正确率也为81%。值得注意的是，尽管GPT-4在高阶思维问题上表现出色，但在低阶思维问题上的正确率仅为80%，答错了12道题。相比之下，GPT-3.5在这些题目上全部答对，这引发了研究团队对GPT-4收集信息可靠性的担忧。

ChatGPT通过美国放射学委员会的考试，但其在不同思维层次问题上的表现存在差异。随着语言模型的发展，尤其是GPT-4的问世，人们对其在各个领域的应用和性能表现充满期待，但同时也需关注其可靠性和局限性。