TDWI 圣地亚哥 | 8 月 6 日至 11 日 | 6 月 16 日之前,KD30 可节省 30%
ChatGPT 代码解释器:几分钟内完成数据科学
这个新的 ChatGPT 插件可以分析数据、编写 Python 代码和构建机器学习模型。

图片来自中途
作为一名数据科学家,我一直在寻找最大限度提高效率并利用数据驱动商业价值的方法。
因此,当 ChatGPT 发布其最强大的功能之一——代码解释器插件时,我只需尝试将其合并到我的工作流程中即可。
什么是 ChatGPT 代码解释器?
如果您还没有听说过 Code Interpreter,这是一项新功能,允许您在 ChatGPT 界面中上传代码、运行程序和分析数据。
在过去的一年里,每次我必须调试代码或分析文档时,我都必须复制我的工作并将其粘贴到 ChatGPT 中才能获得响应。
事实证明,这非常耗时,而且 ChatGPT 界面有字符限制,这限制了我分析数据和执行机器学习工作流程的能力。
代码解释器允许您将自己的数据集上传到 ChatGPT 界面,从而解决了所有这些问题。
虽然它被称为“代码解释器”,但这个功能并不局限于程序员——该插件可以帮助您分析文本文件、总结 PDF 文档、构建数据可视化,甚至根据您想要的比例裁剪图像。
如何访问代码解释器?
在我们进入其应用程序之前,让我们快速了解一下如何开始使用代码解释器插件。
要访问此插件,您需要付费订阅ChatGPT Plus,目前价格为每月 20 美元。
不幸的是,代码解释器尚未向未订阅 ChatGPT Plus 的用户提供。
付费订阅后,只需导航到ChatGPT并单击界面左下角的三个点即可。
然后,选择设置:

作者提供的图片
单击“Beta features”并启用显示代码解释器的滑块:

作者提供的图片
最后,点击“New Chat”,选择“GPT-4”选项,然后在出现的下拉菜单中选择“Code Interpreter”:
您将看到如下所示的屏幕,文本框附近有一个“+”符号:

作者提供的图片
伟大的!您现在已成功启用 ChatGPT 代码解释器。
在本文中,我将向您展示使用代码解释器自动化数据科学工作流程的五种方法。
1. 数据汇总
作为一名数据科学家,我花了很多时间试图理解数据集中存在的不同变量。
代码解释器在为您分解每个数据点方面做得很好。
以下是如何获取模型来帮助您汇总数据:
在本例中,我们使用Kaggle 上的泰坦尼克号生存预测数据集。我将使用“ train.csv”文件。
下载数据集并导航到代码解释器:

作者提供的图片
单击“+”符号并上传您要摘要的文件。
然后,请 ChatGPT 简单地解释一下该文件中的所有变量:

作者提供的图片
瞧!
代码解释器为我们提供了数据集中每个变量的简单解释。
2. 探索性数据分析
现在我们已经了解了数据集中的不同变量,让我们让 Code Interpreter 更进一步并执行一些 EDA。

作者提供的图片
该模型生成了 5 个图,使我们能够更好地理解该数据集中的不同变量。
如果单击“Show work”下拉列表,您会注意到 Code Interpreter 已编写并运行 Python 代码来帮助我们实现最终结果:

作者提供的图片
如果您想执行进一步的分析,您可以随时将此代码复制粘贴到您自己的 Jupyter Notebook 中。
ChatGPT 还根据生成的可视化结果为我们提供了对数据集的一些见解:

作者提供的图片
它告诉我们,女性、头等舱乘客和年轻乘客的存活率更高。
这些见解需要花费一些时间才能手动得出,特别是如果您不熟悉 Python 和 Matplotlib 等数据可视化库。
代码解释器只需几秒钟即可生成它们,从而显着减少了执行 EDA 所需的时间。
3. 数据预处理
我花了很多时间清理数据集并为建模过程做好准备。
让我们让 Code Interpreter 帮助我们预处理这个数据集:

作者提供的图片
代码解释器概述了清理此数据集过程中涉及的所有步骤。
它告诉我们,我们需要处理三个缺失值的列,对两个分类变量进行编码,执行一些特征工程,并删除与建模过程无关的列。
它继续创建一个 Python 程序,在短短几秒钟内完成所有预处理。
如果您想了解模型执行数据清理所采取的步骤,您可以单击“显示工作”:

作者提供的图片
然后,我询问 ChatGPT 如何保存输出文件,它为我提供了一个可下载的 CSV 文件:

作者提供的图片
请注意,在整个过程中我什至不需要运行一行代码。
Code Interpreter 能够摄取我的文件,在界面中运行代码,并在创纪录的时间内为我提供输出。
4. 构建机器学习模型
最后,我要求 Code Interpreter 使用预处理的文件构建机器学习模型来预测一个人是否会在泰坦尼克号沉船事故中幸存:

作者提供的图片
它在一分钟内建立了模型,并且能够达到 83.2% 的准确率。
它还为我提供了一个混淆矩阵和总结模型性能的分类报告,并解释了所有指标所代表的含义:

作者提供的图片
我要求 ChatGPT 向我提供一个输出文件,将模型预测与乘客数据进行映射。
我还想要一个它创建的机器学习模型的可下载文件,因为我们将来总是可以在它的基础上进行进一步的微调和训练:

作者提供的图片
5. 代码说明
我发现代码解释器的另一个有用的应用是它能够提供代码解释。
就在前几天,我正在研究一个情感分析模型,并在 GitHub 上发现了一些与我的用例相关的代码。
我不理解整个代码,因为作者导入了我不熟悉的库。
使用代码解释器,您只需上传代码文件并要求它清楚地解释每一行。
您还可以要求它调试和优化代码以获得更好的性能。
这是一个示例?–我上传了一个文件,其中包含我几年前编写的用于构建 Python 仪表板的代码:

作者提供的图片
代码解释器分解了我的代码并清楚地概述了每个部分所做的事情。

作者提供的图片
它还建议重构我的代码以提高可读性,并解释我可以在哪里包含新的部分。
我没有自己做这件事,而是简单地要求 Code Interpreter 重构代码并为我提供改进的版本:

作者提供的图片
Code Interpreter 重写了我的代码,将每个可视化封装成单独的函数,使其更易于理解和更新。
ChatGPT 代码解释器对数据科学家意味着什么?
现在围绕代码解释器有很多炒作,因为这是我们第一次看到一个可以提取代码、理解自然语言和执行端到端数据科学工作流程的工具。
然而,重要的是要记住,这只是另一个帮助我们更有效地进行数据科学的工具。
到目前为止,我一直在使用它在虚拟数据上构建基线模型,因为我不允许将敏感的公司信息上传到 ChatGPT 界面。
此外,代码解释器不具备特定领域的知识。我通常使用它生成的预测作为基线预测?我经常必须调整它生成的输出以匹配我的组织的用例。
我无法展示由无法了解公司内部运作的算法生成的数字。
最后,我不会对每个项目都使用 Code Interpreter,因为我使用的一些数据包含数百万行并驻留在 SQL 数据库中。
这意味着我仍然必须自己执行大部分查询、数据提取和转换。
如果您是一名入门级数据科学家或渴望成为一名入门级数据科学家,我建议您学习如何利用代码解释器等工具来更有效地完成工作中的日常部分。
以上就是本文的全部内容,感谢您的阅读!
Natassha Selvaraj是一位自学成才的数据科学家,对写作充满热情。您可以在LinkedIn上与她联系。
ChatGPT、ChatGPT中国站、国内ChatGPT、人工智能、AI、OpenAI、ChatGPT国内、ChatGPT官网、ChatGPT中文版、ChatGPT体验、ChatGPT国内站点、ChatGPT中文网、ChatGPT国内、中国版ChatGPT、ChatGPT中国镜像、ChatGPT国内镜像、AI全家桶、AI导航、MJ绘画、AI绘画技术、人工智能绘画、AI艺术创作、智能绘图软件