ChatGPT 代码解释器:几分钟内完成数据科学

AI资讯2年前 (2023)发布 GPTHub
19 0

ChatGPT 代码解释器:几分钟内完成数据科学
TDWI 圣地亚哥 | 8 月 6 日至 11 日 | 6 月 16 日之前,KD30 可节省 30%

ChatGPT 代码解释器:几分钟内完成数据科学

这个新的 ChatGPT 插件可以分析数据、编写 Python 代码和构建机器学习模型。


 

ChatGPT 代码解释器:几分钟内完成数据科学
图片来自中途
 

作为一名数据科学家,我一直在寻找最大限度提高效率并利用数据驱动商业价值的方法。

因此,当 ChatGPT 发布其最强大的功能之一——代码解释器插件时,我只需尝试将其合并到我的工作流程中即可。

 

什么是 ChatGPT 代码解释器?

 

如果您还没有听说过 Code Interpreter,这是一项新功能,允许您在 ChatGPT 界面中上传代码、运行程序和分析数据。

在过去的一年里,每次我必须调试代码或分析文档时,我都必须复制我的工作并将其粘贴到 ChatGPT 中才能获得响应。

事实证明,这非常耗时,而且 ChatGPT 界面有字符限制,这限制了我分析数据和执行机器学习工作流程的能力。

代码解释器允许您将自己的数据集上传到 ChatGPT 界面,从而解决了所有这些问题。

虽然它被称为“代码解释器”,但这个功能并不局限于程序员——该插件可以帮助您分析文本文件、总结 PDF 文档、构建数据可视化,甚至根据您想要的比例裁剪图像。

 

如何访问代码解释器?

 

在我们进入其应用程序之前,让我们快速了解一下如何开始使用代码解释器插件。

要访问此插件,您需要付费订阅ChatGPT Plus,目前价格为每月 20 美元。

不幸的是,代码解释器尚未向未订阅 ChatGPT Plus 的用户提供。

付费订阅后,只需导航到ChatGPT并单击界面左下角的三个点即可。

然后,选择设置:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

单击“Beta features”并启用显示代码解释器的滑块:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

最后,点击“New Chat”,选择“GPT-4”选项,然后在出现的下拉菜单中选择“Code Interpreter”:

您将看到如下所示的屏幕,文本框附近有一个“+”符号:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

伟大的!您现在已成功启用 ChatGPT 代码解释器。

在本文中,我将向您展示使用代码解释器自动化数据科学工作流程的五种方法。

 

1. 数据汇总

 

作为一名数据科学家,我花了很多时间试图理解数据集中存在的不同变量。

代码解释器在为您分解每个数据点方面做得很好。

以下是如何获取模型来帮助您汇总数据:

在本例中,我们使用Kaggle 上的泰坦尼克号生存预测数据集。我将使用“ train.csv”文件。

下载数据集并导航到代码解释器:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

单击“+”符号并上传您要摘要的文件。

然后,请 ChatGPT 简单地解释一下该文件中的所有变量:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

瞧!

代码解释器为我们提供了数据集中每个变量的简单解释。

 

2. 探索性数据分析

 

现在我们已经了解了数据集中的不同变量,让我们让 Code Interpreter 更进一步并执行一些 EDA。

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

该模型生成了 5 个图,使我们能够更好地理解该数据集中的不同变量。

如果单击“Show work”下拉列表,您会注意到 Code Interpreter 已编写并运行 Python 代码来帮助我们实现最终结果:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

如果您想执行进一步的分析,您可以随时将此代码复制粘贴到您自己的 Jupyter Notebook 中。

ChatGPT 还根据生成的可视化结果为我们提供了对数据集的一些见解:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

它告诉我们,女性、头等舱乘客和年轻乘客的存活率更高。

这些见解需要花费一些时间才能手动得出,特别是如果您不熟悉 Python 和 Matplotlib 等数据可视化库。

代码解释器只需几秒钟即可生成它们,从而显着减少了执行 EDA 所需的时间。

 

3. 数据预处理

 

我花了很多时间清理数据集并为建模过程做好准备。

让我们让 Code Interpreter 帮助我们预处理这个数据集:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

代码解释器概述了清理此数据集过程中涉及的所有步骤。

它告诉我们,我们需要处理三个缺失值的列,对两个分类变量进行编码,执行一些特征工程,并删除与建模过程无关的列。

它继续创建一个 Python 程序,在短短几秒钟内完成所有预处理。

如果您想了解模型执行数据清理所采取的步骤,您可以单击“显示工作”:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

然后,我询问 ChatGPT 如何保存输出文件,它为我提供了一个可下载的 CSV 文件:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

请注意,在整个过程中我什至不需要运行一行代码。

Code Interpreter 能够摄取我的文件,在界面中运行代码,并在创纪录的时间内为我提供输出。

 

4. 构建机器学习模型

 

最后,我要求 Code Interpreter 使用预处理的文件构建机器学习模型来预测一个人是否会在泰坦尼克号沉船事故中幸存:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

它在一分钟内建立了模型,并且能够达到 83.2% 的准确率。

它还为我提供了一个混淆矩阵和总结模型性能的分类报告,并解释了所有指标所代表的含义:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

我要求 ChatGPT 向我提供一个输出文件,将模型预测与乘客数据进行映射。

我还想要一个它创建的机器学习模型的可下载文件,因为我们将来总是可以在它的基础上进行进一步的微调和训练:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

 

5. 代码说明

 

我发现代码解释器的另一个有用的应用是它能够提供代码解释。

就在前几天,我正在研究一个情感分析模型,并在 GitHub 上发现了一些与我的用例相关的代码。

我不理解整个代码,因为作者导入了我不熟悉的库。

使用代码解释器,您只需上传代码文件并要求它清楚地解释每一行。

您还可以要求它调试和优化代码以获得更好的性能。

这是一个示例?–我上传了一个文件,其中包含我几年前编写的用于构建 Python 仪表板的代码:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

代码解释器分解了我的代码并清楚地概述了每个部分所做的事情。

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

它还建议重构我的代码以提高可读性,并解释我可以在哪里包含新的部分。

我没有自己做这件事,而是简单地要求 Code Interpreter 重构代码并为我提供改进的版本:

 

ChatGPT 代码解释器:几分钟内完成数据科学
作者提供的图片
 

Code Interpreter 重写了我的代码,将每个可视化封装成单独的函数,使其更易于理解和更新。

 

ChatGPT 代码解释器对数据科学家意味着什么?

 

现在围绕代码解释器有很多炒作,因为这是我们第一次看到一个可以提取代码、理解自然语言和执行端到端数据科学工作流程的工具。

然而,重要的是要记住,这只是另一个帮助我们更有效地进行数据科学的工具。

到目前为止,我一直在使用它在虚拟数据上构建基线模型,因为我不允许将敏感的公司信息上传到 ChatGPT 界面。

此外,代码解释器不具备特定领域的知识。我通常使用它生成的预测作为基线预测?我经常必须调整它生成的输出以匹配我的组织的用例。

我无法展示由无法了解公司内部运作的算法生成的数字。

最后,我不会对每个项目都使用 Code Interpreter,因为我使用的一些数据包含数百万行并驻留在 SQL 数据库中。

这意味着我仍然必须自己执行大部分查询、数据提取和转换。

如果您是一名入门级数据科学家或渴望成为一名入门级数据科学家,我建议您学习如何利用代码解释器等工具来更有效地完成工作中的日常部分。

以上就是本文的全部内容,感谢您的阅读!

Natassha Selvaraj是一位自学成才的数据科学家,对写作充满热情。您可以在LinkedIn上与她联系。

ChatGPTChatGPT中国站国内ChatGPT人工智能AIOpenAIChatGPT国内ChatGPT官网ChatGPT中文版ChatGPT体验ChatGPT国内站点ChatGPT中文网ChatGPT国内中国版ChatGPTChatGPT中国镜像ChatGPT国内镜像AI全家桶AI导航MJ绘画AI绘画技术人工智能绘画AI艺术创作智能绘图软件

© 版权声明

相关文章

必读要闻一:谷歌测试医疗聊天机器人,AI医疗时代有望正式开启 谷歌云业务部门表示,正在与Mayo Clinic合作测试一项新的服务,以定制专用的医疗领域的聊天机器人。 海外“AI+医疗”发展相对成熟,已推出AI影像、诊断、制药、管理、机器人等产品。长江证券认为,多维度共同驱动之下,“AI+医疗”有望成为医疗IT行业下一个核心增长点。国内相关企业或进一步加大AI领域的研发进度,未来存在商业化进一步升级的可能。 上市公司中,朗玛信息(300288)成功开发出具有自主知识产权的医疗健康人工智能产品“朗玛·39AI全科医生”的认知水平可以达到初、中级全科医生的水平。创业慧康(300451)与浙大计算机创新技术研究院、浙江省智慧医疗创新中心签订三方战略协议,推动AI大模型在临床医疗、公共卫生、个人健康等场景中的研究与开发。 必读要闻二:这类器件有望广泛应用于光模块等多个领域 机构指出,薄膜铌酸锂调制器具有大带宽、低功耗、小尺寸等优势,有望成为调制器未来的重要发展方向。光通信、光纤陀螺、超快激光器等领域均存在对薄膜铌酸锂调制器的需求,未来增长具备广阔的市场空间。 中信建投证券表示,薄膜铌酸锂器件将大大减小尺寸,有望广泛应用于光模块和光器件等多个领域,市场规模进一步提升。根据Light Counting的预测数据,薄膜铌酸锂调制器适配的600G及以上相干光模块DSP市场,有望从2021年的1.31亿美元,增长至2027年的9.92亿美元,6年CAGR为40.06%,薄膜铌酸锂调制器行业具备较高的成长性。 上市公司中,天通股份(600330)生产的铌酸锂单晶材料是薄膜铌酸锂调制器的上游关键原材料。光库科技(300620)具备了开发高达800Gbps及以上速率的铌酸锂调制器芯片和器件的关键能力。 必读要闻三:到2027年中国游戏市场总收入或将超过570亿美元 咨询机构Niko Partners发布的一份最新报告显示,2022年中国游戏市场收入达到455亿美元,包含手机、PC和主机游戏。中国游戏公司在全球手机游戏和PC游戏的收入占比分别为47%和39%。预计到2027年,中国游戏市场总收入将超过570亿美元。 随着游戏科技不断发展,相关科技的运用早已突破游戏行业本身,在AI、VR等诸多领域也已产生作用。中信建投表示,游戏行业是AIGC的天然适用场景,是AIGC最重要的商业化方向之一。随着未来AIGC技术不断成熟,其对游戏行业将带来变革式影响。 上市公司中,顺网科技(300113)边缘算力网络可提供足量及就近的边缘算力服务,承接来自于人工智能、云游戏、工业互联网等行业对于实时算力的需求。迅游科技(300467)的“迅游网游加速器”是基于公司独立研发的SCAP,在行业内具备较高的知名度和较强的竞争优势。 必读要闻四:这一模式或快速在AI行业渗透,可最大化合理利用资源 随着AI的快速发展,算力短缺问题凸显,算力租赁或成为AI企业破局点。 华福证券指出,对于大多AI企业和行业应用企业而言,轻资产的算力租赁模式与企业资金实力和业务场景最为匹配,该模式有望快速在AI行业渗透,掌握算力资源的企业将具备非常明显的先发优势。另一方面,算力租赁业务本身也是轻资产模式,通过管理城市云的闲置资源并进行调度最大化合理利用资源,租赁收益与政府分成实现双赢,有利于城市云的进一步落地。 上市公司中,世纪华通(002602)深度参与投资的位于上海松江的腾讯长三角人工智能先进计算中心及生态产业园区项目。首都在线(300846)在10余个国家或地区建设了云网一体化的云计算节点,可为云游戏、AI、XR、数字人、数字孪生、智能制造等各领域提供算力。 钛小股·钛媒体财经研究院 2023.06.12 下载钛媒体App,关注更多财经投资机会! 更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App