过去的一年就像是人工智能冲刺科技革命新时代的一年。ChatGPT 终于满周岁了,在此期间,我们看到了无数改变我们生活的新进展。从一个经常产生幻觉的简单聊天机器人,到一个先进的多模态人工智能系统,ChatGPT 在一年的时间里取得了巨大的发展。
因此,在 ChatGPT 成立一周年之际,我们来回顾一下 ChatGPT 所经历的所有进步和磨难。从它的发布到目前提供的一系列功能,我们都一一收录在文章中。
ChatGPT 正式上线
2022 年 11 月 30 日,OpenAI 向全世界免费发布了 ChatGPT,作为研究预览的一部分。在短短两个月内,它就积累了超过 1 亿的月度用户,成为全球增长最快的服务,甚至超过了 Facebook。
与似乎远离普通用户的抽象人工智能概念不同,ChatGPT 最终允许用户在友好的网络界面上与人工智能驱动的聊天机器人进行互动。
ChatGPT 经过会话训练,建立在 OpenAI 的 GPT-3.5 模型之上。在某种程度上,它与 InstructGPT 相似,后者会根据用户的指令做出回应。不过,ChatGPT 被训练成能与用户对话,同时考虑到上下文。OpenAI 在其开篇博客中指出
ChatGPT 有时会写出听起来合理但不正确或无意义的答案
幻觉(Hallucination)是基于 GPT-3.5 模型开发的 ChatGPT 最初版本面临的一个难题。不过,随着 GPT-4 模型的推出(下文将详细介绍),OpenAI 已经成功地大幅减少了与事实不符的回答。
至于 ChatGPT 的炒作,在该服务推出之初,人工智能聊天机器人似乎要扼杀谷歌搜索和其他各种在线产品。我们甚至在 YouTube 视频中将 ChatGPT 与谷歌搜索相提并论。现在一年过去了,感觉这只是人工智能时代的开始,还有很多新产品有待发现。
检测AI生成内容的AI分类器问世
ChatGPT 很快声名鹊起,尤其擅长撰写学术论文、撰写营销邮件,甚至制造错误信息等创造性工作。看到网络上人工智能撰写的文本激增,人们迫切需要人工智能抄袭检测器和文本检查器。
于是,在 ChatGPT 发布两个月后,OpenAI 发布了官方 AI 分类器工具,帮助人们区分 AI 和人工撰写的文本。
然而,今年 7 月,OpenAI 以准确率低为由悄然关闭了这项服务。如果你需要这样的工具,可以查看我们的最佳 AI 抄袭检查工具列表。不过,我们在其中明确提到,人工智能驱动的剽窃工具经常会出现假阳性和结果不一致的情况。
因此,即使在 ChatGPT 发布一年后,正确识别人工智能撰写的文本的努力仍在继续。
推出 ChatGPT Plus 订阅服务
2023 年 2 月,在发布四个月后,OpenAI 决定是时候趁热打铁,建立一个忠实的付费社区了。于是,它推出了第一个名为 ChatGPT Plus 的订阅计划,每月收费 20 美元。
ChatGPT+ 刚推出时,用户即使在高峰期也能访问聊天机器人,而且响应速度更快。此外,ChatGPT Plus 用户还可以提前使用未来几个月的新功能和改进。最初,该订阅计划只面向美国用户,后来扩展到全球大部分用户。
面向开发人员发布 ChatGPT API
2023 年 3 月,公司终于发布了 ChatGPT API,让开发者可以使用聊天机器人的强大功能。开发者可以使用 ChatGPT 的 API 构建各种产品。Snapchat 是首批使用其 API 创建可定制聊天机器人的公司之一,该聊天机器人可以为好友提供推荐和写俳句。
我们还撰写了一篇详细的文章,介绍如何使用 ChatGPT API 自定义知识库训练AI聊天机器人。这项计划最棒的地方在于,OpenAI 向所有免费用户赠送了价值 5 美元的 API 点数。因此,开发人员和普通用户都使用 ChatGPT API 创建了一些有趣的项目。
聊天 GPT 升级为 GPT-4 模型
2023 年 3 月,OpenAI 发布了其聊天机器人进化的下一步,即下一代模型。它发布了世界上最强大的大型语言模型 GPT-4,ChatGPT Plus 用户从第一天起就可以使用它。
这是 LLM 发展史上的分水岭之一。在消除幻觉方面,它比 GPT-3.5 模型要好得多。在所有类别的准确性测试中,GPT-4 的得分都超过了 80%。
不仅如此,GPT-4 还是第一个能同时理解文本和图像的多模态模型。GPT-4 可以分析纸上潦草的笔记,并立即创建网站模型。当然,多模态功能是后来在 9 月份添加的(见下文),但 OpenAI 早在 3 月份就已经破解了这一秘诀。要知道,这距离发布才过去 5 个月。
宣布 GPT-4 为首个多模态 LLM,OpenAI 早在 3 月份就已经破解了秘诀。
除此之外,ChatGPT Plus 用户的字数限制增加到了 25000 字,而免费版 ChatGPT(基于 GPT-3.5 构建)的字数限制为 8000 字。最后,GPT-4 还能更好地理解多达 26 种语言,包括世界各地的主要语言和地区语言。
尽管如此,它对世界大事的了解仅限于 2021 年 9 月。不过,GPT-4 标志着人工智能发展的一个拐点,许多专有和开源 LLM 仍在努力超越 GPT-4。
ChatGPT 插件首次亮相
如上所述,GPT-4 拥有许多令人兴奋的功能,但其知识仍局限于 2021 年 9 月。此外,它还是一个孤立的黑盒子,无法与外部世界互动。对于一个拥有无限潜力的人工智能聊天机器人来说,这是一个巨大的限制。
因此,OpenAI 找到了解决这一问题的方法,于今年 3 月推出了对 ChatGPT 插件的支持。这些插件允许 LLM 与第三方服务甚至互联网互动,获取实时数据。
在插件的帮助下,ChatGPT 可以使用由 Microsoft Bing(后更名为 Browse with Bing)提供支持的网络浏览器插件访问最新信息。此外,它还可以使用代码解释器插件进行计算。
代码解释器特别有用,因为你终于可以向 ChatGPT 上传文件,并要求 ChatGPT 使用沙盒 Python 解释器运行各种任务。它还为 ChatGPT 带来了数据分析和可视化功能,所有人都为之疯狂。有了这个工具,你可以在 ChatGPT 中生成图形、图表和示意图。
除此之外,在发布会上,OpenAI 还推出了 11 个第三方插件,包括 Zapier、Expedia、Instacart、OpenTable 等,目前已托管了数百个插件。使用这些插件,你可以查找和预订航班、在餐厅预订餐桌等。
基本上,有了 ChatGPT 插件、网页浏览和代码解释器,OpenAI 在扩展 LLM 的多功能性方面迈出了第一步。此外,它还让我们看到了这个聊天机器人的真正潜力,现在它的基础上又建立了一个功能插件商店。
ChatGPT 聊天记录泄漏
三月是 OpenAI 最繁忙的一个月。该公司推出了令人印象深刻的 GPT-4 模型,并通过插件、网页浏览和代码解释器扩展了其实用性。然而,除了展示所有闪闪发光的新功能外,OpenAI 还因为 ChatGPT 上一个泄露用户聊天记录的 bug 而下线了 ChatGPT。
没错,这是OpenAI的第一个重大安全失误。该公司进一步指出,其他用户可能也看到了一些与支付相关的信息,但受影响的用户仅占 1.2%。该公司很快修复了漏洞,并在博客中解释了技术细节。
在 ChatGPT 中管理您的数据
事件发生后,OpenAI 采取了一些隐私保护措施来保护用户的利益。它在 ChatGPT 中添加了一个完全关闭聊天记录的选项。关闭聊天记录后,您的聊天记录将不会被用于训练和改进 OpenAI 模型。
尽管如此,即使你关闭了历史记录切换,它并没有真正关闭。OpenAI 在其博文中表示,即使关闭了聊天记录,”我们也会将新对话保留 30 天,只有在需要时才会对其进行审查,以监控是否存在滥用行为,之后才会永久删除“。
OpenAI 推出 iOS 版 ChatGPT 应用程序
ChatGPT 的蹿红引发了另一个巨大的问题。山寨和低质量克隆。由于 ChatGPT 目前仅限于网页浏览器,这就给了不良分子宰割用户和赚快钱的机会。
这一问题在手机上尤为严重,用户会搜索并下载黑心应用程序和恶意软件克隆。为了解决这个问题,2023 年 5 月,OpenAI 首次为 iOS 发布了一个原生的、从零开始构建的 ChatGPT 应用程序。
值得庆幸的是,它并不是一个网络封装器。相反,该应用为使用 iPhone 的 ChatGPT Plus 用户带来了聊天记录、语音输入和 GPT-4 模型的支持。虽然 Android 应用程序没有同时发布,但公司表示很快就会推出。最后,公司于 2023 年 7 月发布了安卓手机的 ChatGPT 应用程序。
现在,Android 和 iOS 版的 ChatGPT 应用程序功能相同,都支持 GPT-4、DALL-E 3、数据分析、图像分析和网页浏览。
OpenAI 禁用使用必应插件浏览
2023 年 7 月初,OpenAI 再次面临重大挑战,因为其 “Browse with Bing” 插件在 ChatGPT 上显示了付费网站的内容。由于担心出版物提起诉讼,OpenAI 迅速禁用了该功能,并表示 “偶尔会以我们不希望的方式显示内容“。
禁用这一重要插件意味着 ChatGPT+ 用户没有访问互联网并向聊天机器人提供实时信息的官方选项。不过,通过第三方插件,用户仍然可以将 ChatGPT 连接到互联网。终于,在三个月后的 2023 年 9 月,”使用必应浏览 “在 ChatGPT 上恢复了所需的修复功能。
自定义指令登陆 ChatGPT
在中断了两个月之后,OpenAI 在七月份继续为 ChatGPT 增加新功能,即自定义指令。从根本上说,它允许 ChatGPT 更多地了解你以及它应该产生什么样的回应。您可以输入自己的偏好,ChatGPT 会在回复您的询问前记住这些偏好。
例如,如果你让聊天机器人帮你找一款 100 美元以下的耳机,它就会从自定义指令中考虑你的位置,并根据你的位置和可用性给出量身定制的回复。您还可以要求它减少废话,给出简明扼要的回复。
ChatGPT 能看、能听、能说
2023 年 9 月,OpenAI 发布了 ChatGPT 的重大更新。新更新首先在 iOS 应用程序上发布,允许用户与模型进行语音对话。此外,你现在还可以将图片上传到 ChatGPT,并就图片提出问题。
基本上,三月份展示的多模态功能终于通过 Whisper(语音识别模型)和 GPT-4V(GPT-4 视觉模型)添加到了 ChatGPT 中。该更新于 2023 年 11 月向所有 iOS 和 Android 用户广泛发布。
现在,即使是网络用户也可以在 ChatGPT 上进行图像分析。不过,语音聊天功能仍仅限于移动应用程序。
推荐阅读:如何使用 ChatGPT 语音聊天功能
GPT-4V 发布
今年 9 月,OpenAI 单独发布了一篇研究论文,详细介绍了其新的 GPT-4V 系统的工作原理。具有视觉功能的 GPT-4 模型可以分析上传到 ChatGPT 的图像,并用自然语言推断视觉信息。其训练工作已于 2022 年完成,OpenAI 采取了严厉的措施来驯服视觉模型,使其不会评估有害内容,包括验证码破解、人物识别、性别和种族识别、非法行为等。
GPT-4V模型被大力吹捧为医学图像诊断的前沿模型,但OpenAI在其研究论文中表示:”鉴于该模型在这一领域的表现并不完美,以及与不准确性相关的风险,我们认为当前版本的GPT-4V不适合执行任何医疗功能,也不能替代专业的医疗建议、诊断或治疗或判断。”
Dall-E 3 更新至 ChatGPT
DALL-E 一直是 OpenAI 专有的文本到图像模型,但在初始状态下,它还无法与 Midjourney 竞争。不过,随着 10 月份发布最新的 DALL-E 3 模型,OpenAI 已经非常接近于理解文本的细微差别和抽象概念,并将其转化为准确的图像。
最棒的是,你不再需要访问不同的网站就能使用它。DALL-E 3 已集成到 ChatGPT 中。它能生成令人难以置信的人工智能图像,最重要的是,它与 ChatGPT Plus 订阅捆绑在一起。
此外,有了这一集成,就不再需要详细的提示了。ChatGPT 可以使用 DALL-E 3 将您的基本提示转化为详细提示,生成多样化的独特图像。 请跟随我们的分步指南学习如何使用 DALL-E 3 生成图像。
发布 GPT-4 Turbo 模型和 GPT
2023 年 11 月 6 日,OpenAI 在旧金山举行了首次开发者大会 DevDay。该公司发布了几项重大消息,包括具有更多功能、更大上下文窗口和更低价格的新 GPT-4 Turbo 模型。
首先,Turbo 型号可以了解截至 2023 年 4 月的世界大事。其次,它拥有 128K 上下文窗口,高于 GPT-4 的 8K 和 32K 最大令牌。最重要的是,它的输入令牌比 GPT-4 模型便宜 3 倍,鉴于 GPT-4 的运行成本非常高,这一点令人惊叹。
GPT-4 Turbo 模型尚未添加到 ChatGPT 中,但 OpenAI 已 “计划在未来几周内发布稳定的生产就绪模型”。此外,GPT-3.5 Turbo 模型也已升级,现在支持 16K 上下文窗口。
此外,ChatGPT 网站已全面改版,在使用 GPT-4 模型时,您无需为不同的任务手动选择不同的选项。您可以使用 DALL-E 3、网页浏览和数据分析,而无需在选项间切换。它们都处于激活状态,会在需要时被调用。
最后,DevDay 的重头戏是 GPT。现在,您可以创建一个自定义版本的 ChatGPT,其中包含您的自定义说明、通过 PDF 和其他文档提供的自定义知识,并为机器人分配特殊技能。这是一个功能强大的新工具,可让您为特定任务创建量身定制的 ChatGPT 版本,您可以在这里了解如何创建个性化的 GPT。
OpenAI 正在推出一个 GPT 商店,您可以在那里找到用于各种用途的公开可用 GPT。
OpenAI 停止新的 ChatGPT Plus 注册
DevDay 刚刚结束,OpenAI 就宣布暂停 ChatGPT Plus 的新注册。最初,该公司表示流量激增,尤其是在 DevDay 活动之后。然而,后来经证实,ChatGPT 正面临着来自恶意行为者的密集 DDoS 攻击。
因此,ChatGPT 面临了数小时的大规模中断。OpenAI 在一份声明中说:”我们正在处理因反映 DDoS 攻击的异常流量模式而导致的周期性中断。我们正在继续努力缓解这一问题。” 最后,在 11 月 9 日,服务在问题解决后恢复。
我们将暂停新的 ChatGPT Plus 注册🙁开发日后激增的使用量超出了我们的能力,我们希望确保每个人都能获得良好的体验。您仍然可以注册,以便在重新开放时在应用程序中收到通知。—— SAM ALTMAN (@SAMA) NOVEMBER 15, 2023
在一年的时间里,ChatGPT 发生了令人难以置信的变化,现在它拥有世界上最强大的大语言模型。此外,它还获得了令人印象深刻的功能,如插件、网页浏览、代码解释器、自定义指令、多模态功能、更大的上下文窗口、GPT 等。我们很期待 OpenAI 接下来在 ChatGPT 及其下一代模型上的表现,尤其是在 Sam Altman 重新掌舵的情况下。
推荐阅读:OpenAI GPT-5:发布日期、功能、AGI 传闻、猜测及其他
ChatGPT 的未来会怎样?
虽然 ChatGPT 已经变得相当强大,但我们要清楚,在人工智能的下一次爆发之前,这 “仅仅是个开始”。许多专家认为,基于对话的会话聊天机器人并不是与生成式人工智能交互的唯一界面。
未来,我们可能会拥有强大无比的多模态人工智能系统,它可以理解文本、语音、视觉元素、环境数据以及来自人类大脑活动的感官数据,从而得出上下文推断并实时执行操作。
除此之外,人工智能还能与 AR 和 VR 界面紧密结合,创造出高度互动和身临其境的体验。此外,除了将人工智能聊天机器人集成到应用程序中,智能手机和设备还将在操作系统层面运行人工智能系统,以理解并自动执行量身定制的操作。
从管理电子邮件到根据您的使用情况和优先级创建日程表,人工智能都能自动为您完成。高通公司(Qualcomm)已经解释了未来个性化、设备上的人工智能将如何工作。
别忘了,OpenAI 和许多其他公司已经在研究 AGI(人工通用智能),它可以超越人类需要智力输入和推理的能力。
事实上,ChatGPT 制造商已经在研究一种解决方案,通过生成高质量的合成数据来克服训练数据的限制。至于它是否与目前正在讨论的 “Q*项目”(Project Q*)有关,目前尚无定论。
总的来说,我认为 ChatGPT 作为一个对话式聊天机器人,已经从最初的局限性发展到现在的广泛应用,并像国王一样稳坐头把交椅。不过,如果我们把视野放大,从更大的角度来看,还是会感觉到它的局限性,未来我们可能会看到无数新形式的人工智能体验。
评论留言