Windows Copilot需要摆脱聊天框的束缚

Windows Copilot需要摆脱聊天框的束缚

随着 OpenAI 的 ChatGPT 的发布,聊天机器人已成为当今世界人工智能(AI)的代名词。与人工智能聊天机器人对话似乎是与人工智能模型和智能系统互动的唯一方式。虽然我同意聊天机器人为大多数用户与人工智能模型交互提供了一个示意性的、用户友好的界面,但你与智能系统交互的梦想不可能都死在文本聊天框的四角。

在这方面,微软已经陷入了将人工智能聊天机器人集成到其许多产品中的狂热之中。最值得注意的是,它将由OpenAI模型驱动的人工智能聊天机器人Windows Copilot集成到了Windows 11中,并大肆炒作,盛况空前。别忘了,微软在 Windows 11 上用 Windows Copilot 取代了 Cortana。而且,这家科技巨头还将 Windows Copilot 集成到了 Windows 10 中,取代了 Cortana。

当然,微软相信人工智能聊天机器人将是未来的趋势。但这真的是由人工智能驱动的智能计算愿景吗?或者说,微软只是在迎合人工智能的炒作,整合人工智能聊天机器人是为了向投资者展示自己的实力?无论答案如何,目前人工智能驱动的聊天机器人的应用形式都很有限,而且从聊天机器人那里获得任何有意义的帮助,尤其是在操作系统层面,感觉都很受限制。

Windows Copilot:Cortana 降级?

微软决定停用已有 9 年历史的 Cortana,转而使用 Windows Copilot,但这是否是一个合适的替代品,尤其是 Windows Copilot 还处于预览阶段?

尽管如此,我们还是要逐点进行比较。首先,Cortana 主要是一款语音助手,而 Windows Copilot 则是一款基于文本的人工智能聊天机器人,虽然它支持语音输入,但默认情况下不支持。

windows copilot 界面

简而言之,Windows Copilot 并不是为语音优先的用户体验而设计的,因此它给人的体验并不连贯,不像 Cortana 那样让人感觉更个性化。我认为,就用户界面的亲和力而言,语音输入比文字输入更容易使用,也更直观,因此很多人更喜欢语音输入。因此,Windows Copilot 一开始就没有通过重要的用户体验测试。

说到功能,Cortana 现在已经是一款成熟的产品,可以执行很多系统级操作。它可以创建计时器、设置闹钟、添加提醒事项、撰写电子邮件、查找定义、打开应用程序等。从本质上讲,Cortana 已经深度集成到 Windows 操作系统中,并且非常了解系统。

windows copilot 无法设置计时器

相比之下,Copilot 使用的是通用大型语言模型 (LLM),这种模型并不适合在 Windows 上执行本地操作。当我要求 Windows Copilot 设置定时器时,它会告诉我去在线服务设置定时器。它甚至无法设置闹钟或播放音乐。Copilot 只会为我打开 Spotify 应用程序。在这里,我似乎找不到任何人工智能的神奇之处。

微软急于登上人工智能的炒作列车,这象征着微软错过了智能手机的竞争,现在它后悔了,不想重蹈覆辙。

当然,Windows Copilot 仍处于预览阶段,这些功能很可能会在未来加入(其中一些已经在 Insider 版本中进行测试),但用一个勉强能用的人工智能聊天机器人来取代 Cortana 又有什么好着急的呢?

在我看来,微软似乎急于登上人工智能的炒作列车,这象征着微软错过了智能手机竞赛,现在它后悔了,不想重蹈覆辙。

令我不快的是,微软似乎没有对 Windows Copilot 投入太多心思。它只是简单地集成了一个聊天机器人,然后就收工了,至少现在是这样。这家科技巨头甚至没有尝试在更换近十年历史的产品之前,让 Copilot 和 Cortana 的功能保持一致。

尤其令人失望的是,微软正在为 Windows 键盘添加一个 Copilot 键-微软称其为 “近三十年来 Windows PC 键盘的重大改变”–但却很少考虑到这一点。

Windows Copilot 的 AI 魔力在哪里?

现在,让我们来看看 Windows Copilot 能做些什么。您可以就任何话题提问,并立即得到解答。你还可以进入创意模式,与强大的 GPT-4 模型对话。

它可以总结网页、查找关键见解、规划行程等。微软还为 Copilot 添加了一个截图工具,它使用 GPT-4V 模型进行可视化分析。你可以用它来执行 OCR 或查找图像信息。

使用 windows copilot 进行 OCR 识别

至于 Windows 特有的功能,你可以说 “I am having issues with audio“,Copilot 就会为你打开音频故障排除程序。它还能排除其他 Windows 问题。除此之外,你还可以通过 Copilot 打开/关闭黑暗模式、截图和抓取窗口。

虽然这些功能对于预览版的 Windows Copilot 来说还算不错,但除了 Windows 特有的功能外,大部分功能在 Edge Copilot 中也能使用。此外,Windows Copilot 无法访问 Chrome 浏览器或其他浏览器的网页。由于 Windows Copilot 是在 Edge 引擎上运行的,因此它无法访问其他窗口的内容,无论是浏览器、记事本还是 Office 应用程序。

任务管理器显示 edge 引擎上运行的 Windows copilot

这是 Windows Copilot 实施过程中的另一个重大缺陷。它不是使用 WinUI 3 框架开发的,无法提供原生体验,而是作为 Edge 浏览器的扩展运行。因此,在操作系统的关键元素中看不到 Windows Copilot 的深度集成。

例如,你无法在 Windows 资源管理器中右键单击文件,要求 Windows Copilot 对其进行解释、转换文件格式或执行任何操作。如果你能从上下文菜单中向 Copilot 发送一个 Excel 文件,它就能在那里执行数据分析,那就太酷了。目前,除了图像之外,Windows Copilot 无法在 Windows 11 上与文件进行交互。

Windows Copilot:承诺过多而交付不足的案例

近来,微软在新功能的发布和营销方面一直很有一套,但当你要使用这些承诺的功能时,却似乎找不到它们。三个月前发布 Windows Copilot 时,微软承诺了几项新功能,但现在这些功能还没有推出,或者并没有像市场宣传的那样发挥作用。

例如,当你要求 Windows Copilot 抓取窗口时,它会征求你的同意,然后只抓取一个窗口,让你来执行其他操作。同样,当你要求它在工作时播放音乐时,它也不会播放特定情绪的音乐。Copilot 只是简单地从 YouTube 和其他来源抛出链接。这不是你所期望的由人工智能驱动的智能 Copilot 吧?

windows copilot 无法播放音乐

接下来,备受期待的 Copilot 上下文菜单还没有到来。任何活动窗口都无法使用 “重写”、”解释 “和 “总结 “功能。即使已经发布了三个月,Copilot 的草稿功能也没有出现。此外,Copilot 还不能移除图片背景,也没有添加扩展支持。

因此,市场上宣传的所有功能都不存在。微软的许多产品都存在承诺过高、交付不足的问题。

Windows Copilot 的愿景是什么?

现在,让我们来看看 Windows Copilot 能做些什么。如果我们看看开源社区正在做什么,我们就会发现一个有趣的代码解释器工具,它可以与本地文件交互、将文件转换为其他格式、处理各种文件格式、创建图表以及做更多事情。它还可以与各种系统设置和工具交互,并在 Windows 上执行操作。

你好!OPEN INTERPRETER 0.2.0–新的计算机更新–今天发布。一切都很新。–OS 模式可让视觉模型操作计算机–我们加入了一个新模型,用于精确的 gui 控制–我们将为 llms 推出计算机 api↓ pic.twitter.com/smhaw2r8mf

– Killian (@hellokillian) 2024年1月5日

就在最近,开放口译软件发布了一个新版本(0.2.0),其中的操作系统模式令人着迷。您可以通过简单的自然语言提示来操作电脑。Open Interpreter 使用 GPT-4V 等视觉模型来理解图形用户界面环境,并在电脑上执行操作。

举个例子,你可以要求它打开黑暗模式,它就会打开相应的设置页面,并使用视觉模型打开切换开关。

看,妈妈,没有手!这是 @openinterpreter 用我的鼠标和键盘发送电子邮件,想象一下还有什么可能。pic.twitter.com/gcbqbtwd23

– ty (@fieroty) 2024 年 1 月 6 日

你要求它播放一些低保真音乐,它就会打开浏览器和 YouTube,找到一些很棒的低保真播放列表,然后为你播放。
这些都是视觉模型所能胜任的一些基本例子,但 Windows Copilot 只能在聊天框中向你发送文本。

真正智能的 Copilot 应该能够发送电子邮件、调整 Windows 设置、在系统层面与操作系统交互,以及做更多的事情。它的用途是无限的,对于提高 Windows 11 24H2 的可访问性非常有用。

当然,对微软来说,调用 GPT-4V API 将耗费大量资金,但它可以专门为 Windows 构建一个小型视觉模型,就像 CogVLM 一样。这样一来,延迟就会减少,即使电脑处于离线状态,一切也能在本地运行。

由于即将推出的英特尔和骁龙 X Elite 芯片组拥有专用的 NPU,在设备上运行较小的模型将成为可能。即使微软在云上运行内部开发的视觉模型,成本也会低得多。

介绍 R1。观看主题演讲: https://t.co/r3sotvwoj5 #ces2024 pic.twitter.com/niumjfvkve

– rabbit inc. (@rabbit_hmi) January 9, 2024

再举一个例子,我们刚刚看到了 Rabbit R1 的演示,这是一款人工智能硬件设备,可以为您执行动作。它由所谓的 LAM(大型行动模型)驱动。从订购披萨、发送电子邮件到预订航班,只需语音输入,它就能智能地为你完成所有操作。

微软需要开发一种类似 LAM 的东西,专门用于执行操作,而不仅仅是与聊天机器人聊天。

如果像 Rabbit 这样的小型初创公司都能做到这一点,那么像微软这样拥有庞大资源的大型科技巨头也能做到。到目前为止,我们已经看到微软正在构建自己的 Phi-2 模型,这是一个小型的 LLM,仅供研究之用。如果微软真的想让我们在 2024 年体验到人工智能 PC,它就需要建立 Windows 专用的视觉模型,以便在本地运行代理时实现近乎零的延迟。微软需要开发出类似 LAM 的产品,这种产品的设计目的是执行操作,而不仅仅是与聊天机器人聊天。

Windows Copilot 需要新方法

最后,总结一下,Windows Copilot 目前的聊天机器人形式使用范围极其有限,而且已经被无数的浏览器扩展和 Edge Copilot 所覆盖。微软需要一种全新的方法来实现人工智能 PC。

作为微软最强劲的竞争对手,苹果公司以彻底打造产品并在产品准备就绪时向公众发布而著称。相比之下,微软的做法恰恰相反。它在产品还没有准备好功能和有意义的功能时就匆忙发布。

评论留言