隨著 OpenAI 的 ChatGPT 的釋出,聊天機器人已成為當今世界人工智慧(AI)的代名詞。與人工智慧聊天機器人對話似乎是與人工智慧模型和智慧系統互動的唯一方式。雖然我同意聊天機器人為大多數使用者與人工智慧模型互動提供了一個示意性的、使用者友好的介面,但你與智慧系統互動的夢想不可能都死在文字聊天框的四角。
在這方面,微軟已經陷入了將人工智慧聊天機器人整合到其許多產品中的狂熱之中。最值得注意的是,它將由OpenAI模型驅動的人工智慧聊天機器人Windows Copilot整合到了Windows 11中,並大肆炒作,盛況空前。別忘了,微軟在 Windows 11 上用 Windows Copilot 取代了 Cortana。而且,這家科技巨頭還將 Windows Copilot 整合到了 Windows 10 中,取代了 Cortana。
當然,微軟相信人工智慧聊天機器人將是未來的趨勢。但這真的是由人工智慧驅動的智慧計算願景嗎?或者說,微軟只是在迎合人工智慧的炒作,整合人工智慧聊天機器人是為了向投資者展示自己的實力?無論答案如何,目前人工智慧驅動的聊天機器人的應用形式都很有限,而且從聊天機器人那裡獲得任何有意義的幫助,尤其是在作業系統層面,感覺都很受限制。
Windows Copilot:Cortana 降級?
微軟決定停用已有 9 年曆史的 Cortana,轉而使用 Windows Copilot,但這是否是一個合適的替代品,尤其是 Windows Copilot 還處於預覽階段?
儘管如此,我們還是要逐點進行比較。首先,Cortana 主要是一款語音助手,而 Windows Copilot 則是一款基於文字的人工智慧聊天機器人,雖然它支援語音輸入,但預設情況下不支援。
簡而言之,Windows Copilot 並不是為語音優先的使用者體驗而設計的,因此它給人的體驗並不連貫,不像 Cortana 那樣讓人感覺更個性化。我認為,就使用者介面的親和力而言,語音輸入比文字輸入更容易使用,也更直觀,因此很多人更喜歡語音輸入。因此,Windows Copilot 一開始就沒有通過重要的使用者體驗測試。
說到功能,Cortana 現在已經是一款成熟的產品,可以執行很多系統級操作。它可以建立計時器、設定鬧鐘、新增提醒事項、撰寫電子郵件、查詢定義、開啟應用程式等。從本質上講,Cortana 已經深度整合到 Windows 作業系統中,並且非常瞭解系統。
相比之下,Copilot 使用的是通用大型語言模型 (LLM),這種模型並不適合在 Windows 上執行本地操作。當我要求 Windows Copilot 設定定時器時,它會告訴我去線上服務設定定時器。它甚至無法設定鬧鐘或播放音樂。Copilot 只會為我開啟 Spotify 應用程式。在這裡,我似乎找不到任何人工智慧的神奇之處。
微軟急於登上人工智慧的炒作列車,這象徵著微軟錯過了智慧手機的競爭,現在它後悔了,不想重蹈覆轍。
當然,Windows Copilot 仍處於預覽階段,這些功能很可能會在未來加入(其中一些已經在 Insider 版本中進行測試),但用一個勉強能用的人工智慧聊天機器人來取代 Cortana 又有什麼好著急的呢?
在我看來,微軟似乎急於登上人工智慧的炒作列車,這象徵著微軟錯過了智慧手機競賽,現在它後悔了,不想重蹈覆轍。
令我不快的是,微軟似乎沒有對 Windows Copilot 投入太多心思。它只是簡單地整合了一個聊天機器人,然後就收工了,至少現在是這樣。這家科技巨頭甚至沒有嘗試在更換近十年曆史的產品之前,讓 Copilot 和 Cortana 的功能保持一致。
尤其令人失望的是,微軟正在為 Windows 鍵盤新增一個 Copilot 鍵-微軟稱其為 “近三十年來 Windows PC 鍵盤的重大改變”–但卻很少考慮到這一點。
Windows Copilot 的 AI 魔力在哪裡?
現在,讓我們來看看 Windows Copilot 能做些什麼。您可以就任何話題提問,並立即得到解答。你還可以進入創意模式,與強大的 GPT-4 模型對話。
它可以總結網頁、查詢關鍵見解、規劃行程等。微軟還為 Copilot 新增了一個截圖工具,它使用 GPT-4V 模型進行視覺化分析。你可以用它來執行 OCR 或查詢影象資訊。
至於 Windows 特有的功能,你可以說 “I am having issues with audio“,Copilot 就會為你開啟音訊故障排除程式。它還能排除其他 Windows 問題。除此之外,你還可以通過 Copilot 開啟/關閉黑暗模式、截圖和抓取視窗。
雖然這些功能對於預覽版的 Windows Copilot 來說還算不錯,但除了 Windows 特有的功能外,大部分功能在 Edge Copilot 中也能使用。此外,Windows Copilot 無法訪問 Chrome 瀏覽器或其他瀏覽器的網頁。由於 Windows Copilot 是在 Edge 引擎上執行的,因此它無法訪問其他視窗的內容,無論是瀏覽器、記事本還是 Office 應用程式。
這是 Windows Copilot 實施過程中的另一個重大缺陷。它不是使用 WinUI 3 框架開發的,無法提供原生體驗,而是作為 Edge 瀏覽器的擴充套件執行。因此,在作業系統的關鍵元素中看不到 Windows Copilot 的深度整合。
例如,你無法在 Windows 資源管理器中右鍵單擊檔案,要求 Windows Copilot 對其進行解釋、轉換檔案格式或執行任何操作。如果你能從上下文選單中向 Copilot 傳送一個 Excel 檔案,它就能在那裡執行資料分析,那就太酷了。目前,除了影象之外,Windows Copilot 無法在 Windows 11 上與檔案進行互動。
Windows Copilot:承諾過多而交付不足的案例
近來,微軟在新功能的釋出和營銷方面一直很有一套,但當你要使用這些承諾的功能時,卻似乎找不到它們。三個月前釋出 Windows Copilot 時,微軟承諾了幾項新功能,但現在這些功能還沒有推出,或者並沒有像市場宣傳的那樣發揮作用。
例如,當你要求 Windows Copilot 抓取視窗時,它會徵求你的同意,然後只抓取一個視窗,讓你來執行其他操作。同樣,當你要求它在工作時播放音樂時,它也不會播放特定情緒的音樂。Copilot 只是簡單地從 YouTube 和其他來源丟擲連結。這不是你所期望的由人工智慧驅動的智慧 Copilot 吧?
接下來,備受期待的 Copilot 上下文選單還沒有到來。任何活動視窗都無法使用 “重寫”、”解釋 “和 “總結 “功能。即使已經發布了三個月,Copilot 的草稿功能也沒有出現。此外,Copilot 還不能移除圖片背景,也沒有新增擴充套件支援。
因此,市場上宣傳的所有功能都不存在。微軟的許多產品都存在承諾過高、交付不足的問題。
Windows Copilot 的願景是什麼?
現在,讓我們來看看 Windows Copilot 能做些什麼。如果我們看看開源社羣正在做什麼,我們就會發現一個有趣的程式碼直譯器工具,它可以與本地檔案互動、將檔案轉換為其他格式、處理各種檔案格式、建立圖表以及做更多事情。它還可以與各種系統設定和工具互動,並在 Windows 上執行操作。
你好!OPEN INTERPRETER 0.2.0–新的計算機更新–今天釋出。一切都很新。–OS 模式可讓視覺模型操作計算機–我們加入了一個新模型,用於精確的 gui 控制–我們將為 llms 推出計算機 api↓ pic.twitter.com/smhaw2r8mf
– Killian (@hellokillian) 2024年1月5日
就在最近,開放口譯軟體釋出了一個新版本(0.2.0),其中的作業系統模式令人著迷。您可以通過簡單的自然語言提示來操作電腦。Open Interpreter 使用 GPT-4V 等視覺模型來理解圖形使用者介面環境,並在電腦上執行操作。
舉個例子,你可以要求它開啟黑暗模式,它就會開啟相應的設定頁面,並使用視覺模型開啟切換開關。
看,媽媽,沒有手!這是 @openinterpreter 用我的滑鼠和鍵盤傳送電子郵件,想象一下還有什麼可能。pic.twitter.com/gcbqbtwd23
– ty (@fieroty) 2024 年 1 月 6 日
你要求它播放一些低保真音樂,它就會開啟瀏覽器和 YouTube,找到一些很棒的低保真播放列表,然後為你播放。
這些都是視覺模型所能勝任的一些基本例子,但 Windows Copilot 只能在聊天框中向你傳送文字。
真正智慧的 Copilot 應該能夠傳送電子郵件、調整 Windows 設定、在系統層面與作業系統互動,以及做更多的事情。它的用途是無限的,對於提高 Windows 11 24H2 的可訪問性非常有用。
當然,對微軟來說,呼叫 GPT-4V API 將耗費大量資金,但它可以專門為 Windows 構建一個小型視覺模型,就像 CogVLM 一樣。這樣一來,延遲就會減少,即使電腦處於離線狀態,一切也能在本地執行。
由於即將推出的英特爾和驍龍 X Elite 晶片組擁有專用的 NPU,在裝置上執行較小的模型將成為可能。即使微軟在雲上執行內部開發的視覺模型,成本也會低得多。
介紹 R1。觀看主題演講: https://t.co/r3sotvwoj5 #ces2024 pic.twitter.com/niumjfvkve
– rabbit inc. (@rabbit_hmi) January 9, 2024
再舉一個例子,我們剛剛看到了 Rabbit R1 的演示,這是一款人工智慧硬體裝置,可以為您執行動作。它由所謂的 LAM(大型行動模型)驅動。從訂購披薩、傳送電子郵件到預訂航班,只需語音輸入,它就能智慧地為你完成所有操作。
微軟需要開發一種類似 LAM 的東西,專門用於執行操作,而不僅僅是與聊天機器人聊天。
如果像 Rabbit 這樣的小型初創公司都能做到這一點,那麼像微軟這樣擁有龐大資源的大型科技巨頭也能做到。到目前為止,我們已經看到微軟正在構建自己的 Phi-2 模型,這是一個小型的 LLM,僅供研究之用。如果微軟真的想讓我們在 2024 年體驗到人工智慧 PC,它就需要建立 Windows 專用的視覺模型,以便在本地執行代理時實現近乎零的延遲。微軟需要開發出類似 LAM 的產品,這種產品的設計目的是執行操作,而不僅僅是與聊天機器人聊天。
Windows Copilot 需要新方法
最後,總結一下,Windows Copilot 目前的聊天機器人形式使用範圍極其有限,而且已經被無數的瀏覽器擴充套件和 Edge Copilot 所覆蓋。微軟需要一種全新的方法來實現人工智慧 PC。
作為微軟最強勁的競爭對手,蘋果公司以徹底打造產品並在產品準備就緒時向公眾釋出而著稱。相比之下,微軟的做法恰恰相反。它在產品還沒有準備好功能和有意義的功能時就匆忙釋出。
評論留言