K圖 AAPL_0

  蘋果GPT就在你口袋里?這或許會更快成為現實。

  蘋果人工智能(AI)研究人員近日在預印本網站arXiv上發表了一篇論文,其中提到了一種創新的“閃存利用”技術,可以在iPhone和其他內存有限的蘋果設備上部署大型語言模型(LLM),這幾乎是一項重大突破。

  內存的約束

  基于LLM的聊天機器人(如ChatGPT、Claude等)都非常依賴于數據和內存,其需要同時處理的數據量非常龐大,往往需要大量內存才能運行。

  因此運行LLM對于DRAM(一般指內存)容量有限的iPhone等設備來說是一個挑戰。

  通常,運算數據標準的方法是將閃存中的數據加載到DRAM中,再在DRAM中進行數據推理。

image

  性能水平高的DRAM可以讓數據處理的速度提升數百萬倍,然而,弊端在于容量上。在DRAM上運行嚴重限制了可以運行的最大模型大小。

  為了解決這個問題,蘋果公司的研究人員開發了一種新技術,使用容量較大的閃存(flash memory)來存儲人工智能模型的數據,再在需要時在將數據調入DRAM內存中來處理。

  在閃存上存儲AI

  在一篇題為《flash中的LLM:有限內存下的高效大型語言模型推理》的新研究論文中,作者指出,移動設備中的閃存比傳統上用于運行LLM的內存更加豐富。

  這種方法巧妙地繞過了容量限制。改論文提出了兩項關鍵技術,最大限度地減少數據傳輸、并最大限度地提高閃存處理能力:

  其一叫做“窗口化(windowing)”技術,相當于一種回收方法。AI模型不需要每次都加載新數據,而是重新使用一些已經處理過的數據。這減少了對不斷獲取內存的需求,使過程更快更平滑。

  其二叫做“行-列捆綁(Row-Column Bundling)”技術。該技術是通過更有效地分組數據,即針對閃存的數據特征制定訪問數據塊的順序,可以更快地從閃存中讀取數據,加快人工智能理解和生成語言的能力。

  根據這篇論文,這些方法的結合使人工智能模型的運行容量達到iPhone可用內存的兩倍。這意味著該方法下,CPU中的推理速度較傳統加載方式提高了4-5倍,GPU中的推理速度提高了驚人的20-25倍。

image

  該論文作者寫道,“這一突破對于在資源有限的環境中部署先進的LLM尤其重要,從而擴大了它們的適用性和可及性。”

  蘋果的AI戰略

  人工智能效率的突破為未來的iPhone打開了新的可能性,比如更先進的Siri功能、實時語言翻譯、復雜的人工智能驅動的攝影和增強現實功能。

  論文中的新技術還為iPhone在設備上運行復雜的人工智能助手和聊天機器人奠定了基礎,據說蘋果已經在開發這方面的技術。

  蘋果在生成式人工智能方面的工作最終可能會被整合到其語音助手Siri中。蘋果在今年2月的人工智能峰會上,向員工介紹了其大型語言模型的工作。據媒體此前報道,蘋果的目標是推出與人工智能深度集成的智能版Siri。

  還有傳言稱蘋果計劃在盡可能多的蘋果應用程序中添加人工智能。

  除此之外據報道,蘋果還正在開發自己的生成式人工智能模型“Ajax”,其在2000億個參數上運行,為了與OpenAI的GPT-4模型相抗衡。

  內部稱為“Apple GPT”的Ajax旨在統一整個蘋果的機器學習開發,這突顯了蘋果將人工智能更深入地融入蘋果生態系統的更廣泛戰略。

  根據最新的報告,Ajax被認為比早期的ChatGPT 3.5更強大。然而,2023年9月OpenAI推出的新模型GPT-4可能已經超越了Ajax的能力。

  果鏈分析師Jeff Pu曾指出,蘋果將在2024年底左右在iPhone和iPad上推出某種生成式人工智能功能,屆時iOS 18將會包含這項功能。Pu還表示,蘋果將在2023年建造幾百臺人工智能服務器,2024年還會有更多。