Apple 研究人员记录了 (pdf) 一种允许大型语言模型 (LLM) 在设备上运行的新方法,该方法采用独特的方法来克服移动设备上的 RAM 限制。像 Open AI 的 ChatGPT 4 这样的 LLM 的完整版本有大约 1.7 万亿个参数,需要强大的服务器才能处理处理。然而,谷歌的新 Gemini AI——它声称可以击败 GPT-4——为智能手机提供了“纳米”风格,并使用量化技术将模型减少到 18 亿个参数或 36 亿个参数。Gemini Nano 的其中一个变体目前正在谷歌的 Pixel 8 Pro 智能手机上运行(目前亚马逊降至 799 美元——通常为 999 美元)。
高通声称,其新的骁龙 8 Gen 3 SoC 可以支持高达 100 亿个参数的生成式 AI LLM——虽然比谷歌在 Pixel 8 系列上的能力要强得多,但这与使 GPT-4 功能令人印象深刻的 1.7 万亿个参数相去甚远。量化使移动 SoC 更容易处理 LLM,但也意味着它们会失去准确性和有效性。因此,任何可以帮助增加可以硬塞到移动设备上的模型大小的东西,LLM 的性能就越好。
为了使智能手机能够处理 AU 上的设备任务,RAM 要求也相当高。一个具有 70 亿个参数的 LLM 模型(如骁龙 8 Gen 3 支持的 Meta Llama 2)将需要至少具有 7GB RAM 的智能手机。iPhone 15 Pro 系列配备 8GB RAM,因此这表明像 Llama 2 这样的 Apple 开发的 LLM 将处于当前 iPhone 支持的上限。Apple 的研究人员已经找到了解决这种板载 RAM 限制的方法。
在一篇题为“LLM in a flash: Efficient Large Language Model Inference with Limited Memory”的研究论文中,苹果的生成式人工智能研究人员开发了一种利用iPhone闪存来补充设备板载系统RAM的方法。闪存存储带宽与 LDDR5/X 移动 RAM 不在同一联盟中,但 Apple 的研究人员开发了一种克服这一固有限制的方法。通过使用“窗口化”(AI 模型重用存储在闪存上已经处理过的一些数据)和“行列捆绑”(以更有效的处理方式对来自 LLM 的数据进行分组,从而加快读取速度)的组合。
当然,我们还没有看到苹果的 LLM,尽管有传言称我们可以看到一个基于 LLM 的更智能版本的 Siri,该 LLM 将作为 iOS 18 的一部分首次亮相,并能够在下一代 iPhone 16 Pro 机型上运行。但是,当我们这样做时,苹果似乎很有可能利用这种RAM扩展方法来确保它提供具有尽可能多的参数的LLM模型,以便它可以有效地在设备上运行。随着三星为下个月推出的 Galaxy S24 系列升级其生成式 AI 游戏,2024 年也随着生成式 AI 在智能手机上变得司空见惯的一年而逐渐成型。
来源:IT之家
IT时代网(关注微信公众号ITtime2000,定时推送,互动有福利惊喜)所有原创文章版权所有,未经授权,转载必究。
创客100创投基金成立于2015年,直通硅谷,专注于TMT领域早期项目投资。LP均来自政府、互联网IT、传媒知名企业和个人。创客100创投基金对IT、通信、互联网、IP等有着自己独特眼光和丰富的资源。决策快、投资快是创客100基金最显著的特点。
小何
小何
小何
小何