Apple 的新 MM1 大型语言模型模糊了图像和文本之间的界限

苹果的研究团队通过他们新的“MM1”多模态大型语言模型向前迈出了一大步。这一激动人心的发展在最近的一篇题为“MM1:多模态LLM预训练的方法、分析和见解”的论文中进行了详细介绍,它展示了一个在图像识别和自然语言推理方面都具有令人印象深刻的能力的模型。

该模型有 30 亿、70 亿和 300 亿参数大小

MM1 有三种大小:30 亿、70 亿和 300 亿参数。研究人员使用这些模型进行实验,找出影响性能的关键因素。有趣的是,图像分辨率和图像标签的数量比视觉语言连接器的影响更大,不同的预训练数据集会显着影响模型的有效性。

研究团队使用“专家混合”架构和“Top-2 Gating”方法精心构建了MM1。这种方法不仅在预训练基准测试中取得了优异的成绩,而且在现有的多模态基准测试中也表现出色。即使在针对特定任务进行微调后,MM1 型号仍保持了有竞争力的性能。

测试显示,MM1-3B-Chat 和 MM1-7B-Chat 型号的表现优于市场上大多数类似尺寸的竞争对手。这些模型在 VQAv2(基于图像和文本的问答)、TextVQA(基于图像的基于文本的问答)和 ScienceQA(科学问答)等任务中尤为突出。然而,MM1 的整体性能还没有完全超过谷歌的 Gemini 或 OpenAI 的 GPT-4V 模型。虽然 MM1 可能还不是绝对的领导者,但它仍然是苹果在人工智能领域的重大飞跃。该公司最近还收购了DarwinAI,请在此处阅读更多相关信息。

来源:IT时代网

IT时代网(关注微信公众号ITtime2000,定时推送,互动有福利惊喜)所有原创文章版权所有,未经授权,转载必究。
创客100创投基金成立于2015年,直通硅谷,专注于TMT领域早期项目投资。LP均来自政府、互联网IT、传媒知名企业和个人。创客100创投基金对IT、通信、互联网、IP等有着自己独特眼光和丰富的资源。决策快、投资快是创客100基金最显著的特点。

相关文章
Apple 的新 MM1 大型语言模型模糊了图像和文本之间的界限

精彩评论