Apple 的新 MM1 大型语言模型模糊了图像和文本之间的界限--IT时代网

Apple 的新 MM1 大型语言模型模糊了图像和文本之间的界限

admin 　2024年03月17日 11:12

苹果的研究团队通过他们新的“MM1”多模态大型语言模型向前迈出了一大步。这一激动人心的发展在最近的一篇题为“MM1：多模态LLM预训练的方法、分析和见解”的论文中进行了详细介绍，它展示了一个在图像识别和自然语言推理方面都具有令人印象深刻的能力的模型。

该模型有 30 亿、70 亿和 300 亿参数大小

MM1 有三种大小：30 亿、70 亿和 300 亿参数。研究人员使用这些模型进行实验，找出影响性能的关键因素。有趣的是，图像分辨率和图像标签的数量比视觉语言连接器的影响更大，不同的预训练数据集会显着影响模型的有效性。

研究团队使用“专家混合”架构和“Top-2 Gating”方法精心构建了MM1。这种方法不仅在预训练基准测试中取得了优异的成绩，而且在现有的多模态基准测试中也表现出色。即使在针对特定任务进行微调后，MM1 型号仍保持了有竞争力的性能。

测试显示，MM1-3B-Chat 和 MM1-7B-Chat 型号的表现优于市场上大多数类似尺寸的竞争对手。这些模型在 VQAv2（基于图像和文本的问答）、TextVQA（基于图像的基于文本的问答）和 ScienceQA（科学问答）等任务中尤为突出。然而，MM1 的整体性能还没有完全超过谷歌的 Gemini 或 OpenAI 的 GPT-4V 模型。虽然 MM1 可能还不是绝对的领导者，但它仍然是苹果在人工智能领域的重大飞跃。该公司最近还收购了DarwinAI，请在此处阅读更多相关信息。

来源：IT时代网

IT时代网(关注微信公众号ITtime2000，定时推送，互动有福利惊喜)所有原创文章版权所有，未经授权，转载必究。
创客100创投基金成立于2015年，直通硅谷，专注于TMT领域早期项目投资。LP均来自政府、互联网IT、传媒知名企业和个人。创客100创投基金对IT、通信、互联网、IP等有着自己独特眼光和丰富的资源。决策快、投资快是创客100基金最显著的特点。

Apple 的新 MM1 大型语言模型模糊了图像和文本之间的界限

TA的最新文章

Marshall 推出全新黑色和钢制外观的 Emberton II 蓝牙扬声器

Apple 的新 MM1 大型语言模型模糊了图像和文本之间的界限

三星 Galaxy M35 5G 运行搭载 Exynos 1380 SoC 的 Geekbench

Vivo T3 5G 确认使用天玑 7200 芯片组

精彩评论

小何

华为现在牛的不只是设备商了，，华为的手机现在也是全球销量不错，国内也算是老大了，之前用小米，，现在都改华为了。。产品确实不错。

来自: 美国如此忌惮华为显示出对中国崛起的深层忧虑--IT时代网
小何

三星手机在中国还有市场吗？看看现在满大街的vivo和oppo ，，华为，，小米线下店，，就是知道三星的市场基本没有了。。

来自: 彭博社：六大中国手机品牌在全球挑战三星苹果霸主地位--IT时代网
小何

滴滴打车现在也没有之前那么火了，，补贴也少了。。

来自: 【人物】滴滴创始人程维回顾与Uber竞争：中国互联网从来没有输过--IT时代网
小何

今日头条要把腾讯的地方各频道给霸占了。。

来自: 少年头条对垒中年腾讯：解局两代互联网公司商业之战--IT时代网