Apple 发布 MM1 AI 模型，可为新 Siri 2.0 提供动力

苹果在大型语言模型（LLM）领域算是后来者，在创建强大的人工智能工具方面落后于谷歌、微软和 Meta，但它似乎正在迅速迎头赶上。

今年早些时候，首席执行官蒂姆·库克告诉投资者，围绕人工智能将发布一项“重大突破”的重大公告。许多人怀疑这将是由法学硕士支持的Siri的新版本，类似于谷歌用 Gemini 取代 Assistant。

苹果研究人员刚刚透露了下一代 Siri 的基础细节，如果传言属实，它可能与iPhone 上的 Gemini一起工作，提供一种选择。

MM1作为预印本研究论文发布，本质上提供了一种使用人工智能生成的数据和标签来加速新模型训练的新方法——可能包括 Siri 2.0。

什么是苹果MM1？

MM1 的核心是一种使用图像和文本等合成数据训练多模态模型的新方法。

MM1 背后的研究人员声称，他们的新方法可以提高性能并减少后续提示的数量，以获得所需的结果。

能够提高即时理解能力并在尽可能少地与人工智能交互的情况下获得所需的输出对于消费技术来说是完美的，尤其是 Siri，它将被具有不同程度技术实力的广泛人群使用。

MM1 似乎是一个 AI 模型家族，最大的参数约为 300 亿个。这比GPT-4和Claude 3 Opus中的万亿多个参数要小得多，但研究人员仍然声称由于效率的提高，可以匹配关键基准。

他们写道：“通过扩大配方，他们构建了 MM1，这是一个参数高达 30B 的多模态模型系列，可在微调后实现最先进的预训练指标和多模态基准上的竞争性能。”

重大突破在于视觉，特别是对图像和其他形式的视觉内容的分析以及理解输出的能力。我最近测试了ChatGPT、Claude 和 Gemini 在这项任务上的表现。

论文的完整标题是多模式法学硕士预培训的方法、分析和见解。它以最小的宣传和可用的开源方式悄悄发布，并提供了训练数据和基准的完整详细信息。

研究人员在其中认为，结合不同类型的训练数据和模型架构——而不是依赖单一概念——可以带来最先进的性能。

该团队写道，他们混合使用了图像标题、图像文本和纯文本数据，并且需要“涵盖视觉和语言信息的多样化数据集”才能获得这种性能。

这包括图像字幕、视觉问题回答和自然语言理解——例如一次性或几次提示以获得所需的输出。

“得益于大规模的预训练，MM1 具有吸引人的特性，例如增强的上下文学习和多图像推理，可以实现少量的思维链提示，”该团队解释道。

MM1 使用不同类型的架构来存储模型，包括更高图像分辨率的编码器，采用不同的方法进行预训练和标记，并专注于使用该数据混合来提高单个提示的整体性能。

它还使用专家混合 (MoE) 模型进行扩展，同时降低处理要求，这进一步暗示了它在 iPhone 或笔记本电脑等设备上的潜在用途，而不是在云中运行。

谷歌最近在其 Gemini 1.5 Pro 模型中利用了 MoE 架构，具有超过一百万个令牌上下文窗口。这使得它能够提高大量输入数据的效率。

虽然该论文没有提及 Siri 或任何潜在产品，但对性能和效率的关注、以最少的提示实现扎实的结果以及对广泛的多模式功能的需求确实暗示了苹果未来将与 Siri 合作的方向。

由于苹果公司长期以来的隐私立场，任何由法学硕士支持的 Siri 的许多功能可能都必须“在设备上”运行，特别是在处理个人信息方面。

能够开发一个非常强大的模型，能够从与用户的交互中学习，并且足够小，可以在 iPhone 上运行，这是一个重大举措。

最近有消息称苹果可能会将 Gemini 引入 iPhone，而且之前有传言称该公司也在与 ChatGPT 制造商OpenAI进行谈判，看来苹果正在采取多方位的方式来实现库克向投资者承诺的“大爆炸”在人工智能中。

Post Views: 974