IT 之家 10 月 13 日音问,苹果公司现已为旗下多模态大模子 MM 推出 1.5 版块claude 文爱,该版块模子基于前代 MM1 的架构,不时延续数据运行的检修原则,要点征询在不同检修周期中搀和不同类型数据对模子性能的影响。 现在关联模子文档已发布于 Hugging Face 上,IT 之家附论文地址如下(点此造访)。
该版块模子提供 10 亿 -300 亿多种参数领域,领有图像识别和当然言语推聪敏商。苹果公司研发东说念主员在新版块中更正了数据搀和战术,显耀提高了模子在多文本图像会通、视觉援用与定位(Grounding)以及多图像推理方面的智商。 参考论文,团队在 MM1.5 的执续预检修阶段引入了高质地的 OCR 数据和合成图像形容,显耀提高了模子对包含大批文本的图像的会通智商。 男性人体艺术此外,征询东说念主员在监督式微调阶段分析了不同数据类型对模子发达的影响,优化了视觉领导微调数据的搀和神气,从而为模子兑现了更高的后果,团队默示,即即是小领域的模子(10、30 亿参数版块)也能发达出色。 值得眷注的是,苹果公司本次还推出了成心用于视频会通的 MM1.5-Video 模子和成心科罚出动诞生用户界面(UI)会通的 MM1.5-UI 模子,其中 MM1.5-UI 模子将来有望四肢 iOS 幕后的"苹果牌" AI,其梗概科罚多样视觉援用与定位任务、记忆屏幕上的功能,或者通过与用户的对话进行交互。 尽管 MM1.5 模子在多项基准测试中得回了优秀发达,苹果团队仍接头通过进一步会通文本、图像和用户交互数据,缱绻更复杂的架构,来提高模子对出动诞生 UI 的会通智商claude 文爱,加强"苹果牌" AI 的实力。 |