米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计

Classification

新闻动态

432-979-8521

传真：
手机：13881803200
邮箱：ct@spirit-ad.com.cn
地址：辽宁省沈阳市皇姑区北陵大街19号(3008)

立即咨询

当前位置：首页 > 新闻动态 > 行业资讯

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计

发布时间：2023-06-11 14:36:49 丨浏览次数：763

　　米乐 M6米乐米乐 M6米乐原标题：戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E，专为AR头显设计

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图1)

　　【新智元导读】近日，南洋理工&微软华人团队联手推出多模态模型「水獭」，未来还可成为AR头显的AI助手，超越贾维斯不是梦！

　　如果开发一个AI助手「贾维斯」，能够让下一代头显在生活中发挥极致，那才真的让人兴奋。

　　打麻将时，直接问我该弃什么牌？Otter-E给出打牌建议，以后还不是把把胡。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图2)

　　空中飞行时问Otter-E我想停在某个位置，它便会详细讲解让你如何落地。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图3)

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图4)

　　甚至，当你看到水里嬉戏的水獭，有感而发，就可以让Otter-E为你做一首五行诗。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图5)

　　以上，便是来自南洋理工大学和微软的研究人员专为AR头显训练的AI助手「Otter-E」。

　　Otter是一个基于OpenFlamingo的多模态的模型，在MIMIC-IT上进行了训练，并展示了改进的指令遵循能力和上下文学习。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图6)

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图7)

　　另外，MIMIC-IT横跨了7个图片和视频的数据集，涵盖了各种各样的场景，支持8种语言。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图8)

　　有网友表示，很兴奋能够看到人们为为苹果Vision Pro制作的AI AR应用。

　　目前，AI发展最快的领域就集中在对话助手上，AI拥有强大的能力来理解用户的意图，然后执行。

　　指令调优涉及在一系列不同的高质量的指令上对LLM进行微调。通过指令调优，LLMs获得了对用户意图更强大的理解能力。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图9)

　　为了解决这些限制，研究人员引入了多模态上下文指令调整（MIMIC-IT）。

　　(1) 多样化的视觉场景，包含了一般场景、自我中心视角场景和室内RGB-D图像等不同数据集的图像和视频。

　　(3) 多模态的语境信息，特点是以多模态格式制定的语境信息，包括多个指令——回应对和多个图像或视频。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图10)

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图11)

　　MIMIC-IT的数据集包括280万个多模态指令——反应对，涵盖以下基本能力：感知、推理，以及计划。

　　每条指令都伴随着多模态的对话背景，使得在MIMIC-IT上训练的VLM能够在交互式指令之后表现出强大的熟练度，并能实现零样本泛化（zero-shot generalization）。

　　研究人员建立了MIMIC-IT数据集，以支持更多的VLMs获得理解真实世界的能力。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图12)

　　(a) LLaVA-Instruct150K由单一图像和相应的仅有语言的语境信息（黄框部分）组成。

　　(b) MIMIC-IT在输入数据中容纳了多个图像或视频，并支持多模态的语境信息，即把图像/视频和语言输入都视为语境信息。

　　同时，研究人员提出了Sythus，这是一个用于生成多语言高质量指令-答案对的自动管道。

　　在LLaVA提出的框架基础上，研究人员利用ChatGPT来生成基于视觉内容的指令-回应对。

　　为了确保生成的指令-回应对的质量，研究人员的数据管道将系统信息、视觉注释和上下文中的例子作为ChatGPT的prompt。

　　由于核心集的质量影响到后续的数据收集过程，研究人员采用了一个冷启动策略。

　　在冷启动阶段，研究人员采用启发式方法，仅通过系统消息和视觉注释来提示ChatGPT收集上下文中的例子。

　　在第四步，一旦获得指令-反应对，数据管道将它们扩展为中文（zh）、日文（ja）、西班牙文（es）、德文（de）、法文（fr）、韩文（ko）和阿拉伯语（ar）。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图13)

　　Sythus概述。研究人员采用了一个冷启动阶段来确定最佳的系统信息和语境中的例子，以便在给定的数据集中查询指令-响应对。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图14)

　　(4) 支持八种语言，包括：英语、中文、西班牙语、日语、法语、德语、韩语和阿拉伯语。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图15)

　　(a)和(b)，指令和回应的根动词-名词对，图中内圈代表输出回应的根动词，外圈代表直接名词。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图16)

　　在MIMIC-IT数据集上进行训练后，Otter能够为情境理解和推理、用语境中示例学习，以及自我视觉AI助手。

　　研究者展示了MIMIC-IT数据集的各种应用，以及在其上训练的视觉语言模型（VLM）的潜在能力。

　　研究者首先介绍了Otter，一种使用MIMIC-IT数据集训练的上下文指令调优模型。

　　接下来，研究人员还探讨了在MIMIC-IT数据集上训练Otter的各种方法，并讨论了可以有效使用Otter的许多场景

　　MIMIC-IT数据集包含大约280万个上下文指令-响应对，它们被结构化为一个内聚的模板，以便于完成各种任务。

　　下面的模板包括图像，用户指令和模型生成的响应，利用人类和助手角色标签，以实现用户与助手的无缝交互。

　　在MIMIC-IT数据集上训练Otter模型，可以让其获得不同的能力，这一点在LA和SD任务中得到了证明。

　　在LA任务上的训练，Otter表现出卓越的场景理解力、推理能力和多轮对话能力。同时，在SD任务中，可以熟练地发现日常场景中的一般差异或微妙区别。

　　如图，在MIMIC-IT数据集上训练后Otter的回应，突出了它在多轮对话中理解和推理的能力。

　　正如前面提到的，关于组织视觉语言在上下文实例的概念，研究人员演示了Otter模型在LA-T2T任务训练后遵循上下文间指令的能力。对于其他任务，输入数据的组织格式如下:

　　MIMIC-IT数据集的一个显著特点是，包含了一个第一人称的视频和连续图像的综合集合，来自IEP、E4D场景。

　　在IEP场景中，内容强调在室内环境中的理解和规划，包含了旨在指导模型根据室内布局进行事件规划的指令和响应。

　　另一方面，E4D场景专门为第一人称增强现实（AR）头显助理应用定制了指令和响应。

　　根据这部分数据，研究人员训练了一个自我视觉助手，称为Otter-E，专门为AR头显应用设计的。

　　MIMIC-IT增强了该模型从第一人称视角感知场景的能力，为即将到来的任务制定策略，并为AR耳机用户提供有价值的见解和建议。

　　因此，Otter-E模型成为AR头显的一个特殊和有远见的视觉语言模型，为开创性的沉浸式体验铺平道路。

　　如下表，研究人员利用MMAGIBench框架对视觉语言模型的感知和推理能力的广泛评估。

　　Otter通过在感知和推理任务中实现最高的平均准确性，优于所有基线模型。

　　目前视觉语言模型的评估指标，如VQAv2，在稳健性方面存在缺陷。例如，VQAv2主要评估单字或短语的反应，而许多模型则产生句子输出。

　　为了弥补这一差距，研究人员通过要求ChatGPT将其标签预测，与每个输入的真实标签进行比较来评估这些模型。如果ChatGPT的反应表明预测与相应的标签一致，则认为测试样本是正确的。

　　如图，Otter 在视频理解方面的表现优于基线模型。(b)人类评估比较。Otter 展示了优越的实用性和一致性。(c)上下文学习评估中的少量镜头。Otter 优于 OpenFlamingo 作为一个更好的语境和零镜头学习者。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图17)

　　Li Bo是南洋理工大学计算机系一年级博士生，导师是刘子纬。他热衷的深度学习研究话题包括：

　　基础模型：稳定扩散，GPT，它们似乎有望将具有真正智能的人工智能投入实际应用。

　　具身AI: 一种通过互动和探索学习解决环境中具有挑战性任务的自主智能体。

　　这些都是登月计划的狂野梦想，也是Li将长期关注的问题。目前他的第一步研究课题是聚集于真实世界的场景中的计算机视觉和基础模型的新兴能力。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图18)

　　张元瀚是南洋理工的博士生，导师也是刘子纬。他的研究兴趣在于计算机视觉和深度学习。特别是，对表征学习和可转移性感兴趣。

米乐 M6米乐戴着苹果Vision Pro打麻将！NTU微软华人团队联手打造Otter-E专为AR头显设计(图19)

　　刘子纬，新加坡南洋理工大学助理教授，并获得南洋学者称号（Nanyang Assistant Professor）。他的研究兴趣包括计算机视觉、机器学习与计算机图形学。

米乐·M6（中国）官方网站

网站首页

关于我们

产品中心

新闻动态

成功案例

荣誉资质

技术支持

在线留言

米乐·M6（中国）官方网站

最新公告：

友情链接：