在2023年6月5日的WWDC大会上,苹果宣布推出多年来最大规模的硬件和软件组合产品。今年的“One more thing”(“还有一件事”)发布是苹果视觉专业版(Apple Vision Pro),这是一款集成了苹果生态系统的新型空间计算头戴式设备。

苹果视觉专业版是一个垂直整合的硬件和软件平台,将以全新的硬件先进技术和革命性的软件功能,于2024年推向市场,带来之前可能被称为增强现实(AR)或混合现实(MR)的空间计算体验。这次发布将包括如何将这一新的计算平台和计算机视觉技术结合起来,为用户带来全新的应用场景和应用程序。让我们开始吧!

苹果视觉专业版是什么?

苹果视觉专业版利用眼球追踪、手势和语音作为输入方式,打造出完全沉浸式的体验。

这款计算机配备了一个拥有2300万像素的微OLED显示系统(参考一下,Vision Pro将64个像素放入了1个iPhone像素的空间中!),搭载了运行visionOS的M2芯片以及一款新的R1芯片,用于实时处理12个摄像头、5个传感器和6个麦克风的数据。R1芯片用于处理摄像头、传感器和麦克风的输入,并在12毫秒内将图像传输到显示屏上。

在这里插入图片描述
在这里插入图片描述

什么是visionOS?

visionOS是苹果视觉专业版计算机的新操作系统。这个全新的visionOS将使开发人员可以使用熟悉的苹果开发工具,如Xcode、SwiftUI、RealityKit和ARKit,以及对Unity和全新的3D内容准备应用程序Reality Composer Pro的支持,为这款新设备创建定制的应用程序。

在这里插入图片描述
人们可以在保持与周围环境连接的同时与应用程序进行交互。visionOS SDK将于本月末与Xcode、visionOS模拟器、Reality Composer Pro、文档、示例代码、设计指南等一起发布。目前,您可以了解有关如何为visionOS做准备以及开发针对空间计算设备应用程序的细节。

visionOS和ARKit将虚拟内容与现实世界相融合。

苹果视觉专业版、visionOS和计算机视觉从平台上来看,Vision Pro似乎已经具备了本地的计算机视觉功能,我们期待在开发人员开始为该平台构建应用程序时能了解更多关于这款头戴式设备的信息。以下是一些关于在苹果发布会上头戴式设备使用计算机视觉的方式的总结。

手势识别

手势识别是用户与Vision Pro进行交互的核心方式。用户可以用拇指和食指捏合来展开应用程序、移动应用程序和滚动浏览应用程序。Vision Pro似乎能够广泛识别手势,帮助用户在与应用程序进行舒适交互时,即使双手不在画面中。

在这里插入图片描述

手势识别在头戴式设备的空间性质中起着关键作用。不需要额外的设备(控制器等)来控制头戴式设备,用户可以使用双手和眼睛与应用程序进行交互。

人体检测

一个重要的信息是,这款头戴式设备具备确保用户与周围人群保持连接的功能。在发布会上,苹果表示:“[Apple Vision Pro]无缝地将数字内容与物理世界融合,同时让用户保持存在感并与他人保持连接”。视频亮点显示,当检测到用户附近有人时,人体将通过显示的内容进行聚焦。
在这里插入图片描述

设备检测

与其他苹果产品无缝交互是商业用户在不中断工作流程的情况下切换设备的重要卖点。演示展示了Vision Pro将如何识别您的MacBook,并将笔记本电脑中的内容传输到头戴式设备中。

正如您所看到的,苹果已经在界面中原生地构建了高价值的物体识别功能,因为计算机视觉是用户与周围世界互动的关键部分。

在这里插入图片描述

计算机视觉与苹果视觉专业版入门指南

预计visionOS SDK将于2023年6月发布,今天您可以做很多准备,以便构建利用计算机视觉的visionOS应用程序。如需了解WWDC23的机器学习和计算机视觉内容,请访问ML & Vision页面。

如果您想快速入门,请阅读有关Create ML和Core ML的内容,了解如何利用苹果机器学习功能为视觉、自然语言、语音和声音构建智能应用程序。一旦您有了概览,可以通过机器学习API和机器学习资源进行更详细的探索。然后深入研究视觉文档和可用的Core ML模型。

在了解了可行性的基础上,开始尝试一些应用程序,比如现金计数器,看看这些组件如何共同工作,为移动设备提供增强和混合现实体验。现金计数器利用Roboflow SDK、开源示例应用程序存储库和开源数据集,将自定义计算机视觉模型直接部署到iOS应用程序中。

当您准备好开始时,可以按照这个逐步视频教程,将自定义模型部署到移动应用程序中。

苹果视觉专业版在企业中的应用场景

视觉专业版为企业的计算机视觉应用场景开辟了全新的领域。硬件和软件的进步使得以前不可能实现的新应用成为可能,为各种应用场景提供了令人兴奋的新机会。

M2和R1提供了广泛应用于企业的强大能力和多模态功能。视觉专业版的超高分辨率显示系统能够提供真正的无需使用双手的体验,用于构建增强企业环境中工作人员的应用程序。让我们探索一下企业可以如何利用苹果视觉专业版。

制造业的质量保证和检验

利用计算机视觉的智能增强可以充当人工质量保证或产品检验工作的个人助手。视觉专业版可以为工人提供额外的支持,帮助他们识别制造过程中的质量问题或异常情况。借助计算机视觉的增强功能,可以减少错误或加快流程以提高生产效率。

例如,考虑这样一种情况:一个工人正在接受有关制造流程中标记的缺陷的培训。视觉专业版可以用于提供关于不同缺陷的沉浸式培训,为工人提供互动反馈,帮助他们了解错误以及如果出现缺陷时该如何处理。

现场服务中的组装、安装和维修

将计算机视觉与视觉专业版结合使用,可以为任何个别现场服务员工提供更详细的视觉指导,从而扩大其专业知识。

在派遣员工或承包商时,企业可以为他们提供明确的视觉指导,并允许服务专业人员提高他们所能服务的产品数量。每个员工不仅能够处理更多产品,由于视觉提示和警报的存在,质量也会提高,这些指导和警示会在员工工作时给予引导。

跨行业的培训、信息和辅助

视觉专业版的一个广泛好处是为员工在各种任务或情境下提供培训、信息和辅助。

借助计算机视觉的帮助,员工可以更快地掌握各种场景下的任务完成方式。员工可以在新任务中得到指导,在以前没有经验的独特环境中请求信息,并利用摄像系统在需要人工指导的情况下呼叫专家。计算机视觉将帮助新员工更快地适应他们的角色,并减少在入职期间的错误。

GitHub 加速计划 / vi / vision
15.85 K
6.89 K
下载
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
最近提交(Master分支:2 个月前 )
868a3b42 13 天前
e9a32135 22 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐