Technical Articles
Smart vision in the real world and the challenges it faces
Date:2018-08-08
Source:Samsun Technology
从计算机到机器人再到人工智能,复制或模仿人类智慧、感知能力和行为的需求激发了多项关键技术进步,多年来,让设备、物体和事物直观“看到”周围环境,并进行分析和解读一直是一个重要的研究课题。
声音、视觉和压力等各种传感器都是从人类的听觉、视觉和压力感知能力中获取灵感。其中,视觉无疑是人类最重要的感知能力之一。视觉让人类看到周围环境,并解释、分析和采取行动。人类视觉系统是一个非常复杂、智能的“机器”,占据了大脑的重要组成部分。大脑中专门用于视觉处理的神经元占皮层面积近30%。因此,多年来,让设备、物体和事物直观“看到”周围环境,并进行分析和解读一直是一个重要的研究课题。
以前,技术的复杂性、巨大计算能力要求和高昂成本限制了使用监视摄像头对安全监视应用的视觉感知能力。然而,今天已经发生了巨大的变化,视觉传感器的市场已经爆发,摄像头正被嵌入到任何地方和任何设备、物体和事物中,包括移动的和静止的。此外,边缘和云中可用的计算能力也急剧增加,这引发了嵌入式视觉革命。
价格便宜的传感器/摄像头、视觉传感器分辨率技术的极大进步,再加上处理动态范围成像和计算能力,促使了嵌入式视觉令人难以置信的增长和多样化应用。
通过传统图像处理和深度学习相结合而实现的视觉智能,在当今互联嵌入式系统、设备和对象的世界中已经成为可能,它既利用了设备本身的边缘计算能力,也利用了云计算能力。
这引发了自动驾驶汽车、无人机、机器人、工业应用、零售、交通运输、安全和监控、家用电器、医疗/保健、体育和娱乐、消费者增强和虚拟现实、当然还有无处不在智能手机的快速增长。视觉智能是物联网世界中的一场风暴,而且应用领域也会越来越丰富。
嵌入式视觉的普及,其根源在于内置摄像头手机的爆炸式增长。在手机革命之前,视频/摄像头只与安全和监视相关。但随后,内置摄像头手机出现了,这与边缘和云上视频分析以及智能计算能力的同时大幅增长是一致的。这种结合导致了爆炸式增长,视觉传感器开始被嵌入到从机器人、无人机到汽车、工业机器、电器等等各个地方。
视觉传感器有多种类型,但互补金属氧化物半导体(CMOS)传感器迄今影响最大,并导致视觉传感器在各种嵌入式系统和智能手机中的爆炸式增长。
传感器无处不在,而且数量众多。今天的自动驾驶汽车有10多个摄像头、无人机有3到4台摄像头、到处都有的安全监控摄像头、手机正在进行的视频直播等等。来自这些视频源的视频数据在云中流动以获得进一步智能分析,而实时的边缘处理则在设备和物体本身进行。
视觉传感器分辨率、动态范围和视觉传感器数量不断扩大,以及随着这些传感器产生大量视频数据,再加上其传输和存储要求,必然需要强大计算能力。
以前,人们急于将视频流送到云中进行实时存储或视觉分析,云提供了巨大的计算能力,但即使在压缩后传输所需的带宽需求也很高。巨大存储空间、延迟时间以及安全和隐私问题正在让客户重新思考云计算,并开始考虑在设备/对象层考虑视觉分析,然后在云中进行离线视频处理。
在现实世界中的视觉应用
视觉和视觉智能市场继续快速发展,有一些引人注目的技术趋势正在发生,预计它们将推动多年以来的下一个大规模增长。这里有几个例子:
❈3D相机和3D感测:3D相机或更一般的3D感测技术允许场景中深度计算和场景3D地图的构建。这项技术已经存在一段时间了,在微软的Kinect等游戏设备中已经普遍应用,最近在iPhoneX生物特征识别中也有应用。此外,机器人、无人机和带有3D摄像头的自动驾驶汽车可以识别物体的形状和大小,用于导航,绘图和障碍物探测。同样,3D相机和立体相机是增强、虚拟和混合现实的支柱。
❈边缘和云中的深度学习:基于神经网络的人工智能已经风靡全球,而今天可用的计算能力又使得深度学习成为可能。还有其他因素促成了神经网络在实际应用中的增长,包括大学和大型公司用于培训和尖端研发的大量数据(视频、照片、文本),以及它们对开放源代码的贡献。这反过来又引发了神经网络的很多实际应用。事实上,对于机器人、自动驾驶汽车和无人机,在边缘的GPU/SoCs上运行深度学习推理已经成为常态。云将继续用于训练深度学习以及离线存储数据的视频处理,只要网络延迟和视频管道延迟被认为是可接受,边缘和云之间的分离架构处理也是可能的。
❈同步定位和测绘(SLAM)在汽车、机器人、无人机中的应用:同步定位和测绘(SLAM)是自动驾驶车辆、机器人和无人机的关键部件,这些车辆、机器人和无人机配备有各种类型的摄像头和传感器,例如雷达、激光雷达、超声波等。
❈AR/VR与感知计算:想想微软全息透镜HaloLink,后面是什么?六个带有深度传感器组合的摄像头。微软甚至宣布在英国剑桥开设全息透镜计算视觉研究中心。
❈基于手机和嵌入式设备的生物认证:生物认证可以触发下一代移动应用程序,再次是摄像头传感器,结合边缘和云上的视频分析,触发这一趋势。随着技术的成熟,它将扩展到各种嵌入式设备。
❈零售:AmazonGo是一个使用摄像头和高端视频分析的例子。很快,我们将在超市里安装机器人来帮助人类,所有机器人都配备了多个摄像头和视觉智能以及其他传感器。
❈媒体:视频智能已经在媒体行业中大量使用。视频分析可让您在大型视频文件中搜索特定主题、场景、对象或面部。
❈体育:实时3D视频、视频分析和虚拟现实将使下一代个性化体育和娱乐系统成为可能。
未来、挑战、动力
对于不断增长的高分辨率视频、高动态范围、高帧率和视频智能的需求,使得对高计算能力、传输带宽和高存储容量的需求日益增长,而且很难持续赶上。
一些公司正在采取不同的方式来解决这个问题。比如,生物启发式视觉传感器的研究和商业化已经开始出现,这些传感器响应场景变化并输出一小串事件而不是一系列图像,这可能导致视频数据采集和处理需求大幅降低。
这种方法可以从根本上改变我们获取和处理视频的方式,由于处理能力大大降低,它有很大的潜力来降低功耗。
视觉仍将是推动物联网革命的关键传感器。同样,边缘视频智能将继续推动SoC和半导体行业继续使用GPU、专用集成电路(ASIC)、可编程SoC、现场可编程门阵列(FPGA)和数字信号处理(DSP)的视频加速器路径。加速分类图像处理和深度学习,并为开发人员提供可编程空间。
这是现在的竞争要地,各种各样的大型企业和初创公司都在积极地追逐这个机会。
低功耗嵌入式视觉
随着视觉传感器和嵌入式智能技术在数百万个电池供电装置中的应用,低功耗嵌入式视觉将是下一个时代整个行业增长的主要因素之一,也是需要解决的关键问题之一。
构建具有嵌入式视觉和智能的产品和系统将一定程度上减少隐私和安全问题,因此,尽管面临挑战,物联网嵌入式视觉的前景依然光明,市场机遇依然巨大,解决这些挑战将获得巨大回报。
声音、视觉和压力等各种传感器都是从人类的听觉、视觉和压力感知能力中获取灵感。其中,视觉无疑是人类最重要的感知能力之一。视觉让人类看到周围环境,并解释、分析和采取行动。人类视觉系统是一个非常复杂、智能的“机器”,占据了大脑的重要组成部分。大脑中专门用于视觉处理的神经元占皮层面积近30%。因此,多年来,让设备、物体和事物直观“看到”周围环境,并进行分析和解读一直是一个重要的研究课题。
以前,技术的复杂性、巨大计算能力要求和高昂成本限制了使用监视摄像头对安全监视应用的视觉感知能力。然而,今天已经发生了巨大的变化,视觉传感器的市场已经爆发,摄像头正被嵌入到任何地方和任何设备、物体和事物中,包括移动的和静止的。此外,边缘和云中可用的计算能力也急剧增加,这引发了嵌入式视觉革命。
价格便宜的传感器/摄像头、视觉传感器分辨率技术的极大进步,再加上处理动态范围成像和计算能力,促使了嵌入式视觉令人难以置信的增长和多样化应用。
通过传统图像处理和深度学习相结合而实现的视觉智能,在当今互联嵌入式系统、设备和对象的世界中已经成为可能,它既利用了设备本身的边缘计算能力,也利用了云计算能力。
这引发了自动驾驶汽车、无人机、机器人、工业应用、零售、交通运输、安全和监控、家用电器、医疗/保健、体育和娱乐、消费者增强和虚拟现实、当然还有无处不在智能手机的快速增长。视觉智能是物联网世界中的一场风暴,而且应用领域也会越来越丰富。
嵌入式视觉的普及,其根源在于内置摄像头手机的爆炸式增长。在手机革命之前,视频/摄像头只与安全和监视相关。但随后,内置摄像头手机出现了,这与边缘和云上视频分析以及智能计算能力的同时大幅增长是一致的。这种结合导致了爆炸式增长,视觉传感器开始被嵌入到从机器人、无人机到汽车、工业机器、电器等等各个地方。
视觉传感器有多种类型,但互补金属氧化物半导体(CMOS)传感器迄今影响最大,并导致视觉传感器在各种嵌入式系统和智能手机中的爆炸式增长。
传感器无处不在,而且数量众多。今天的自动驾驶汽车有10多个摄像头、无人机有3到4台摄像头、到处都有的安全监控摄像头、手机正在进行的视频直播等等。来自这些视频源的视频数据在云中流动以获得进一步智能分析,而实时的边缘处理则在设备和物体本身进行。
视觉传感器分辨率、动态范围和视觉传感器数量不断扩大,以及随着这些传感器产生大量视频数据,再加上其传输和存储要求,必然需要强大计算能力。
以前,人们急于将视频流送到云中进行实时存储或视觉分析,云提供了巨大的计算能力,但即使在压缩后传输所需的带宽需求也很高。巨大存储空间、延迟时间以及安全和隐私问题正在让客户重新思考云计算,并开始考虑在设备/对象层考虑视觉分析,然后在云中进行离线视频处理。
在现实世界中的视觉应用
视觉和视觉智能市场继续快速发展,有一些引人注目的技术趋势正在发生,预计它们将推动多年以来的下一个大规模增长。这里有几个例子:
❈3D相机和3D感测:3D相机或更一般的3D感测技术允许场景中深度计算和场景3D地图的构建。这项技术已经存在一段时间了,在微软的Kinect等游戏设备中已经普遍应用,最近在iPhoneX生物特征识别中也有应用。此外,机器人、无人机和带有3D摄像头的自动驾驶汽车可以识别物体的形状和大小,用于导航,绘图和障碍物探测。同样,3D相机和立体相机是增强、虚拟和混合现实的支柱。
❈边缘和云中的深度学习:基于神经网络的人工智能已经风靡全球,而今天可用的计算能力又使得深度学习成为可能。还有其他因素促成了神经网络在实际应用中的增长,包括大学和大型公司用于培训和尖端研发的大量数据(视频、照片、文本),以及它们对开放源代码的贡献。这反过来又引发了神经网络的很多实际应用。事实上,对于机器人、自动驾驶汽车和无人机,在边缘的GPU/SoCs上运行深度学习推理已经成为常态。云将继续用于训练深度学习以及离线存储数据的视频处理,只要网络延迟和视频管道延迟被认为是可接受,边缘和云之间的分离架构处理也是可能的。
❈同步定位和测绘(SLAM)在汽车、机器人、无人机中的应用:同步定位和测绘(SLAM)是自动驾驶车辆、机器人和无人机的关键部件,这些车辆、机器人和无人机配备有各种类型的摄像头和传感器,例如雷达、激光雷达、超声波等。
❈AR/VR与感知计算:想想微软全息透镜HaloLink,后面是什么?六个带有深度传感器组合的摄像头。微软甚至宣布在英国剑桥开设全息透镜计算视觉研究中心。
❈基于手机和嵌入式设备的生物认证:生物认证可以触发下一代移动应用程序,再次是摄像头传感器,结合边缘和云上的视频分析,触发这一趋势。随着技术的成熟,它将扩展到各种嵌入式设备。
❈零售:AmazonGo是一个使用摄像头和高端视频分析的例子。很快,我们将在超市里安装机器人来帮助人类,所有机器人都配备了多个摄像头和视觉智能以及其他传感器。
❈媒体:视频智能已经在媒体行业中大量使用。视频分析可让您在大型视频文件中搜索特定主题、场景、对象或面部。
❈体育:实时3D视频、视频分析和虚拟现实将使下一代个性化体育和娱乐系统成为可能。
未来、挑战、动力
对于不断增长的高分辨率视频、高动态范围、高帧率和视频智能的需求,使得对高计算能力、传输带宽和高存储容量的需求日益增长,而且很难持续赶上。
一些公司正在采取不同的方式来解决这个问题。比如,生物启发式视觉传感器的研究和商业化已经开始出现,这些传感器响应场景变化并输出一小串事件而不是一系列图像,这可能导致视频数据采集和处理需求大幅降低。
这种方法可以从根本上改变我们获取和处理视频的方式,由于处理能力大大降低,它有很大的潜力来降低功耗。
视觉仍将是推动物联网革命的关键传感器。同样,边缘视频智能将继续推动SoC和半导体行业继续使用GPU、专用集成电路(ASIC)、可编程SoC、现场可编程门阵列(FPGA)和数字信号处理(DSP)的视频加速器路径。加速分类图像处理和深度学习,并为开发人员提供可编程空间。
这是现在的竞争要地,各种各样的大型企业和初创公司都在积极地追逐这个机会。
低功耗嵌入式视觉
随着视觉传感器和嵌入式智能技术在数百万个电池供电装置中的应用,低功耗嵌入式视觉将是下一个时代整个行业增长的主要因素之一,也是需要解决的关键问题之一。
构建具有嵌入式视觉和智能的产品和系统将一定程度上减少隐私和安全问题,因此,尽管面临挑战,物联网嵌入式视觉的前景依然光明,市场机遇依然巨大,解决这些挑战将获得巨大回报。