高文院士：数字视网膜，让智慧城市从“看清”向“看懂”进化 -阿里云开发者社区

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

编者按：创新是引领发展的第一动力。今年两会，科技创新成为高频热词。近年来，我国科技创新成果不断涌现，高铁、5G、人工智能等一些高新技术产业进入世界前列，智慧城市建设加快推进，应用成果惠及更多老百姓。

在人工智能的部分领域，我国从基础研究到技术应用都发展很快。比如，中国工程院院士、北京大学教授高文提出的“数字视网膜”，既是一种理念创新，也是一个新的产业机遇，对智慧城市的建设意义重大，本期邀请他详细解读。

数字视网膜并非真的要做一种仿生视网膜的硬件，而是希望能够改变目前摄像头只能看或者单一链路识别的功能。让摄像头本身拥有一定的AI处理能力，对识别到的车、人、场景主动进行特征提取。从而让摄像头上传到云端的视频数据，一路通过高效编码作为数据存储；另一路经过特征提取直接作为智能大脑的“可读物”。“云大脑”与摄像头的结合，就像是给智慧城市安装了一层新的“数字视网膜”。

3545F281_97D9_4108_A9D4_1CF404F6BCCE

1、数字视网膜的八个基本要素

现在比较典型的“城市大脑”，一般是传感数据、收集、存储、数据交换和集成，还有开放的算法平台。另外，还有运行和服务平台。在平台里面，实际数据量最大的是视频数据，大概占到90%以上，这些数据能识别是车还是人，车牌号等，然后传到云端。目前的视频数据，最长存三个月。因为大量的数据不等于大数据，而且随着城市摄像头越装越多，数据增长速度非常快，海量数据的价值很少。

目前的视觉感知系统，也只是对原始信号只进行了简单的编码压缩就送到云端。视觉系统的进化实际是经过了一个漫长的历史阶段，如果看眼睛的进化，不管是昆虫还是高脊椎动物，进化是不一样的，比如昆虫是浮眼，可以完成对天敌快速识别的功能，眼睛进化实际发生了非常长的时间。

视觉通道是把视网膜上看到的东西，通过视觉通道送到脑的视觉，最后形成认知和感知。中间的网络传输通道是非常重要的，整个视网膜大概有1.2亿个感官细胞，包括锥状细胞和感知细胞，最后通过神经连接到了大脑。从视网膜到大脑之间的连通通道，并不是每一个感光细胞直接连接到了大脑，而是通过视神经连接过去，视神经的个数和视网膜本身的个数有一个比，大概126∶1，也就是说从视网膜每个感光细胞往大脑送的视觉连接通道大概有126∶1左右的压缩率，这个压缩不是简单的视频压缩，它是特征抽取，这个过程是今天的“城市大脑”要好好学习的。
如果神经系统进化不好就会产生很多问题，比如说自闭症，可能在小时候发育的时候，这种连接增长速度太快，可能会形成自闭症。所以想让“城市大脑”健康，就要视网膜或者摄像头要有很好的分工协调机制，这是从生命系统得到的启发。根据这个启发，我们在设计新的第二代“城市大脑”或者云视觉系统的时候，在中间的视觉神经通道要好好学习，我们把这个工作叫作数字视网膜。

数字视网膜的定义，包括八个基本要素，这八个基本要素包括有统一的时间戳，有全局的位置信息，有高效的视频编码功能，有高效的特征编码功能、联合优化等，要有机制和软件可定义的一些功能，这样就比较容易进行升级。这八个基本的功能要求我们分成了三组。第一组叫作全局统一的时空ID，作为一个“城市大脑”，一个全局的视觉系统来说，全局统一的时空ID非常关键。第二组特征把高效视频编码、高效特征编码和连接优化，这三个定义成第二组功能，把它叫作多层次视网膜表示，包括视频编码、特征编码、联合优化三大块。第三组特征，是把高效的模型可定义功能组合到一起。这三个组合在一起，就不会像以前的摄像头，一个硬件做进去之后改变不了什么了，按照这种数字视网膜设计出来的摄像头，可以与时俱进，可以进行一些新功能的更新。

13479C2C_B5E4_408d_93A8_B289372B347C

2、数字视网膜和传统云视觉计算系统不一样

数字视网膜和传统的云视觉计算系统是不一样的，传统的视觉系统一个摄像机只能输出一个流，要么是视频编码流，要么是结果流。新的视网膜系统，每个摄像头可能会有三个流，会有视频编码流、特征编码流、模型编码流，这三个流混合在一起就可以对整个系统更优化。
现在的云视觉系统不是太有效，要想提高效率，可以通过类似于像数字视网膜的新的概念和技术，让它做得更有效，比如说数字视网膜至少可以让在编码上用了新的最有效的视觉编码工具，可以使它的码率更低，可以使延迟更低和准确率更高，原来的系统是先编码再到云端解码，提取特征再分析，现在所有的特征提取在摄像头就完成了，就可以降低延迟。因为没有解码过程，没有提取特征解码的过程，准确率可以比原来提高20%左右。

0EA8B327_CEB4_4ad5_BAC5_8C77050D7B46

3、数字视网膜领域的四大技术

过去两三年，在数字视网膜领域，很多技术在推进，希望这些技术能够落地。第一个叫高效视频编码，要做出全世界最好的视频编码放到数字视网膜里，才能叫作高效。过去二十年主要在做视频编码，在这个领域做了大量的工作，把视频里面按照帧处理的场景下，包括空间、时间、编码的冗余，用各种各样的数学工具去处理，包括使用滤波器做预测编码工具，利用熵编码去除冗余的工具，构造出一代又一代的视频编码的标准，这个工具对整个编码的效率提高是很大的，可以使编码的效率提升差不多40%左右。

世界的视频编码有广播电视、互联网视频、视频监控等需求，技术演进是差不多每十年演进一代，中国的科学家从2002年开始做AVS做中国自主的标准，这个标准到目前为止已经进入第三代了，第二代已经成为国家标准和广电标准，为了标准能走出国内，也专门在IEEE成立了工作组，最近刚刚把工作组上升为数据编码的标准委员会。AVS3时间上已经领先于国际标准了。

第二个技术就是特征编码技术，在我们的推动下，跟国际专家完成的两个国际标准，MPEG7是的第13和15部分，是CDVS和CDVA，是做视频特征编码的工作。

这个标准做完以后，深度网络就热起来了，所以我们经常去讲CDVS怎么样的时候，会场反映最多的问题就是你的标准支不支持深度网络，深度学习。这个标准现在也完成了，成为国际标准了。

第三个就是把视频编码和联合编码优化起来，让码率对两边都有利。因为视频编码和特征编码使用的优化模型是不一样的，视频编码使用的是2D优化模型，码率和损失的优化模型。特征编码联合使用的是R-A模型，码率和召回准确率的模型，这两个模型的曲线方向完全是不一样的，所以通常你要单个做的话没有问题，把它合一起怎么做没有人知道，所以我们提出联合优化模型，所以把R-A和2D变成一个目标函数，求联合函数的优化解，具体有一套解法，这是关于在2D模型上优化的解法，我们写成了联合优化函数，求最优解就可以得到联合优化。
第四个技术，现在用的不是脉冲神经网络，用的还是卷积神经网络，现在可以做到在摄像头这一端可以模型更新，这里涉及了一些模型的重用技术、模型的压缩技术。