老猴回顾十年多媒体关键词:高清,内容,开源,快

简介: 认识老猴(侯金亭)是在去年的LiveVideoStackCon的晚宴上,十分健谈,在低调内敛的技术人中格外扎眼。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

认识老猴(侯金亭)是在去年的LiveVideoStackCon的晚宴上,十分健谈,在低调内敛的技术人中格外扎眼。他说,从没想过为啥要从事这个行业,也从来没有想过要离开,好像一直在这儿似的。于是就这样沉浸在多媒体行业十多年。LiveVideoStack对北京理光软件研究所战略执行部副总监侯金亭进行了邮件采访,畅谈了多媒体行业发展的过去与未来。


策划 / LiveVideoStack


LiveVideoStack:侯金亭你好,能否简要介绍下自己,包括目前的主要工作及关注领域?


老猴:您好!我现在服务的公司是理光软件研究所(北京)有限公司,简称SRCB,目前的身份是战略执行部副总监,这个部门包含战略和执行两个部分,我负责执行部,主要任务是将研究成果产品化。SRCB有三个大的实验室,图像和机器视觉处理、大数据分析、商用解决方案都是传统长项,我所在的这个部门是在2015年,我加入SRCB后才开始组建的。我们主要关注图像处理技术、视频处理技术、视频系统技术等在PC端、移动端、以及服务器端的应用。


LiveVideoStack:翻开过去的履历,您一直和多媒体开发形影不离,为什么持续专注在这一领域?


老猴:这事儿说起来有点长[笑]。2000年的时候,我在哈尔滨工业大学读大二,机缘巧合遇到了高文教授,就用课余时间到他在哈工大的实验室做RA(研究助理)。视频编码技术是高老师实验室的重点研究方向之一,从那时候就对视频技术有所了解。正式做视频工作是2004年,也就毕业后到高老师在北京的联合实验室工作的第二年,那时候觉得AVS的参考代码很绕,就自己写了一个AVS解码器,写之前对视频编解码的了解仅限于一些算法和模块,写完了之后感觉对整个编解码过程和视频标准真正理解了。之后我又开始尝试对自己的解码器进行汇编优化,写MMX和SEE2的代码,做AVS的编码器,复用器,基于DirectShow的播放器等等。


2006年离开实验室加入到一个源于硅谷的初创公司C2 Microsystem,一开始也是做Codec的模块优化,之后负责后处理和输出模块,再后来被借调到芯片团队为芯片设计做验证,直到芯片设计团队的VP邀请我加入硬件设计团队的时候我才发现自己跑得太远了。2010年加入到晶宝利,主要工作也是跟Codec和视频输出,音视频同步相关的工作。


2012年加入Real,组建了一个小团队,主要负责北京和西雅图团队之间的技术衔接,做了HLS和DASH相关开发。后来转入到Real Player团队,做播放器应用相关的开发,感觉做应用也挺有意思,但随着新产品RealTimes市场策略的失败,我们部门也就被解散了。


回顾一下也蛮有意思,音视频这个领域里,我做过的事情还蛮多的。而且我好像从没想过为啥要从事这个行业,也从来没有想过要离开,好像一直在这儿似的。但跟以前不同的是,我不再是举着把锤子满世界找钉子,会根据具体项目、具体需求去选择不同的技术。


LiveVideoStack:这个问题可能有些伤感。我查看了希图视鼎科技(https://www.c2micro.com/ ),晶宝利的资料,他们已经渐渐消逝在行业的视线中了。2011年晶宝利还成功融资了数百万美元(http://www.vcinchina.com/c/30/11860.html )。这两家公司的高管也都是全球IC、通信领域的顶尖人才。为什么这么出色的公司会走向衰落?你的观察和思考的答案是什么?


老猴:这两家公司都是在2012年初相继关闭的,我认为这并不是衰落,而是倒在了奋斗的路上。至于倒下的原因,从不同的视角,可以得出不同的结论,总的说来,都是资金的原因。其实这两家公司的融资都远超过您看到的这个数字了。但研发就是一个不断试错过程,没有足够的资金支撑的公司,做研发的结果都不会太好,何况半导体行业是一个资金门槛特别高的行业。


另一个原因,也是半导体这个行业的特点,产品从市场调研、开发到推出市场的周期很长,短则一年,长则两三年,这个反馈回路太漫长了,等到市场趋势明朗的时候再想掉头,就来不及了。其实不光半导体公司,很多创业公司都是因为类似的问题倒下的。


可能也正是这样的经历,让我后来变成了一个敏捷开发思想的践行者,这是后话。


LiveVideoStack:回顾过去10年,全球多媒体技术生态发生了哪些变化,你能用几个关键词或几句话来总结下吗?


老猴:我觉得第一个关键词就是“高清”。2003年的时候,我们觉得做1080P 60Hz的实时编解码是一件“不可能的任务”,但几年后,随着硬件算力增长和软件不断优化,现在高清直播早已不存在什么技术问题了。当下这个阶段,正在从1080P到4K、6K、甚至8K逐步过渡,所有在上一个阶段遇到的困难,在这个阶段基本上都还会遇到,而高分辨率导致的数据量的暴增将进一步刺激硬件发展、算法优化、带宽增长。而在这期间必然会出现各种各样的细分应用,这个行业会越来越热闹。


第二个关键词是“内容”。做音视频行业的人都熟悉一个词,叫“内容为王”。以前说到内容这个词的时候,我们首先想到的是电视台,好莱坞。但这10年来,互联网让这一形势发生了巨大的改变,来自不同行业、不同设备上的直播视频、短视频、小机构的内容、网络公司自制内容等等,是数据量和流通速度都是过去不能比拟的。这些新趋势都会产生新的技术需求,不同设备产生的视频的格式、大小、帧率可能都不一样,对编辑、转码、存储、传输、处理等技术都造成了新的挑战。


第三个关键词是“开源”。前几天我还跟FFmpeg的维护者之一,“悟空”大师兄开玩笑(LiveVideoStack注:刘歧是OnVideo联合创始人,FFmpeg Maintainer/顾问,被多媒体技术开发者尊称为“大师兄”),说他们把我们这些做Codec的人搞的没活干了。十年前音视频行业的技术门槛还是很高的,但这几款开源软件,FFmpeg、x264、OpenCV等极大地降低了这个行业的技术门槛。所以我说这个行业能到今天这个状况,是所有从业者集体努力的结果。


第四个关键词我选择“快”。受益于互联网的高速发展和硬件性能的性能提升,以及内容来源的多样性,让这个行业的变得越来越快,不但是技术方案变化快,商业模式变化和游戏的玩法也变得越来越快,要求技术方案和产品开发也跟着越来越快。努力做到技术储备和工程实践的“知行合一”,是技术从业者能快起来的关键。


LiveVideoStack:关于Codec,因为有Google、Netflix等巨头的支持,AV1势头很猛。但在硬件Codec领域,H.264还是主流。而HEVC因为专利风险,正在面临来自AV1的挑战。您如何看待未来Codec战争?


老猴:编码标准更新换代是必然的,H.264肯定会被其它标准所取代,但HEVC是否会一码独大,还是和其它几个标准公分天下,其实并不取决于标准本身,终端硬件和内容方的选择至关重要,目前谈结果还为时太早。


LiveVideoStack:WebRTC 1.0定稿,你认为WebRTC真正成为实时通信的“标准”,还有哪些事情要做?


老猴:抱歉,我以前对WebRTC这块关注得不太够,不敢谈太多,也是上次参加LiveVideoStack的会议才注意到WebRTC在互动直播领域已经独树一帜,才开始关注这一领域。准备在今后的项目中,做一些尝试。


LiveVideoStack:在今年的西班牙世界通信大会MWC上,5G成为热点。你如何看5G技术给多媒体生态带来的红利?


老猴:前面我曾提到过,现在行业正处在从HD到4K、6K、8K过度的一个阶段。而在这个阶段,跟视频领域相关的各个环节,包括内容、采集、编码、传输、接收、存储、解码、显示以及数据处理与挖掘,都不断的会有新的技术突破、新的应用和解决方案出现,如果能突破其中的一两个点,对整个行业的发展都将是一次推动。5G的技术将在传输这个环节上为多媒体应用提供更大的带宽,更快的传输速度。但全行业的爆发,得等到其它环节都有所突破才行。


LiveVideoStack:展望未来,你认为多媒体技术在哪些场景或行业有机会重度使用?


老猴:这个实在难讲,不过换一个角度看,在过去的10多年里,由于多媒体技术的进步,涌现出很多新兴的行业,比如直播主播,在线英语培训,VR电影等等。我相信在未来还会有很多新的行业涌现出来。


LiveVideoStack:AI、区块链等新技术对多媒体开发生态会产生怎样的影响?看到哪些场景的应用?


老猴:AI我还勉强懂一点[尴尬],区块链对我来说还是个新事物,也是最近才开始关注。目前在视频编码技术中,已经使用到神经网络对编码性能进行优化;在视频内容处理领域,AI算法用于目标检测、物体跟踪、视频结构化分析等都发挥着重大的作用;基于视频内容的语义提取和数据挖掘的技术领域也将会产生很多有意思的应用。


LiveVideoStack:许多开发者都有体会,做音视频的“坑”比较多,入门不易做好难。对此,您有哪些经验可以分享的?


老猴:现在做音视频开发的门槛已经很低了,踩过“坑”的数量,已经成了评判一个开发者的价值的指标之一。但不论具体系统和技术怎么变,支撑起这个行业的基本理论框架的变化还是不大的,多读书,了解相关基本概念,与实际项目结合,做到“知行合一”,可能是最好的办法。


LiveVideoStack:很多技术人都是内敛沉稳的,而你的性格却是外向开朗的,你觉得什么样性格的人更适合做技术?你如何平衡事业与生活的关系,并保持身体和精神的能量?


老猴:年轻的时候我也为这事儿困惑过,甚至想要不要转行去做销售或者市场啥的[笑]。但后来意识到,无论是写程序做技术工作,还是做销售做市场,都是相当专业的领域,都需要长时间的学习,训练和经验积累,这些都与性格无关。大家千万别自定人设,给自己挖坑,认为程序员就应该“996”,就应该加班熬夜,就应该亚健康,这样对自己不好,对这个行业也不是好事。


我一直坚持运动,早些年是足球,后来玩了很多年的羽毛球和户外自行车,5年多前开始练综合格斗(MMA),学习巴西柔术和拳击。运动让我生活规律,远离不良生活习惯,注重休息和营养,同时也让我保持健康和充沛的精力,在公司也经常带领团队成员去健身房锻炼。


大师兄利刃三年,《FFmpeg从入门到精通》终见面


由“大师兄”刘歧和学而思客户端架构负责人赵文杰编写,武爱敏审校的《FFmpeg从入门到精通》终于即将面世,LiveVideoStack有幸邀请到大师兄和文杰老师在“多媒体开发新趋势”北京沙龙与大家一同分享“FFmpeg与多媒体开发的那些事”。


我们现场准备了:


  • 抽取幸运观众赠送大师兄和文杰老师签名的《FFmpeg从入门到精通》

  • 参会小伙伴可以享特别优惠购书


更多精彩就在LiveVideoStack Meet:多媒体开发新趋势,点击【阅读原文】报名,赢大师兄的新书!



640?wx_fmt=jpeg

相关文章
|
1月前
|
人工智能 vr&ar
AIGC领域又有大动作了!AI视频“黑马”Morph Studio 来袭,1080P高清画质视频免费生成!
AIGC领域又有大动作了!AI视频“黑马”Morph Studio 来袭,1080P高清画质视频免费生成!
|
1月前
|
人工智能 编解码 数据安全/隐私保护
才发现百度自带的AI图片助手这么好用,去水印、画质优化、AI扩图、涂抹消除等功能一应俱全!
才发现百度自带的AI图片助手这么好用,去水印、画质优化、AI扩图、涂抹消除等功能一应俱全!
199 0
|
4月前
|
数据采集 人工智能 小程序
再见知乎,全网AI文案生成工具大比拼
再见知乎,全网AI文案生成工具大比拼
|
10月前
|
语音技术 信息无障碍
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
回到我们的直播源码平台开发上来,对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一,好了,正式进入我们今天的主题内容:直播源码搭建平台技术知识:实时语音识别字幕呈现功能!
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
|
11月前
|
人工智能 安全 机器人
使用ChatGPT打造短视频爆款开头, ChatGPT联网啦, 可以直接播放周杰伦的音乐
ChatGPT联网播放周杰伦音乐(内测功能), 打造短视频爆款开头的方法 更多星球功能, 正在迭代
271 0
|
机器学习/深度学习 人工智能 算法
多媒体搜索现状(下) | 学习笔记
快速学习多媒体搜索现状(下),介绍了多媒体搜索现状(下)系统机制, 以及在实际应用过程中如何使用。
134 0
多媒体搜索现状(下) | 学习笔记
|
机器学习/深度学习 算法 搜索推荐
多媒体搜索现状(上) | 学习笔记
快速学习多媒体搜索现状(上),介绍了多媒体搜索现状(上)系统机制, 以及在实际应用过程中如何使用。
85 0
多媒体搜索现状(上) | 学习笔记
|
存储 弹性计算 监控
阿里云多媒体解决方案:让多媒体创作变得简单|学习笔记
快速学习 阿里云多媒体解决方案:让多媒体创作变得简单
136 0
|
人工智能 自然语言处理 算法
Facebook&哥大等推出实验性AI框架,音视频信息可自由转换文本!
近日,来自Facebook、哥伦比亚大学等高校的研究人员开发了一种可以从视频、对话历史、音频以及语音文本中生成高层次语义信息的框架——Vx2Text,该模型可以用来概括信息内容,并准确地回答相关问题。
136 0
Facebook&哥大等推出实验性AI框架,音视频信息可自由转换文本!