音视频技术开发周刊 71期-阿里云开发者社区

音视频技术开发周刊 71期

2018-11-02 1898

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

640?wx_fmt=jpeg

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览第71期内容，祝您阅读愉快。

架构

Hulu直播服务难点解析（一）：系统需求

Hulu在其博客发布了建立直播服务遇到的挑战及解决方案，这对于以前只提供点播服务的系统而言是一次彻底的升级。LiveVideoStack对原文进行了摘译。

Hulu直播服务难点解析（二）：系统设计与实现

Hulu在其博客发布了建立直播服务遇到的挑战及解决方案，这对于以前只提供点播服务的系统而言是一次彻底的升级。LiveVideoStack对原文进行了摘译。本文是系列文章的第二篇。

魏伟：学习音视频技术要先理论再实现

LiveVideoStack采访了京东云视频云产品研发部的负责人魏伟，他分享了个人经历，对多媒体技术及行业的趋势，以及如何抓住这些趋势。

Netflix：为什么建立专门的媒体数据库？

本文解释了Netflix建立专门的媒体数据库的原因，包括精准的用户推荐，极致的编码以及更高效的实现创意。

Aupera：FPGA让视频编码与AI结合水到渠成

Aupera是一家专注于视频数据应用的新一代系统解决方案的创业公司，Aupera资深AI工程师Narges Afsham博士接受LiveVideoStack采访时表示，在FPGA中集成视频编码与AI是水到渠成的。

音频/视频技术

Android音视频指南-支持的媒体格式

本文描述了Android平台提供的媒体编解码器、容器和网络协议支持。

ijkplayer中遇到的问题汇总

在做音频播放的时候，很多公司使用的是开源的ijkplayer播放器，ijkplayer底层是基于ffmpeg，在某机型上面可能常常遇到各种问题。本文整理了大家在使用ijkplayer中遇到的问题，以及根据ijkplayer社区issue和solution方案。

超低延迟CMAF流媒体方案解析

在HTTP自适应流媒体（HTTP Adaptive Streaming，HAS）发展的推动下，直播行业的发展使观众对OTT质量和延迟有了更高的需求。传统观点认为，HAS传送的内容具有端到端延迟，该延迟是切片(segment)时间的几倍，并且这种延迟比广播中的延迟更久。有一种HAS解决方案能够实现低于一个segment时间的端到端延迟，它甚至使得整个延迟与segment的持续时间无关，即超低延迟CMAF（ULL-CMAF）。

WebRTC中音频相关的NetEQ（四）：控制命令决策

本文讲MCU模块如何根据网络延时、抖动缓冲延时和反馈报告等决定发给DSP模块的控制命令，好让DSP模块先对取出的语音包做解码处理（如果有的话）以及根据这些命令做信号处理。

优化延迟的最佳视频传输方案（一）

要想实现视频流的最优化传输，就必须实现在传输的各个阶段都协调工作，达到降低延迟最优的效果。首先，说明一下在传输过程中的第一个阶段的优化：第一公里（the first mile）传输中的优化。

优化延迟的最佳视频传输方案（二）

本节将解释如何将媒体播放器应用程序分离为媒体控制器(用于UI)和媒体会话(用于实际播放器)。它描述了两种媒体应用程序架构:一种客户端/服务器设计，适用于音频应用程序，另一种是视频播放器的单活动设计。它还展示了如何使媒体应用程序响应硬件控制并与使用音频输出流的其他应用程序合作。

编解码

Xilinx：让FFmpeg在FPGA上玩的爽

FPGA让企业和开发者有了新的选择，尤其在高运算复杂度和实时音视频场景下。不过FPGA也会带来较高的学习和开发难度，Xilinx的高级市场经理Sean Gardner告诉LiveVideoStack，Xilinx几年前就启动了FPGA对FFmpeg支持的项目，让FFmpeg开发者可以学习和使用FPGA。

手淘H265编解码算法与工程优化

本文来自淘宝（中国）软件有限公司高级算法专家李晓波在LiveVideoStackCon 2018讲师热身分享，并由LiveVideoStack整理而成。在分享中李晓波详细解析了手淘在H.265高效编解码器的实现过程中的所进行的优化探索。

编码，打包，CDN交付和视频播放器端的延迟优化

本文主要介绍可能的延迟优化，从编码，打包，CDN交付以及视频播放器这些过程，通过调整其中的参数，可以为观众提供一个经过精心优化的低延迟直播流。

JPEG、MPEG-1、MPEG-2和MPEG-4编解码流程对比

视频编码标准从H.261开始就采用了基于插值的运动补偿预测和DCT变换的混合编码框架，分别从时域和频域降低编码冗余。本文主要介绍了JPEG、MPEG-1、MPEG-2和MPEG-4编解码流程框架。

FFmpeg 新旧版本编码 API 的区别

FFmpeg 3.x 之前，视频编码函数为 avcodec_encode_video2，3.x 及之后的版本，avcodec_encode_video2 被弃用，取而代之的是 avcodec_send_frame() 和 avcodec_receive_packet()，下面将从 API 的使用和源码实现两个角度来分析它们的区别。

调用FFmpeg SDK解析封装格式的视频为音频流和视频流

事实上，无论是MP4还是AVI等文件格式，都有不同的标准格式，对于不同的格式并没有一种通用的解析方法。因此，FFmpeg专门定义了一个库来处理设计文件封装格式的功能，即libavformat。涉及文件的封装、解封装的问题，都可以通过调用libavformat的API实现。这里我们实现一个Demo来处理音视频文件的解复用与解码的功能。

AI智能

三维深度学习中的目标分类与语义分割

在过去的几年中，基于RGB的深度学习已经在目标分类与语义分割方面取得了非常好的效果，也促进了很多技术的发展，深度学习在现实生活中的应用也越来越多。但是在很多实际应用中，例如自动驾驶中，只使用RGB信息是远远不够的，因为我们不仅仅想要知道周围有什么物体，还想要知道物体具体的三维信息（位置，运动状态等），因此，三维方面的深度学习也逐渐发展了起来并取得了不错的效果。

目标检测最新进展总结与展望

由于深度学习的广泛运用，目标检测算法得到了较为快速的发展，本文广泛调研国内外目标检测方法，主要介绍基于深度学习的两种目标检测算法思路，分别为One-Stage目标检测算法和Two-Stage目标检测算法。

前景目标检测的无监督学习

人工智能技术代表着未来无限的可能性，已经在很多领域带来巨大的冲击。在足球直播这一领域，版权方需要提供更多更优质的内容以应对日益增长的多元化需求，因此急需提高运营效率的新方式。

从人脸检测到语义分割，OpenCV预训练模型库

OpenCV 的 GitHub 页面中有一个称为「open_model_zoo」的资源库，里面包含了大量的计算机视觉预训练模型，并提供了下载方法。使用这些免费预训练模型可以帮助你加速开发和产品部署过程。

图像的边缘检测

边缘检测就是一个寻找边缘像素的过程，这些边缘一般就是局部像素变化比较显著的一些点，主要存在于目标和目标以及前景背景之间。找到这些边缘，对于图像分割与目标识别是很有帮助的。

图像

Pixel 3的超分辨变焦技术

本文来自Google AI博客，介绍了传统去除马赛克的方法，以及如何通过多帧画面去除马赛克的原理。但在手机上应用这一技术，需要面对不少挑战。感谢快手图像算法工程师章佳杰的翻译。

iOS性能优化——图片加载和处理

本文基于WWDC2018-Image and Graphics Best Practices，对图片加载和处理的思考和总结。

音视频技术开发周刊 71期

热门文章

最新文章

相关课程

相关电子书

相关实验场景