如何利用图像识别、语音识别、文本挖掘做好鉴黄？-阿里云开发者社区

如何利用图像识别、语音识别、文本挖掘做好鉴黄？

2017-08-01 2419

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

如何利用图像识别、语音识别、文本挖掘做好鉴黄？

雷锋网按：人工智能鉴黄市场竞争愈发激烈，目前图普科技、阿里绿网、腾讯万象优图等团队已占据大量市场份额，在此环境下，不少公司试图通过提供更全面的服务从这片红海中分一杯羹。

那么更全面的定制服务体现在哪些地方？雷锋网(公众号：雷锋网)特地采访了极限元 CEO 雷臻，雷臻从图像识别、语音识别、文本挖掘三个维度向雷锋网讲解 AI 鉴黄，同时对一些工程细节进行阐述。

直播鉴黄一般从哪些方面进行鉴定？

通常情况下，直播鉴黄通过视频截图、图像识别、语音技审、弹幕监控、关键字抽取等能力智能识别色情内容。在向客户正式提供图像识别服务前，会先邀请直播平台用户进行体验测试，收集一些直播平台专属特征数据，比如不同的直播背景、环境光线强度、话题内容等，进行定制化的训练模型，不同的直播平台将获得定制化的专属图像识别服务。

其中视频直播内容的审查鉴定可以从以下几个步骤：识别图像中是否存在人物体征，统计人数；识别图像中人物的性别、年龄区间；识别人物的肤色、肢体器官暴露程度；识别人物的肢体轮廓，分析动作行为；除了图像识别之外，还可以从音频信息中提取关键特征，判断是否存在敏感信息；实时分析弹幕文本内容，判断当前视频是否存在违规行为，动态调节图像采集频率。

在图像识别方面，其中每分钟视频采集关键帧的频率可以由客户设定，从1秒到几十秒均可。例如可以默认5秒采集一次关键帧用于识别，也可以在出现疑似告警时动态调节采集频率，加快至每秒一张。

您刚提到音频关键特征提取，这个可以深入讲讲吗?

音频分析主要有以下几个方面：

通过声纹识别技术，判断当前直播间的主播是否为注册主播本人，对主播身份进行识别。
对主播的语音内容进行关键词检索，是否存在禁语、敏感词。
对特定的连续语音数据段进行识别，是否存在不良信息。
对口播广告的播出频次进行统计，分析广告投放效果。

不过视频、音频双通道检测的方案由用户来决策，秀场直播通常用图像检测就可以满足绝大部分需求，音频检测可能更适用于语音内容为主的直播平台。两者结合起来会大大提高识别准确率、降低误报率，但成本也会相应提高，所以用户可以根据业务需求进行选择。

目前的准确率、误报率、召回率大概是多少?是否会进行人工复审?

目前直播平台涉黄图像检测的准确率高达99%以上，误报率低于1%，需要客户进行人工复核的比例不超过3%。通常情况下不提供人工复审的服务，但是会对疑似的图像进行标注并提醒用户进行人工复核。人工复核后的数据会被收集起来进行迭代训练，这样可以不断提升识别的准确率。

直播的实时性、对于机器的图片识别处理速度要求特别高，对于机器的计算能力会不会特别高?采用什么样的方式进行处理?

网络视频直播实时性强，对服务端图像识别处理的速度要求特别高，除了对带宽有较高的要求外，还需要识别服务器拥有强大的GPU运算能力，尤其是应用深度机器学习算法进行模型训练阶段，强大的GPU集群服务器是不可或缺的，并基于全链接层的特性去除了对训练图像大小的限制，快速提升算法处理速度。此外在采集视频图片时也可以采用动态调节采集频率的办法，通常情况下几秒一帧，出现敏感信息后加快采集频率，可以更及时的识别涉黄信息并提出告警。

模型训练所需的数据的量有多大?一般什么原因会影晌鉴定准确率？

以极限元为例，基础数据集有几千万张图片，此外每天还会追加两万张各类正、负样本图片，用于迭代训练，不断微调优化识别准确率。每周会进行一次基础模型训练，每1-2天会进行一次增量模型迭代训练。

至于鉴定准确率影响层面，主要还是数据量的匮乏，样本对应用场景的覆盖不全面导致训练出的模型存在误报、漏报或者识别错误，随着深度机器学习算法的日趋成熟，数据来源的多样性、专业性反而成为模型构造的重中之重。

此外，主播刻意进行一些干扰检测的手段，比如遮挡敏感部位、画中画等等，也会一定程度上影响到机器的识别判断。

机器能不能自动处理:屏蔽、删除、禁播等？

涉黄图片检测服务部署在云端，本身没有网络路径可以接触到用户的直播间管理系统，因此无法自动屏蔽、删除、暂停直播间的活动。但是如果用户选择私有云的部署方式，并授权识别服务器可以访问直播间管理系统，那么对涉黄直播间的删、停等操作是可以实现的。

智能鉴黄相对于人工鉴黄、成本下降多少?

以一家月直播10万小时的中小直播平台为例，如果采用传统的内容审核技术，100人的内容管理团队每月所花费的成本在80万上下。如果借助人工智能进行内容监控，人力投入可以削减到10人左右，综合投入不过10万到20万之间，将大大降低人力成本和管理费用。此外还有因此而节省的监视设备费、办公场地费等等。

色情和非色情的界限怎么把握、拿捏?

首先，在建立这样一个分类模型时，会有人工对图像大数据进行标注，存在一定主观判断误差，但也在大众理解的范围内。识别结果除了色情和正常外，还存在一个疑似或者称之为性感的类别，这些都是根据机器识别后的近似值进行匹配。

本文作者：亚峰

本文转自雷锋网禁止二次转载，原文链接

如何利用图像识别、语音识别、文本挖掘做好鉴黄？

雷锋网

热门文章

最新文章

相关课程

相关电子书

相关实验场景