《中国人工智能学会通讯》——7.6 数 据

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第7章,第7.6节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

7.6 数 据

在应用以上深度学习模型的过程中,一个比较棘手的问题是随着网络变得越来越复杂,其表示能力也越来越强,其中的参数也越来越多,由此带来的问题是如果训练数据规模不够大,则很容易使模型陷入过拟合的状态。

传统利用语言学专家进行数据标注的方法需要花费大量的人力、物力、财力,存在标注代价高、规范性差等问题,很难获得大规模高质量的人工标注数据。为了解决数据获取的难题,比较直接的是利用众包的方式获取大规模的标注数据。当然,对于大公司而言,还可以利用宝贵的平台数据,如搜索引擎的日志、聊天记录等。除此之外还可以利用大规模的弱标注数据,其实生文本自身就是非常有价值的弱标注数据,借此我们已经能够训练语言模型、词或句子的分布式向量表示等。另外,我们还需要积极寻找大规模的弱标注数据,如 DeepMind曾利用新闻网站提供的人工新闻摘要数据自动生成完型填空数据[14] 、电子商务网站中用户对商品的评分数据等。

最后,受到图像处理研究的启发,我们还可以利用大规模人工自动构造数据,如可以通过对原始图像进行旋转、伸缩等操作,获取更多的训练图像,在自然语言处理中,是否也可以通过对文本进行一定的变换,从而获得大规模的训练数据?如将正规文本中的词随机替换为错误的词,从而构建语法纠错任务的训练数据等。相关的研究还处于起步阶段,相信今后会被给予更多的关注。

相关文章
|
3月前
|
人工智能 自然语言处理 语音技术
人工智能语音数据的多样性
人工智能语音数据的多样性
22 2
|
3月前
|
人工智能 算法 语音技术
人工智能语音数据
人工智能语音数据
55 5
|
3月前
|
机器学习/深度学习 传感器 人工智能
人工智能图像数据
人工智能图像数据
38 3
|
4月前
|
机器学习/深度学习 人工智能 算法
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
60 0
|
3月前
|
传感器 人工智能 自然语言处理
人工智能数据
人工智能数据
36 1
|
4天前
|
机器学习/深度学习 数据采集 人工智能
|
9天前
|
人工智能 分布式计算 Kubernetes
人工智能,应该如何测试?(三)数据构造与性能测试篇
本文探讨了人工智能场景中的性能测试,区别于传统互联网测试,其复杂性更高。主要关注点包括两类AI产品——业务类和平台类,后者涉及AI全生命周期,测试难度更大。测试重点是模型训练的性能,特别是数据模拟。需要构造大量结构化数据,如不同规模、分布、分片和特征规模的数据,以评估算法效率。此外,还涉及模拟设备规模(如视频流)和节点规模(边缘计算),以测试在大规模负载下的系统性能。文中提到了使用工具如Spark、ffmpeg、流媒体服务器和Kubernetes(K8S)的扩展项目,如Kubemark,来模拟大规模环境。最后,文章介绍了使用Golang进行异步IO操作以构建海量小文件,优化IO性能。
25 0
|
1月前
|
数据采集 机器学习/深度学习 人工智能
用人工智能和missForest构建完美预测模型,数据插补轻松驾驭
用人工智能和missForest构建完美预测模型,数据插补轻松驾驭
49 1
|
1月前
|
人工智能 算法 开发工具
预测五大数据和人工智能趋势
预测五大数据和人工智能趋势
|
3月前
|
机器学习/深度学习 人工智能 计算机视觉