《中国人工智能学会通讯》——8.37 文献数据获取

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第8章,第8.37节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

8.37 文献数据获取

本文从多个维度获取在软件工程领域与演化算法有关的研究成果。首先,从基于搜索的软件工程文献仓库(SBSE Repository)获取基于搜索的软件工程的文献列表。本文选取该仓库中 1 502篇发表在期刊或者会议上的文章(删除书籍、技术报告等类型的文献),将这些文章的标题、摘要、发表刊物、发表时间以及作者等信息从 SBSERepository 网站提取下来。第二,提取所有文献的关键词信息。由于许多文献中并未提供具体的关键词,因此采用如下策略完成关键词提取,若文章中提供了关键词,则将这些关键词提取下来;若文章中未提供关键词,则利用网络爬虫将文献数据库(IEEE Xplore、ACM、Springer、Science Direct、Wiley 等)中自动摘要出的该文章的关键字爬取下来;对于极少数的在文章中和文献数据库中均未提供关键词的情况,利用人工分析的方法从标题和摘要中总结关键词。在关键词统计的过程中,删掉了如 Software、Software Engineering、SBSE 等 范围过大或不具有具体含义的词项,同时合并了部分意思相同或相近的关键词。第三,从文献数据库中爬取作者的机构信息,并且从 Google Scholar 网站爬取文章的引用数信息。

在完成文献收集后,对所有的文献进行人工过滤,发现其中有 553 篇文章不符合本文的研究主题。这类文章主要包括如下三种情况:① 文献并未利用已知的演化算法解决软件工程问题,而是自定义的启发式规则;② 文献的主要算法并非演化算法,而仅把它们作为对比算法;③ 文献属于综述类文章,并非利用演化算法解决具体的软件工程问题。在删除这些文献后,筛选出 949 篇利用已有的演化算法或改进的演化算法,解决软件工程问题的文章。

相关文章
|
3月前
|
人工智能 自然语言处理 语音技术
人工智能语音数据的多样性
人工智能语音数据的多样性
24 2
|
3月前
|
人工智能 算法 语音技术
人工智能语音数据
人工智能语音数据
55 5
|
3月前
|
机器学习/深度学习 传感器 人工智能
人工智能图像数据
人工智能图像数据
38 3
|
4月前
|
机器学习/深度学习 人工智能 算法
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
60 0
|
3月前
|
传感器 人工智能 自然语言处理
人工智能数据
人工智能数据
37 1
|
7天前
|
机器学习/深度学习 数据采集 人工智能
|
12天前
|
人工智能 分布式计算 Kubernetes
人工智能,应该如何测试?(三)数据构造与性能测试篇
本文探讨了人工智能场景中的性能测试,区别于传统互联网测试,其复杂性更高。主要关注点包括两类AI产品——业务类和平台类,后者涉及AI全生命周期,测试难度更大。测试重点是模型训练的性能,特别是数据模拟。需要构造大量结构化数据,如不同规模、分布、分片和特征规模的数据,以评估算法效率。此外,还涉及模拟设备规模(如视频流)和节点规模(边缘计算),以测试在大规模负载下的系统性能。文中提到了使用工具如Spark、ffmpeg、流媒体服务器和Kubernetes(K8S)的扩展项目,如Kubemark,来模拟大规模环境。最后,文章介绍了使用Golang进行异步IO操作以构建海量小文件,优化IO性能。
28 0
|
1月前
|
数据采集 机器学习/深度学习 人工智能
用人工智能和missForest构建完美预测模型,数据插补轻松驾驭
用人工智能和missForest构建完美预测模型,数据插补轻松驾驭
55 1
|
1月前
|
人工智能 算法 开发工具
预测五大数据和人工智能趋势
预测五大数据和人工智能趋势
|
3月前
|
机器学习/深度学习 人工智能 计算机视觉

热门文章

最新文章