大数据项目缘何失败？分析模型需要与业务相结合-阿里云开发者社区

大数据项目缘何失败？分析模型需要与业务相结合

2016-05-05 2037

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

【TechTarget中国原创】目前主流的商务智能和分析应用主要关注的是如何从已有数据中提取业务价值，反映公司发展、客户行为和业务趋势。是面向过去的。而一些新兴的数据分析技术已经把目光投向了未来——预测分析。企业通过采用大数据分析技术预测未来可能发生的事情。

但是，预测建模和数据挖掘技术要想准确地预测出客户行为，制定有效的企业战略，需要处理大量的多种类型的数据。医疗保险和医疗保健服务供应商Highmark负责企业信息战略和数据分析的副总裁Mark Pitts表示，要真正落实预测分析，企业需要做的不只是给分析人员配备预测建模工具这么简单。

现在通常是数据科学家和统计分析人员自己写算法，构建预测模型。Pitts认为，算法和分析模型需要经历创建、测试和运行的阶段，在数据产生之前，这些工作应该是已经做好了的。“要解决一个问题，其实百分之八十的时间都花在信息收集上，而信息收集一开始就应该和业务相关联。”

Pitts认为，大数据项目一开始就要有建模人员参与其中，建模人员需要将自己的数学知识和企业的业务知识相结合。不能解决具体业务问题的算法写的再好也不能为企业所用。在Pitts的团队里，他总要让数据分析人员和业务人员多交流，让数据科学家了解自己要解决的问题，这样他们才能充分利用数据，解决业务问题。

技术与业务不能各自为政

咨询公司Hurwitz & Associates的总裁兼CEO Judith Hurwitz也同意Pitts的观点。她认为，大数据分析项目主要是对数据进行挖掘，找出和企业相关的信息。这个过程中，需要建模人员与业务用户的合作。建模工作不能孤立地完成。

随着企业不断的收集、存储和分析大数据，企业利用数据的方式也在发生改变。她说道：“一开始的时候，企业更感兴趣的是数据收集，把一堆数据放到Hadoop或者其他存储系统里。慢慢地，企业更希望合理利用数据，达成具体目标，比如增加利润、节省支出等。这意味着预测模型的构建需要以具体的业务目标为基础。”

咨询公司Abbott Analytics的总裁Dean Abbott也认为，如果建模人员不了解业务，预测分析就不能发挥出价值。“无论是不是大数据，建模都应该以特定的业务问题为基础。我见到过很多公司的数据项目都因为技术人员不懂业务而失败，结果往往是建模本身很好，但却没法实际应用。”

成功的项目来源于无数次的失败

Pitts介绍到，在他的公司，业务问题和相关的数据集一旦确立，预测模型的开发基本上是一个可迭代的过程。分析团队会创建多种不同的模型，比如线性回归模型和神经网络模型，从而找出最适合使用的应用程序。在建模的同时，技术人员会建立独立的数据沙箱，包含相关信息，并且与数据库隔开。这样技术人员就可以深入了解不同的选项，测试不同的样机模型。确保模型能够正常交付使用。

Pitts所在的Highmark公司使用的是SAS软件供应商的数据建模、数据挖掘和分析工具。他们的建模首先关注的是对保险理赔和健康档案的分析，公司借此判断哪些患者需要额外的医疗服务（比如没有接受接种育苗、后期护理的人）、哪些人的症状表明他有可能患有疾病（比如糖尿病、心脏病）。分析团队也会关注临床干预，帮助患者快速恢复健康，或降低医疗成本。

因为数据科学家需要尝试不同的方法构建数据模型，所以这个过程要花费较长时间，而且经常会失败。Pitts指出，正因为如此，项目需要获得高层领导者的支持，这样才能保证项目能够持续下去。项目管理者要让业务领导和企业领导了解项目的特点，不能让项目因为失败或成本过高而流产。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

大数据项目缘何失败？分析模型需要与业务相结合

热门文章

最新文章

相关课程

相关电子书

相关实验场景