大数据项目缘何失败?分析模型需要与业务相结合

简介:

【TechTarget中国原创】 目前主流的商务智能和分析应用主要关注的是如何从已有数据中提取业务价值,反映公司发展、客户行为和业务趋势。是面向过去的。而一些新兴的数据分析技术已经把目光投向了未来——预测分析。企业通过采用大数据分析技术预测未来可能发生的事情。

但是,预测建模和数据挖掘技术要想准确地预测出客户行为,制定有效的企业战略,需要处理大量的多种类型的数据。医疗保险和医疗保健服务供应商Highmark负责企业信息战略和数据分析的副总裁Mark Pitts表示,要真正落实预测分析,企业需要做的不只是给分析人员配备预测建模工具这么简单。

现在通常是数据科学家和统计分析人员自己写算法,构建预测模型。Pitts认为,算法和分析模型需要经历创建、测试和运行的阶段,在数据产生之前,这些工作应该是已经做好了的。“要解决一个问题,其实百分之八十的时间都花在信息收集上,而信息收集一开始就应该和业务相关联。”

Pitts认为,大数据项目一开始就要有建模人员参与其中,建模人员需要将自己的数学知识和企业的业务知识相结合。不能解决具体业务问题的算法写的再好也不能为企业所用。在Pitts的团队里,他总要让数据分析人员和业务人员多交流,让数据科学家了解自己要解决的问题,这样他们才能充分利用数据,解决业务问题。

技术与业务不能各自为政

咨询公司Hurwitz & Associates的总裁兼CEO Judith Hurwitz也同意Pitts的观点。她认为,大数据分析项目主要是对数据进行挖掘,找出和企业相关的信息。这个过程中,需要建模人员与业务用户的合作。建模工作不能孤立地完成。

随着企业不断的收集、存储和分析大数据,企业利用数据的方式也在发生改变。她说道:“一开始的时候,企业更感兴趣的是数据收集,把一堆数据放到Hadoop或者其他存储系统里。慢慢地,企业更希望合理利用数据,达成具体目标,比如增加利润、节省支出等。这意味着预测模型的构建需要以具体的业务目标为基础。”

咨询公司Abbott Analytics的总裁Dean Abbott也认为,如果建模人员不了解业务,预测分析就不能发挥出价值。“无论是不是大数据,建模都应该以特定的业务问题为基础。我见到过很多公司的数据项目都因为技术人员不懂业务而失败,结果往往是建模本身很好,但却没法实际应用。”

成功的项目来源于无数次的失败

Pitts介绍到,在他的公司,业务问题和相关的数据集一旦确立,预测模型的开发基本上是一个可迭代的过程。分析团队会创建多种不同的模型,比如线性回归模型和神经网络模型,从而找出最适合使用的应用程序。在建模的同时,技术人员会建立独立的数据沙箱,包含相关信息,并且与数据库隔开。这样技术人员就可以深入了解不同的选项,测试不同的样机模型。确保模型能够正常交付使用。

Pitts所在的Highmark公司使用的是SAS软件供应商的数据建模、数据挖掘和分析工具。他们的建模首先关注的是对保险理赔和健康档案的分析,公司借此判断哪些患者需要额外的医疗服务(比如没有接受接种育苗、后期护理的人)、哪些人的症状表明他有可能患有疾病(比如糖尿病、心脏病)。分析团队也会关注临床干预,帮助患者快速恢复健康,或降低医疗成本。

因为数据科学家需要尝试不同的方法构建数据模型,所以这个过程要花费较长时间,而且经常会失败。Pitts指出,正因为如此,项目需要获得高层领导者的支持,这样才能保证项目能够持续下去。项目管理者要让业务领导和企业领导了解项目的特点,不能让项目因为失败或成本过高而流产。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4天前
|
SQL 分布式计算 数据可视化
Tableau与大数据:可视化工具在大数据分析中的应用
【4月更文挑战第8天】Tableau是一款领先的数据可视化工具,擅长于大数据分析,提供广泛的数据连接器,支持多源整合。它与Hadoop、Spark等深度集成,实现高效大数据处理。Tableau的拖拽式界面和交互式分析功能使得非技术人员也能轻松探索数据。在实战中,Tableau用于业务监控、数据storytelling和自助式分析,推动数据民主化,提升决策效率。未来,Tableau将持续创新,扩展生态系统,并保障数据安全与合规性,助力企业最大化数据价值。
44 0
|
4天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
4天前
|
供应链
代采系统如何利用大数据分析优化采购决策?
代采系统可以利用大数据分析来优化采购决策
|
4天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4天前
|
存储 分布式计算 算法
【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程
【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程
30 0
|
4天前
|
数据可视化 大数据 Python
python大数据分析处理
python大数据分析处理
14 0
|
4天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
4天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
4天前
|
存储 运维 监控
|
4天前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之要查看MaxCompute Studio中的项目中的计算任务代码,我该怎么操作
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

热门文章

最新文章