说说这些年做的云计算和大数据项目

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 入行十几年了,做了不少分布计算、并行计算、内存计算、海量数据处理的项目,按照现在的分类,这些都属于云计算/大数据范畴。今天说说我做过的其中三个项目,只三个
         入行十几年了,做了不少分布计算、并行计算、内存计算、海量数据处理的项目,按照现在的分类,这些都属于云计算/大数据范畴。今天说说我做过的其中三个项目,只三个。
         第 一个是我们接到的视频分享网站的视频转码的订单,网站名字就不说了,有替人宣传嫌疑。他们情况是这样,视频网站的内容用MP4格式在网页上播放,但是上传 的格式多种多样,我们必须把这些视频统一转换成MP4格式,视频转码的工作想必大家都在自己的电脑上试过,通常一个100M左右的视频转码需要20分钟以 上(CPU是Pentium IV)。为了提高转码效率,让用户以接近实时得到结果,必须在收完视频后,立即将一个视频拆分成多个单元,分散到多台计算机上进行转码,然后回收所有转码 视频,按照顺序再次组合成一个新视频。我估计现在视频网站都是这个套路。我们这个团队最早是做流媒体起家的,工作没什么难度,轻车熟路,很快就完成了。只 要机器足够多,视频差不多可以以接近实时的状态完成转码。后来又再一次改进,从用户上传视频开始立即进行转码,收到一段转一段,用户的视频上传完毕,我们 的转码工作也完成,用户可以马上看到自己上传的转码后视频,基本上是零延时,并且稳定性、效率都高于对方提出的要求。做完这个,合作方老板很满意,接着又 给了一个CDN的项目。现在我们仍保持着合作的关系。    
         第二个有点玄乎, 项目可以写一篇论文,题目是《关于空中移动目标运行轨迹和落点的问题》。这个项目是XXX发下来的,实质就是炮弹打导弹,大概是想看看能不能打着,论证技 术可行性。当时人还在某单位,因为研究领域和空气动力学毫不相关,所以这方面的知识基本属于文盲,知道的也就是那么几个有限的名词和数学公式,但是这正好 符合XXX的要求,不需要我们懂这些高深的理论,他们派人和我们合作这个项目。我们的工作就是把很多传感器(他们没明说,但是地球人都明白这东西应该是雷 达)接收的数据,包括当前多少公里范围内的空气的风速、风向、地表的曲面率,还有其它一些指标在收集后(这些瞬间产生的三维数据的数据量非常大),分散到 一大堆计算机上去执行(测试时准备了100个节点),并且要很快计算出结果(必须比空中运动的目标快)。这其实和现在的SPARK、STORM做的工作很 象,要依赖大内存、高性能CPU、和高速网络,跳过硬盘这个瓶颈,才能得以实现快速计算。这个项目花了很长时间,主要是与合作方的沟通改进,然后是再沟通 再改进,循环往复,周而复始。后来终于完成了,据说做了试验,可行性很高,上面领导很满意,还摆了庆功酒。反正我没见着也没喝着。其实他们怎么计算的,我 到最后也没有搞明白,问过一次,说是秘密。  
         第三个和两桶油的页岩气有关。当 前的背景是在四川涪陵(这个地方还产榨菜)发现了大面积的天然气,按照自然规律,油气是共生的,所以两桶油想通过采集页岩样本,分析这个地区地下有没有石 油资源,如果有,是不是具有开采价值。这套程序原本已经是有的,艾克森.美孚石油公司开发的,跑在CARY-1向量机上。那套机器是上世纪七八十年代的超 级计算机,在当时已经不能满足需要,属于进博物馆之列。有些数据分析理论已经过时,需要调整。两桶油最不满意的还是速度太慢,计算一次要几小时几天才能出 结果。这一次又是合作,两桶油出熟悉采油的技术专家,我们出并行计算的码农,前前后后合作弄了大半年,算是完成了。这次我们用了新的并行算法,效率提高了 一大截。和上次炮弹打导弹一样,整个项目静悄悄开始,静悄悄结束,后面怎么样就不知道了。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6天前
|
安全 大数据 虚拟化
随着云计算和大数据技术的发展,Hyper-V在虚拟化领域的地位日益凸显
随着云计算和大数据技术的发展,Hyper-V在虚拟化领域的地位日益凸显。作为Windows Server的核心组件,Hyper-V具备卓越的技术性能,支持高可用性、动态迁移等功能,确保虚拟机稳定高效运行。它与Windows深度集成,管理便捷,支持远程管理和自动化部署,降低管理成本。内置防火墙、RBAC等安全功能,提供全方位安全保障。作为内置组件,Hyper-V无需额外购买软件,降低成本。其广泛的生态系统支持和持续增长的市场需求,使其成为企业虚拟化解决方案的首选。
|
13天前
|
人工智能 大数据
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
|
24天前
|
存储 分布式计算 大数据
大数据与云计算:无缝结合,开启数据新纪元
大数据与云计算:无缝结合,开启数据新纪元
146 11
|
4月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
4月前
|
存储 弹性计算 分布式计算
云计算在大数据处理中的优势与挑战
云计算在大数据处理中的优势与挑战
|
2月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
256 92
|
4月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
968 7
|
10天前
|
SQL 分布式计算 数据挖掘
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
川航选择引入 SelectDB 建设湖仓一体大数据分析引擎,取得了数据导入效率提升 3-6 倍,查询分析性能提升 10-18 倍、实时性提升至 5 秒内等收益。
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
|
4月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
139 2
|
14天前
|
人工智能 算法 大数据
数据的“潘多拉魔盒”:大数据伦理的深度思考
数据的“潘多拉魔盒”:大数据伦理的深度思考
52 25

热门文章

最新文章