算法

#算法#

已有147人关注此标签

内容分类

游客saqcxjoyi2n6i

关于spark分区什么时候进行的问题?

spark分区是在maptask 到reduceTask的时候进行分区,还是说在sc.textFile就开始分区了呢 我测试了一下,sc.textFile默认分区后我把每个分区的内容打印出来发现不是hash算法分区,但是当我经过了shuffle算子之后再打印各个分区的内容就是按照hash算法分区 所以很疑惑,如果是sc.textFile就开始分区,那么假设3个block块,我在sc.textFile就指定5个分区,那就得将3个block块分成5个分区,那会很占用内存和网络资源(map取各个block块中的某一个分区),感觉有点不太合理啊,然后再经过shuffle算子,再次分区,感觉很慢啊; 我在想是不是一开始sc.textFile在读取hdfs的数据时,按照平均的方式给每个一分区数据(例如:3个block块共384MB,5个分区就是各76.8Mb,每个map读取这76.bMB数据),然后在经过shuffle算子的时候才开始按照hash算法分区,生成文件,再由reduce取各个节点的分区值,这样也能说的通,最后五个part-0000文件,shuffle过程的桶也是5*5=25

小白dora

PG一般查询了一次后,第二次查询会快很多,按我的理解应该是生成了执行计划缓存,这个执行计划缓存能显式清除或禁用吗 我这边想测试不同算法的执行效率,有没有不重启服务 类似SET SQL_NO_CACHE=ON;这种会话级别的开关

PG一般查询了一次后,第二次查询会快很多,按我的理解应该是生成了执行计划缓存,这个执行计划缓存能显式清除或禁用吗 我这边想测试不同算法的执行效率,有没有不重启服务 类似SET SQL_NO_CACHE=ON;这种会话级别的开关 本问题来自云栖社区【PostgreSQL技术进阶社群】。https://yq.aliyun.com/articles/690084 点击链接欢迎加入社区大社群。

游客qnymuwxdg3i4o

PAI-studio中线性回归算法组件的参数设置“最小似然误差设置”是如何计算出来的?

log-likehood是怎么算出来的?是直接通过spark mllib或者sklearn有直接的第三方包或API直接计算吗?

小白dora

有大佬知道pg analyze 对大表采用的random sample算法具体是什么算法吗

有大佬知道pg analyze 对大表采用的random sample算法具体是什么算法吗

dlieng

人脸大数据系统发展的趋势是什么?

  随着机器视觉技术及其相关技术的不断提升,无论是图像结构化的算法还是算力均在进步,虽然算法的进步已有限。而人工智能技术的螺旋上升极有可能会将技术热点从图像识别带入到机器人、语言识别、自然语言处理和专家系统这四个大领域中,因此未来人脸大数据系统的发展将主要呈现以下三大趋势:  首先,人脸大数据系统将进一步凸显“大数据”的能力,一线厂商与二三级厂商在“人脸”领域的差距将进一步缩小,而对结构化数据的实时、高并发的处理,将成为下一个技术增长点。同时,作为2018年的延续,技术与实战的结合将进一步深化,更多的业务场景,更灵活的业务开发,更迅速的业务定制,更便携直观的业务呈现将会受到客户的欢迎。  其次,边缘计算设备与后端集群分析这两种业务模式的竞争会更加激烈,合作也会更加紧密。在谷歌、脸书等公司的推动下,以及国内厂商华为、海康等巨头的加入,嵌入式视觉系统的发展会显著提速,未来追踪嫌疑目标只需出动真正的“无人”机不是梦,具备自动识别自动锁定报警功能的无人飞行器完全可以在安防领域大展身手。同时,更强大的后端视觉处理集群将实现全城全域全员的布控,让案事件回顾变成一键直达,并推动公共安全业务从事后处理到事前介入。  第三,单一人脸数据业务的热度会有所降低,人脸识别技术与其他传感技术相融合将成为热点。与单传感器相比,多传感器技术在探测、跟踪和目标识别方面能够提高系统的可靠性和健壮性,增强数据的可信度,提高精度,增加系统的实时性。机器视觉系统易于向多传感器信息融合技术拓展,解决单一视觉系统的局限性。未来,通过人工智能方面利好的政策,安防、交通、金融、消费电子等都是机器视觉领域重点关注的应用行业方向。汇新云平台整合的是软件供需双方资源,提供从软件需求精准对接、合同签订、软件在线开发、软件在线交易的产业链服务平台。平台汇聚了软件行业各个领域的项目资源,服务商免费入驻,资质审核接单。

1157334432575260

AI换脸

请问,做一款AI换脸软件成本高吗,就像网上比较火的,把朱茵替换成杨幂

黄一刀

GoDaddy、苹果和谷歌误颁发100多万份证书

拥有63位序列号的证书引发了大规模撤销风潮。GoDaddy、苹果和谷歌的一次严重操作错误导致至少颁发了100万份浏览器信任的数字证书,这些证书不符合有约束力的行业要求。不合格证书的数量可能是该数量的两倍,其他浏览器信任的证书管理机构也可能受到了影响。这个失误归咎于上述几家公司对开源EJBCA软件包配置不当,许多浏览器信任的证书管理机构用该软件包生成确保网站安全、加密电子邮件和数字签名代码的证书。默认情况下,EJBCA生成拥有64位序列号的证书,以符合这个行业要求:序列号包含来自安全的伪随机数生成器的64位输出。工程师们进一步仔细检查后发现,64位中的1位必须是固定值,以确保序列号是正整数。因此,EJBCA默认生成拥有63位熵(entropy)的序列号。63位与所需的64位相差甚远,因此对整个生态系统构成了理论上不可接受的风险。 (实际上,证书几乎没有被恶意利用的可能性,稍后有详细介绍。)安全研究人员Adam Caudill上周末在博文中介绍了这起大规模误颁发事件;他指出,面对这么大的数字,很容易认为仅仅相差1位似乎无关紧要。他表示,实际上,263和264之间相差的不止900亿亿。公共可信证书的基本要求的第7.1条明确规定,序列号的最小阈值必须不小于64位熵。颁布此要求的2016年投票提到了2008年的一次概念验证攻击:研究人员使用大批PlayStation游戏机用MD5哈希算法生成加密冲突,实际上成为一家非授权的证书管理机构,可以随意生成浏览器信任的证书。2012年,一种名为Flame的政府撑腰的恶意软件采用了类似的手法来劫持微软广泛使用的Windows更新机制。使用https协议取代http协议已成为一种趋势,未采用https协议的网站将被认定为不安全的网站,安卓和iOS平台也慢慢强制要求移动应用必须采用https进行交互,安卓9上采用http协议的应用大部分已经无法正常运行。https协议虽然提高了应用的安全性,但却无形中加大了企业成本的投入。PS:1、对于用https协议取代http你有什么看法?2、对于证书付费,你是否可以接受?3、你有没有采用http协议的安卓应用,该应用在安卓9平台上是否受到了影响?

哥尔巴斯

128位AES加密算法使用不同的秘钥加密不同的信息会出现相同结果的情况吗?

128位AES加密算法使用不同的秘钥加密不同的信息会出现相同结果的情况吗?

樰篱

如果能在1分钟内训练出个AI模型,你想要做什么?

AI模型有啥用? 随着人工智能的技术不断成熟, AI逐渐在各行业内落地。我们先来看几个场景: 在安防监控领域,我们可以通过人脸识别去抓捕逃犯;在教育领域,我们可以使用OCR识别做拍题识别;在新零售领域,我们通过物体识别判断货品位置和数量;甚至在养猪场,用AI技术检测养猪的位置及数量;…… 以上这些场景,都是需要大量的算法工程师、AI科学家,经过不断的演算、测试、训练,来搭建深度神经网络模型的。那存不存在一个通用的AI模型,可以适配所有场景呢? 其实不然。我们发现除了一些非常成熟的基础感知层AI能力如人脸识别、OCR等可以直接应用,实际上绝大部分场景都需要用数据来进行单独训练的,比如以上的四个场景中就会用到定制化模型。 那么面对持续变化的定制化需求,如何以最低的成本实现AI技术落地变成了行业急需解决的问题。 智能视觉又是啥黑科技? 为了解决行业痛点,让更多企业享受到AI带来的红利。阿里云开放智能视觉产品,开放业界通用模型,帮助用户在平台上训练自己领域的模型,并将训练模型转换成高可用、弹性可扩展的AI服务提供给用户。 全流程界面化操作,采用迁移学习技术,用非常少量训练样本,就可以定制领域专属模型。同时,采用AutoML技术自动搜索模型超参数,实现训练效果最优化。能力涵盖图像分类、图像检测、视频分类、视频识别、直播识别等,可以应用于工业质检、零售物件计数、视频监控等领域之中。 这就意味着,原先需要众多专业AI和算法工程师才能搭建好的AI模型,现在则可以通过控制台上简单的点击和上传图片的操作,甚至完全不需要代码,就可以完成了! 关于智能视觉,你想知道更多吗? 为了方便大家动手实践,人人都能过一把模型训练的瘾,我们会举办一场智能视觉产品发布会,介绍产品的特点、应用场景、DEMO演示以及技术的相关解读,欢迎大家点击直播间,报名观看。 3月27日15:00 智能视觉发布会直播间传送门:https://yq.aliyun.com/live/884 为零算法基础开发者提供定制化模型训练能力, 深度了解智能视觉点这里 参与话题 1. 之前你对智能视觉有了解吗?是通过什么渠道了解到的?2. 是否在你的业务中使用过类似智能视觉的AI技术?是用在什么场景中?3. 如果能在1分钟内训练出个AI模型,你想做什么?

微wx笑

很认真的聊一聊,推荐算法的副作用

(题图:西子宾馆,杭州,2018) 现在,很多网站使用大数据算法,很精确地知道用户的喜好和立场,总是推荐感兴趣的新闻给你看,或者说只给你看想看的东西,比如今日头条和 Facebook。 久而久之,天天看到一大堆同类新闻,你会产生一种幻觉,以为自己的喜好和立场是主流,跟大多数人一致。但是实际上,这完全是假象,举例来说,算法发现你养狗,天天给你看小狗的新闻,搞得你以为到处都是爱狗人士,其实社会上不喜欢狗的人才是多数。 这就是推荐算法的一个副作用,不管你是多么少的少数,它都有办法满足你,让你产生幻觉,高估自己的份量。你明明是人群的1%,却误以为大多数人跟你一样,这样就容易做出错误判断。比如,你天天看到小狗的新闻,就决定做一款宠物相关的产品,进行创业。你以为自己的产品针对大众市场,感兴趣的人应该很多,其实响应者寥寥。 知道自己是少数派还是多数派,挺重要的。如果你是创业者,这就决定了你的产品定位和市场策略。如果涉及到政治,那就更重要了。我觉得,推荐算法以后不仅应该推荐用户感兴趣的内容,还应该告诉用户,你是不是少数派。 那么:1、对于上面提到的副作用,你怎么看? 2、你是否想知道少数派还是多数派?总的排行榜能否反应这一问题? 3、对于无所不在的推荐算法,你对将来怎么看,还会有其它的副作用吗?

赢乐互娱

我网站是不是域名有问题?

我网站是不是域名有问题?一直不怎么收录,也一没排名!想请人指点一下,谢谢大帮一下忙我的网站:http://www.zzqpyx.com

于飞007

Flink使用过程中的几个疑难点,求各路大神解答

flink实时处理的多个事件,来自kafka的3个topic。因此代码中实现了3个流解析不同的事件,最终写入redis的hset,想问下:1、以上的任务启动过程中存在事件解析丢失的情况,即kafka中相应的事件上报了,但是最终解析的时候没有解析到。2、一个job中启动三个流和启动3个job来解析区别大不大?3、以上任务否需要对每个流设置slotSharingGroup?4、以上三个流的任务在submit启动的时候比一个流submit启动满了太多了,一般需要5分钟左右才能启动,是否是自己的处理方式有问题?示例代码:/*流一:*/ SourceFunction<TestLog> kafkaConsumer = basicSource(); DataStream<TestLog> dataStream = environment.addSource(kafkaConsumer); DataStream<TestLog> message = dataStream .filter(event -> event.getEvent_code().equals("search") || event.getEvent_code().equals("gps")); /* 测试消费kafka写入redis,异步执行,这里是异步ASYNC.IO的应用 */ AsyncDataStream.unorderedWait(message, new basicRequest(), 1000, TimeUnit.SECONDS, 1000); /*流二:*/ SourceFunction kafkaConsumerServer = createServerSource(); DataStream<ServerLog> ugcStream = environment.addSource(kafkaConsumerServer) .filter(pageEvent -> pageEvent.getEvent_code().contains("ugc_hudong_action")) .filter(pageEvent -> StringUtils.isNotBlank(pageEvent.getOpen_udid())) .filter(event -> StringUtils.isNotBlank(event.getAttr().get("content_id").toString())) .filter(event -> StringUtils.isNotBlank(event.getAttr().get("content").toString())).name("ugc").slotSharingGroup("ugcInfoSlot"); AsyncDataStream.unorderedWait(ugcStream, new ugcRedisRequest(), 1000, TimeUnit.SECONDS, 1000); /*流三:*/ SourceFunction kafkaConsumerPage = PageSource(); DataStream<MobilePageEvent> pageDataStream = environment.addSource(kafkaConsumerPage); // 提取item_type和item_id放到redis里,并且记录处理时间 SinkFunction<MobilePageEvent> pagesink = createRedisSink(); pageDataStream .filter(Objects::nonNull) .filter(pageEvent -> StringUtils.isNotBlank(pageEvent.getItemType())) .filter(pageEvent -> StringUtils.isNotBlank(pageEvent.getItemId())).name("pageinfo").slotSharingGroup("pageInfoSlot").addSink(pagesink);

xiong168

阿里云轻量级服务器无法安装ceres库

每次编译ceres的时候都会在这里卡住,不清楚是什么原因

巴洛克上校

【2019 一场属于程序猿们滴联欢会】

随手附赠新年程序员专用拜年短信与春联「00」新年新bug「01」马上过年了帮你找了个对象:new object();「10」祝你工作生活上所见即所得, 一次编译到处运行天天无Bug,日日有更新!「11」开心快乐stack overflow悲伤永远null pointer对象不再404前途无忧无bug!「100」上联:python lua ruby go,下联:swift perl rust q;横批:hello new world「101」上联:算法数据思路清晰下联:编译链接一气呵成横批:码到成功「110」上联:一片痴心 二个通宵撸三行四段代码 出五处警告六处错误心里七上八下虽九死不得安生 十分蛋疼下联:十载青春 九年苦读学八门七类语言 跪六方大神五方极客每日四时三更纵二命难以长寿 一朝归西横批:你全家都搞IT的「111」 聚小编:阿里云 云栖社区。 不靠谱贝贝:阿里云 云栖社区。 巴洛克上校:阿里云 云栖社区。 不靠谱贝贝:各位亲爱猿们,可爱的家人们大家新年好! 聚小编:今天,我们相聚在这里,享受缘分带给我们的欢乐,享受这段美好时光。 不靠谱贝贝:今天,我们相聚在这里,一起用心来感受真情,用爱来融化冰雪。 聚小编:今天,我们相聚在这里,敞开你的心扉,释放你的激情。 不靠谱贝贝:今天,我们相聚在这里,这里将成为欢乐的海洋,让快乐响彻云霄。 聚小编:今天,我们欢聚一堂、用文字形式来送去我们的祝福。 巴洛克上校:哎哟喂!二位的定场式说的真是太好了,我都插不上嘴了,现在该我这新主持了啊,我很紧张,练了很长时间了,你俩听听。 不靠谱贝贝:给你个机会来吧。 巴洛克上校:今天是2018年新年,此时此刻我们是在阿里云 云栖社区的聚能聊为您现场直播这场属于程序猿们的新年联欢会。在此,辞旧迎新之际,我们向程序猿同胞,产品同胞、运营同胞、设计师同胞,向全世界的互联网从业人员拜年啦! 聚小编 不靠谱贝贝 巴洛克上校 :祝大家新年快乐! 巴洛克上校:怎们样不错吧,内什么我东北人滴在来个东北版的,我来啦啊,嗯嗯,现在我们正搁聚能聊这旮旯为你们带来贼带劲的表演,这是俺们程序猿们新年联欢会。在这嘎达愿各位新的一年别老二虎八叽,毛愣三光的,武武玄玄的,说话办事有点谱被瞎忽悠,这样事业才能贼火;工作才能贼顺;职位才能贼升; 钞票才能贼够;那啥钞票多了就别老买那便宜娄搜的破玩意儿,穿的水裆尿裤,这样爱情才贼甜,吃的别瞎护隆,身体才能贼棒;大家伙说是不,还有。。。 不靠谱贝贝:哎呀妈呀,行了行了一说起来还没完没了了,大家伙说是不。 聚小编 :就是说呢,被光咱们聊,让大家参与进来我先来打个样来个朗诵 嗯嗯 啊! 年少太轻狂, 误入IT行。 白发森森立, 两眼直茫茫。 语言数十种, 无一称擅长。 三十而立时, 无房单身郎。 巴洛克上校:得得得,这也太惨了点吧,下面我们还是说几个主题让大家参与其中聊起来吧! 聚小编 :好啊那我去准备10套福禄寿公仔作为福利送给大家,是十套呦,一套三个啊!上个大图 _2018_01_18_12_02_28 巴洛克上校:哎呦喂!这次这么大方啊,还真给力啊,各位要加油啊! 我先来第一题: 各位多数是程序猿,那作为程序员有哪些好的拜年方式 ? 不靠谱贝贝:我来第二题: 过年回家最怕什么事情,你是怎么巧妙规避的 ? 聚小编 :到我了,请听第三题: 家里是怎么过年/跨年的,有啥有意思或者难忘的事情吗 ? 巴洛克上校:都问完了,那我要再来最后一个请听以后一题: 当家人询问你的职业是干什么的你是怎样和他们解释的呢? 不靠谱贝贝:这些问题好有趣啊,下边交给大家吧! 巴洛克上校:好啊!各位就请开始你们的表演吧。。。。

问答平台

拣货算法优化

仓库中有一堆货架,假设是在一条较长的直线上,不同货架上放置不同的物品。我们需要到货架上拣货,每个订单需要多种物品,所以一个订单可能涉及到多个货架拣货,不同订单有可能到相同的货架拣货,现在如何对订单分组,使得拣货人员的行动路径最短?

韩俊强

人工智能究竟是不是“虚假式”繁荣?精选回答将获得蓝牙手环~

过去几年,人工智能(AI)的火爆掀起了新一波的互联网技术浪潮,无数技术人转移阵地、投身其中。但随之而来的,是各种有关AI和机器学习技术的不同声音。毋庸置疑的是,机器学习系统确实取得了很大的进步,还承担起了“第四次工业革命”的重任,各种跨行跳槽、培训加薪的现象层出不穷。但有不少开发者认为,今天的AI系统只是用大量的自动化试错训练出来的,在过去30多年中AI并没有任何重大进步,只是虚假的技术繁荣。那么你认为现在的人工智能名副其实吗?这种风靡的热潮是否是“虚假式的繁荣”?未来的AI又会何去何从? 网友的看法: 1.任何技术都不是从出现就能得到广泛面积的认证,也是从无到有一步步走出来的。正所谓AI没有得到广泛面积的使用是因为如今的技术过于复杂化,是它的价格无法能走进普通民众的生活,正如刚出现的手机是一样的,当它发展到一定的趋势,必然时代也会推着不断进步。而到那个时候也必定会普及,然后一步步进步。 2.人工智能虽然是热门领域,但目前中国尚未解决AI的核心技术。而且一旦AI真的取代人作为劳动力和领导者,人类将走向毁灭。这必是灾难! 3.现在的人工智能只是在大数据环境下训练分析得出来的成果,说穿了 就是算法的结果集,在一定程度上可以模拟人大脑的决策,但那也是在经过完全的训练分析才有可能,其它的只能称之为自动化吧; 4.人工智能现在还是“伪智能” , 但确实有需求。 这种需求是媒体,公司“强推”的。就像很多技术都是从理论积淀,到市场推广。只有人工智能变成真智能的时候才能说是真正的繁荣。 谈谈你的看法: 1.你认为现在的人工智能名副其实吗?为什么? 2.这种风靡的热潮是否是“虚假式的繁荣”? 3.你认为未来的AI又会何去何从?

万维识别

智慧工地的人脸识别是怎么操作的?可以实现什么功能?

“智慧工地”的概念越来越热,人脸识别在智慧工地中的作用越来越大。而人脸识别技术在智慧工地中究竟是如何应用的?可以实现哪些功能?

社区小助手

Apache Spark使用Java从CSV读取数组float [duplicate]

我正在使用Java开发一个新的Spark项目。我必须从CSV文件中读取一些数据,这些CSV有一个浮点数组,我不知道如何在我的数据集中获取此数组。 我正在读这个CSV: CSV data image https://imgur.com/a/PdrMhev而我正试图以这种方式获取数据: Dataset typedTrainingData = sparkSession.sql("SELECT CAST(IDp as String) IDp, CAST(Instt as String) Instt, CAST(dataVector as String) dataVector FROM TRAINING_DATA");我明白了: root |-- IDp: string (nullable = true) |-- Instt: string (nullable = true) |-- dataVector: string (nullable = true) IDp Instt dataVector p01 V11apps -0.41,-0.04,0.1.. p02 V21apps -1.50,-1.50,-1... 正如您在架构中看到的那样,我将数组作为String读取,但我希望得到数组。建议? 我想在这个加载的数据中使用MLlib的一些机器学习算法,因此我想将数据作为数组获取。

社区小助手

Spark Scala - ML - Kmeans聚类预测列

我想在我的数据集中使用Kmeans算法后在我的数据集中添加预测列,我不知道如何实现这一点。下面是我到目前为止使用的代码(摘自spark文档) case class MyCase(sId: Int, tId:Int, label:Double, sAuthors:String, sYear:Int, sJournal:String,tAuthors:String, tYear:Int,tJournal:String, yearDiff:Int,nCommonAuthors:Int,isSelfCitation:Boolean ,isSameJournal:Boolean,cosSimTFIDF:Double,sInDegrees:Int,sNeighbors:Array[Long],tInDegrees:Int ,tNeighbors:Array[Long],inDegreesDiff:Int,commonNeighbors:Int,jaccardCoefficient:Double) val men = Encoders.product[MyCase] val ds: Dataset[MyCase] = transformedTrainingSetDF.as(men) //KMEANSval numOfClusters = 2val kmeans = new KMeans().setK(numOfClusters).setSeed(1L)val model = kmeans.fit(ds)// Evaluate clustering by computing Within Set Sum of Squared Errors.val WSSSE = model.computeCost(ds)println(s"Within Set Sum of Squared Errors = $WSSSE")// Shows the result.println("Cluster Centers: ")model.clusterCenters.foreach(println)

1041339076757948

[@talishboy][¥20]推荐算法

您好,我想请教下关于推荐算法的问题。我看您的介绍,曾主导过广告投放系统的研发,那您觉得目前的推荐算法还可以继续改进的地方在哪里呢?作为一名在校生,又如何去解决这些大难题呢?(该如何下手)