配置

#配置#

已有16人关注此标签

内容分类

宋淑婷

如何配置aws lambda以便能够访问emr主节点上的服务?

我的AWS Lambda函数无法访问主节点上运行的配置单元服务器。它会超时 - 就像您尝试从非白名单的IP访问节点一样。显然,将Lambda函数添加为列入白名单的IP是不可取的。 如何配置AWS Lambda以便它可以访问EMR主节点上的服务?

宋淑婷

群集终止但在本地工作

我正在尝试在aws EMR上部署一个spark工作(使用pyspark librairies:ML)。我想创建一个包含单个实例的简单集群,以了解EMR的工作原理。 我使用控制台创建具有以下配置的集群: spark-submit --deploy-mode cluster s3://bucket/key/file.py我的步骤失败了一堆错误日志,除了这个我很难理解: File "PowerProdPredictionEmr.py", line 261df = df.select("Perimetre", target_exprs, window_exprs, "rn") SyntaxError: invalid syntax 我不明白,因为它在本地工作。 这是代码: ...window_exprs = [df.power_prod[i] for i in range(w*sample_week)]df = df.select("Perimetre", target_exprs, window_exprs, "rn")...任何的想法 ?如有必要,我可以添加其他日志文件。

34712924

Tomcat证书配置

SSL,证书配置,请问这个需不需要证书转换?

宋淑婷

在AWS EMR中启用Spark Web UI

我在EMR集群上提交Spark作业,我希望看到Spark Web UI,它提供有关主节点和工作节点的配置和状态的信息。 配置详细信息:发行标签 : emr-5.17.0 应用程序 : SPARK 2.3.1 启动群集后,唯一可单击的链接是群集的“摘要”页面中的“连接”下的“启用Web连接”。 选项1:我尝试了“启用Web连接”中提到的步骤,但它没有成功。 选项2:我尝试在Linux上使用本地端口转发设置到主节点的SSH隧道https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-ssh-tunnel-local.html。我仍然无法打开Sark UI或Resource Manager Web界面。 选项3:我尝试使用选项2 +为Firefox配置Foxy代理(https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-connect-master-node-proxy.html)并仍尝试打开通过键入master-public-dns后跟端口号或URL来定义Web界面(https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-web-interfaces.html) 有人可以告诉我一步一步的过程,我该如何正确启用Web界面并查看监控Spark应用程序? PS:我使用Linux(Ubuntu)和Web浏览器作为Firefox

宋淑婷

为emr上的`spark-submit`作业指定marksweep gc

如何spark-submit在emr上运行作业时指定我希望jvm使用MarkSweep gc ?我可以提交作业(即spark-submit -- conf...),如果是,那么命令是什么?这是否必须由spark启动时设置,如果是,我如何在emr配置中指定?

宋淑婷

如何知道亚马逊emr集群上的mapred-site值?

我遇到了内存问题,所以我查找了参数的默认值,如: mapreduce.map.memory.mbmapreduce.reduce.memory.mbmapreduce.map.java.opts在亚马逊文档上,并发现默认值很低。所以,我在创建这样的EMR集群时添加了一个配置: classification=mapred-site,properties=[mapreduce.map.memory.mb=4096,mapreduce.reduce.memory.mb=4096,mapreduce.map.java.opts=-Xmx3072m]并创建了集群。现在,我如何检查这些值是否确实更新?

宋淑婷

在CloudFormation中为EMR主节点专用IP地址创建记录

我想知道是否有办法AWS::Route53::RecordSet在CloudFormation配置中声明一个指向同一配置中定义的EMR集群上主节点的私有IP地址? CloudFormation脚本应该是不言自明的: rVPC: Type: AWS::EC2::VPC # ... rMyEMRCluster: Type: AWS::EMR::Cluster # ... rPrivateHostedZone: Type: AWS::Route53::HostedZone Properties: Name: "example.com" VPCs: - VPCId: !Ref rVPC VPCRegion: ${AWS::Region} rMyRecordSet: Type: AWS::Route53::RecordSet Properties: HostedZoneId: !Ref rPrivateHostedZone Name: !Sub "sub.example.com" Region: ${AWS::Region} Type: A ResourceRecords: # TODO: How can I do something like this: # - GetAtt rMyEMRCluster.MasterNodePrivateIpAddress

leekoo

用filebeat向阿里云的kafka写入数据始终不能连接成功

公司买了阿里云的kafka,代码的方式可以正常连。但是用filebeat向阿里云的kafka写入数据始终不能连接成功。主要是在jks 和sasl的配置上,官方文档没有找到一样的配置方式。不知道阿里自己的人是否遇到过。其实filebeat还是用的相当普遍的吧。希望能给个正确的配置demo kafka是开通的公网方式另外尝试logstash也不成功

宋淑婷

VEM中的AWS EMR Apache Spark和自定义S3端点

我在VPС中使用Apache Spark和Redshift,并使用AWS S3作为Redshift COPY的源数据和临时数据。 现在我怀疑从/向AWS S3读取/写入的性能不够好,并且基于以下讨论中的建议https://github.com/databricks/spark-redshift/issues/318我创建了S3端点在VPC内。现在,当我从S3加载数据时,我在S3端点创建之前和之后都看不到任何性能差异。 在Apache Spark中,我通过以下方式读取数据: spark.read.csv("s3://example-dev-data/dictionary/file.csv")我是否需要在AWS EMR Apache Spark上添加/配置一些额外的逻辑/配置才能正确使用AWS S3端点?

宋淑婷

可以将spark配置为将空数据集推断为空模式吗

我们有很多parquet数据集,按年/月/日/小时划分。 只有一个_SUCCESS文件,其中一些时间是空的。 我们实现迭代所有分区并执行工作的作业。打开空数据集时遇到问题。org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually. (使用EMR5.3.0 - 我们正在努力摆脱依赖,以便我们可以升级到更高版本) Spark-shell示例: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/_,_/_/ /_/_ version 2.1.0 /_/ Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_121)Type in expressions to have them evaluated.Type :help for more information. scala> val df = spark.read.parquet("s3://some-bucket/empty-dataset/")org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.; at org.apache.spark.sql.execution.datasources.DataSource $$ anonfun$8.apply(DataSource.scala:189) at org.apache.spark.sql.execution.datasources.DataSource $$ anonfun$8.apply(DataSource.scala:189)正如spark所说,我可以指定一个模式,但这对我来说是不切实际的,因为模式很大并且每个分区不同(不要问)。 我首选的解决方案是,如果可以将spark配置为将空数据集推断为空模式。

hsgd1995

阿里云服务器下的8080端口不能通过域名访问,怎么配置安全组?

在云服务器中加了一个tomcat,使用8080端口,然后配置了一个域名。tomcat可以正常启动,但是在浏览器使用域名不能访问到tomcat的项目。在网上查了资料说是要配置安全组,可是使用0.0.0.0/0设置会弹出警告信息,那么怎样设置才能用域名访问tomcat里的项目。

又是馒头

链接报错--Windows远程连接CentOS7.4(搭建Xrdp服务器)

按照这个教程配置的https://blog.csdn.net/tyt_XiaoTao/article/details/80746621一切都顺利就是在远程链接时报错了 哪位懂得,指点我一下,第一次尝试使用centos,安装的MATE Desktop桌面,实在是不懂啊

ronniehu

LAMP轻量服务器可以更改默认webserver吗?

题主装载了tomcat和jdk到LAMP轻量服务器上,但是80端口恒为apache占用,且httpd.conf配置文件为readonly,请问还能不能把80端口改成tomcat占有了?

宋淑婷

TEZ映射器资源请求

我们最近从MapReduce迁移到TEZ,以便在EMR上执行Hive查询。我们正在看到确切的配置单元查询启动非常不同数量的映射器的情况。见下面的地图3阶段。在第一次运行时,它请求305个资源,在另一次运行时,它请求4534个映射器。(请忽略KILLED状态,因为我手动终止了查询。)为什么会发生这种情况?我们如何才能将其更改为基于基础数据大小? 运行1 VERTICES MODE STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED Map 1 container KILLED 5 0 0 5 0 0 Map 3 container KILLED 305 0 0 305 0 0 Map 5 container KILLED 16 0 0 16 0 0 Map 6 container KILLED 1 0 0 1 0 0 Reducer 2 container KILLED 333 0 0 333 0 0 Reducer 4 container KILLED 796 0 0 796 0 0 VERTICES: 00/06 [>>--------------------------] 0% ELAPSED TIME: 14.16 s 运行2 VERTICES MODE STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED Map 1 .......... container SUCCEEDED 5 5 0 0 0 0 Map 3 container KILLED 4534 0 0 4534 0 0 Map 5 .......... container SUCCEEDED 325 325 0 0 0 0 Map 6 .......... container SUCCEEDED 1 1 0 0 0 0 Reducer 2 container KILLED 333 0 0 333 0 0 Reducer 4 container KILLED 796 0 0 796 0 0 VERTICES: 03/06 [=>>-------------------------] 5% ELAPSED TIME: 527.16 s

宋淑婷

为什么我不能在AWS Elastic Map Reduce中更改“spark.driver.memory”值?

我想在AWS EMR上调整我的spark集群,spark.driver.memory但由于我的数据集很大,我无法更改默认值导致每个spark应用程序崩溃。 我尝试spark-defaults.conf在主计算机上手动编辑文件,我还尝试在创建集群时直接使用EMR仪表板上的JSON文件对其进行配置。 这是使用的JSON文件: [ { "Classification": "spark-defaults", "Properties": { "spark.driver.memory": "7g", "spark.driver.cores": "5", "spark.executor.memory": "7g", "spark.executor.cores": "5", "spark.executor.instances": "11" } }]使用JSON文件后,可以在“spark-defaults.conf”中正确找到配置,但在spark仪表板上,“spark.driver.memory”的默认值始终为1000M,而其他值正确修改。有人遇到过同样的问题吗?

宋淑婷

如何配置spark以便在S3中创建“_ $ folder $”条目?

当我使用时将数据帧写入S3 df.write .format("parquet") .mode("overwrite") .partitionBy("year", "month", "day", "hour", "gen", "client") .option("compression", "gzip") .save("s3://xxxx/yyyy")我在S3中得到以下内容 year=2018year=2019但我想改为: year=2018year=2018_$folder$year=2019year=2019_$folder$从S3位置读取的脚本取决于*_$folder$条目,但我还没有找到一种方法来配置spark / hadoop来生成它们。 有关hadoop或spark配置设置的任何想法控制*_$folder$文件的生成?

李博bluemind

大佬 rap2-delos 这个部署的时候我们的redis设置了密码应该怎么配置的啊?

本问题来自云栖社区【阿里Java技术进阶2群】。https://yq.aliyun.com/articles/690084 点击链接欢迎加入社区大社群。

k8s小能手

请教一下大佬们,helm应用的yaml编写(涉及go模板语言) 有IDE可以制作吗?感觉一堆配置,判断条件,缩进。。

请教一下大佬们,helm应用的yaml编写(涉及go模板语言) 有IDE可以制作吗?感觉一堆配置,判断条件,缩进。。

k8s小能手

有个问题 3节点托管版集群,想逐一升级节点配置. 驱逐节点的时候因为kube-system下面的flannel logtail kube-proxy flexvolume这3个服务使用了本地存储 导致驱逐失败,有什么办法吗??

有个问题 3节点托管版集群,想逐一升级节点配置.驱逐节点的时候因为kube-system下面的flannel logtail kube-proxy flexvolume这3个服务使用了本地存储 导致驱逐失败,有什么办法吗??

不耻下问007

域名无法解析,IP请求正常

场景:某客户平时访问域名正常,突然有一天域名无法连接,但IP连接OK,解决方法1:配置hots 后正常[问题是不能给每个用户手动配置hots]解决方法2:重启客户电脑后一切正常。 问题:为什么会时不时出现这种在网络正常情况中 无法解析域名,怎样做才能避免这种问题?