备案控制台

开发者社区

开发者社区> 问答> 正文

在Apach Flink中为每个已处理的输入文件生成单个输出文件

我正在使用Scala和Apache Flink构建一个ETL，它定期读取本地文件系统中目录下的所有文件，并将每个文件的处理结果写入另一个目录下的单个输出文件中。

所以这方面的一个例子是：

/dir/to/input/files/file1
/dir/to/intput/files/fil2
/dir/to/input/files/file3
并且ETL的输出将完全符合：

/dir/to/output/files/file1
/dir/to/output/files/file2
/dir/to/output/files/file3
我尝试了各种方法，包括在写入dataSink时将并行处理减少到一个，但我仍然无法达到所需的结果。

这是我目前的代码：

val path = "/path/to/input/files/"
val format = new TextInputFormat(new Path(path))
val socketStream = env.readFile(format, path, FileProcessingMode.PROCESS_CONTINUOUSLY, 10)

val wordsStream = socketStream.flatMap(value => value.split(",")).map(value => WordWithCount(value,1))

val keyValuePair = wordsStream.keyBy(_.word)

val countPair = keyValuePair.sum("count")

countPair.print()

countPair.writeAsText("/path/to/output/directory/"+

 DateTime.now().getHourOfDay.toString
 +
 DateTime.now().getMinuteOfHour.toString
 +
 DateTime.now().getSecondOfMinute.toString
 , FileSystem.WriteMode.NO_OVERWRITE)

// The first write method I trid:

val sink = new BucketingSinkWordWithCount
sink.setBucketer(new DateTimeBucketerWordWithCount)

// The second write method I trid:

val sink3 = new BucketingSinkWordWithCount
sink3.setUseTruncate(false)
sink3.setBucketer(new DateTimeBucketer("yyyy-MM-dd--HHmm"))
sink3.setWriter(new StringWriter[WordWithCount])
sink3.setBatchSize(3)
sink3.setPendingPrefix("file-")
sink3.setPendingSuffix(".txt")
两种写入方法都无法产生想要的结果。

有一些有Apache Flink经验的人可以指导我写入方法吗。

展开

收起

flink小助手 2018-12-10 11:32:09 5416 0

1 条回答

写回答

取消提交回答

flink小助手

flink小助手会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关flink的问题及回答。

我解决了导入下一个依赖项以在本地计算机上运行的问题：
Hadoop的AWS-2.7.3.jar
AWS-Java的SDK-s3-1.11.183.jar
AWS-Java的SDK-核心1.11.183.jar
AWS-Java的SDK-公里，1.11.183.jar
杰克逊的注解 - 2.6.7.jar
杰克逊核心2.6.7.jar
杰克逊 - 数据绑定 - 2.6.7.jar
乔达时间 - 2.8.1.jar
的HttpCore-4.4.4.jar
HttpClient的-4.5.3.jar
你可以查看：
https://ci.apache.org/projects/flink/flink-docs-stable/ops/deployment/aws.html
“提供S3文件系统依赖性”部分

2019-07-17 23:19:08

赞同展开评论打赏

问答分类：

Apache Scala 流计算实时计算 Flink版

问答标签：

实时计算 Flink版文件实时计算 Flink版输出实时计算 Flink版输入

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

flink ml中，经过训练后将模型文件保存到本地，现在可以通过什么方式将本地的模型发布为在线服务？

38

1

0

请教个问题，FLINK ON YARN默认会把LOG4J以及JAR文件，传到HDFS的/user/H

84

2

0

我用机器学习PAI alink的从oss读取文件，提交到flink集群执行，报错，请问该如何解决？

106

3

0

flink checkpoint 文件怎么明文查看？

221

2

0

Flink怎么设置idea打开一个新的github项目，自动索引文件吗？

19

0

0

Flink CDC里任务失败会自动清除其他机器的checkpoint文件，只保留本机的东西吗？

44

2

0

Flink CDC有同时包含kafka以及cdc的pom文件啊我这边一直在报依赖问题？

49

1

0

Flink vvr有计划配合代码仓库打包文件部署任务吗？

29

1

0

请问Flink 是否就会在maxcompute中产生多个小文件？

39

2

0

如何在Flink全托管页签单击目标工作空间操作列下的“控制台”并下载对应的jar文件?

34

3

0

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699577

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818182

3 据说在家办公的程序员是这样写代码的？ 1792129

4 阿里云开放端口权限 689802

5 《阿里云服务器从入门到精通》—论坛精华帖汇总（2013.8.21更新） 599371

6 如何升级配置 536025

7 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522321

8 【精品问答】python技术1000问(1) 513946

9 Flink Forward Asia 2021 有奖问答 512768

10 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456893

11 工信部官网：www.miitbeian.gov.cn打不开解决办法 399465

12 OceanBase 使用动画（持续更新） 359227

13 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329687

14 OSS存储服务-客户端工具 321245

15 为体验实验室取一个新名字。 307167

16 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303671

17 Win Server 2003-2016 加密勒索事件必打补丁合集 295098

18 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283463

19 安全组详解，新手必看教程 277227

20 写code还是做管理，开发者如何进行职业规划？ 268269

1 如何从零构建一个现代深度学习框架? 167

2 AI面试成为线下面试的“隐形门槛”，对此你怎么看？ 181

3 乘风问答官5月排位赛开启！ 307

4 你见过哪些独特的代码注释？ 851

5 你遇到过哪些触发NPE的代码场景？ 724

6 宜搭流程表单怎样根据连接器返回值阻止提交 138

7 如何让系统具备良好的扩展性？ 1745

8 在JS编程中有哪些常见的编程“套路”或习惯？ 1456

9 表单新加了个字段A，历史数据要添加字段A的值问题 322

10 nacos部署需要开放哪几个端口？ 130

11 在做程序员的道路上，你掌握了什么关键的概念或技术让你感到自身技能有了显著飞跃？ 1974

12 作为一个经典架构模式，事件驱动在云时代为什么会再次流行呢？ 1758

13 如何实现主表单内数字组件自动获取子表单内数据条数 116

14 宜搭：提交表单前，如何校验另一张表单的数据？ 393

15 Windows 11系统电脑自动重启后，vscode启动通义灵码插件报错：此应用无法在你的电脑上运行 181

16 如何看待首个 AI 程序员入职科技公司？ 2336

17 未启用对服务器的访问 578

18 在图像处理应用场景下，Serverless架构的优势体现在哪些方面？ 2169

19 jetbrains2024.1版本插件报错 130

20 如何处理线程死循环？ 2607

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

582

29

去学习

Apache Flink 入门到实战 - Flink开源社区出品

1392

16

去学习

实时计算 Flink 版产品入门与实操

3806

10

去学习

开源 Flink 极速上手教程

1752

7

去学习

大数据实时计算框架Spark快速入门

778

93

去学习

Apache Flink 入门

4826

9

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

Flink CDC Meetup PPT - 龚中强 立即下载

Flink CDC Meetup PPT - 王赫 立即下载

Flink CDC Meetup PPT - 覃立辉 立即下载

相关实验场景

更多