场景描述 本场景以在线教育中一个答题闯关类的应用为 例,使用WebServer来模拟演示这类日志数据 的分析处理。通过Nginx和Pythonflask搭建 WebServer,模拟应用中的关键页面,比如登 录、课程内容等,之后构造若干用户使用的模拟 日志数据,投递到数据湖进行分析后获取应用 PV、UV、课程内容访问排行、平均得分等等。 解决问题 基于数据湖(EMR+OSS)搭建大数据平台。 EMR和OSS使用和配置。 数据统一存储到OSS。 产品列表 E-MapReduce 对象存储OSS 云服务器ECS 访问控制RAM 专有网络VPC
步骤1 打开EMR控制台,进入数据开发。步骤2 创建第一个作业任务:1-AddPartition 文档版本:20200331 53数据湖-在线学习场景数据分析 应用场景 输入Hive代码:1-AddPartition USEjindofs_db;ALTERTABLEapp1_logADDPARTITION(ds='${dy_date}');步骤3 作业设置,设置失败策略、运行资源、参数等,参数dy_date设置为前一天的...