Severless SQL on OSS 实验

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 数据存储在OSS后,可以有多种方式查询分析OSS数据,如自建Spark/Presto/Impala(阿里云EMR以及Hadoop社区官方已支持OSS), 使用MaxCompute、DataLakeAnalytics等。

基于OSS的数据查询分析和BI报表

数据存储在OSS后,有多种查询分析的方法,包括阿里云MaxCompute、DataLakeAnalytics产品等Severless查询分析服务,也可以自建Spark、Presto、Imapla应用来分析OSS上的数据。
image

实验步骤(DataLakeAnalytics on OSS)

本次实验,主要介绍,如何使用OSS+DataLakeAnalytics,实现对数据的存储、交互式查询分析流程。适用于,日志、交易记录查询分析等场景。
image

服务开通

OSS服务:

1.开通OSS服务https://www.aliyun.com/product/oss

DataLakeAnalytics服务:

1.申请DataLakeAnalytics的试用资格
备注:目前DataLakeAnalytics公测中,需提交公测申请,开通试用。

操作步骤

准备数据

登录控制台, 并创建目录

image

请创建华东1区域的OSS测试Bucket(目前DataLakeAnalytics产品公测区域为华东1)。
image
备注:Bucket名称是全局唯一,如果提示名称已存在,请更换一个Bucket名称。

创建目录(建议目录如下):

创建目录workshop_sh/trade, workshop_sh/user
image
image

下载模拟数据(该数据本次实验的模拟数据)

http://testdatasample.oss-cn-hangzhou.aliyuncs.com/workshop_sh/workshop_sh.zip

将下载的将交易记录和开户信息数据,分别上传到trade、user目录

image
image

登录Data Lake Analytics控制台

点击“登录数据库”,输入开通服务时分配的用户名和密码,登录Data Lake Analytics控制台。
image
公测期间的分配的用户名、密码,开通服务的消息中可以查看
image

创建Schema和Table

创建Schema

输入创建SCHEMA的语句,点击“同步执行”。

CREATE SCHEMA my_schema_name WITH DBPROPERTIES (
    CATALOG = 'oss', 
    LOCATION = 'oss://Bucket名称/测试数据目录/'
  );

注意:

  • 您的OSS LOCATION地址,请务必以’/‘结尾以表示目录(如LOCATION=‘oss://workshopsh20180608100/workshop_sh/’)。后续建表的LOCATION所指向的数据文件,必须在这个OSS目录或者其子目录下。
  • 同一个阿里云region,schema名全局唯一,实验时,请将“my_schema_name”替换为,您自定义schema名称。建议根据业务定义,如已有重名schema,在创建时会提示报错,则请换一个schema名字。

创建表

在“数据库”的下拉框中,选择刚刚您创建的schema
然后在SQL文本框中输入建表语句如下,并点击同步执行。其中,Location替换为您的Bucket和测试数据的路径

1.创建交易记录表:
说明:LOCATION 'oss://Bucket名称/交易记录表目录/'
实验中,替换LOCATION 'oss://您的OSS存储空间名称/workshop_sh/user/'。如:oss://workshopsh20180608100/workshop_sh/user

CREATE EXTERNAL TABLE tradelist_csv (
    t_userid STRING COMMENT '用户ID',
    t_dealdate STRING COMMENT '申请时间', 
    t_businflag STRING COMMENT '业务代码', 
    t_cdate STRING COMMENT '确认日期', 
    t_date STRING COMMENT '申请日期',
    t_serialno STRING COMMENT'申请序号', 
    t_agencyno STRING COMMENT'销售商编号', 
    t_netno STRING  COMMENT'网点编号',
    t_fundacco STRING COMMENT'基金账号',
    t_tradeacco STRING COMMENT'交易账号',
    t_fundcode STRING  COMMENT'基金代码',
    t_sharetype STRING COMMENT'份额类别',
    t_confirmbalance DOUBLE  COMMENT'确认金额',
    t_tradefare DOUBLE COMMENT'交易费',
    t_backfare DOUBLE COMMENT'后收手续费',
    t_otherfare1 DOUBLE COMMENT'其他费用1',
    t_remark STRING COMMENT'备注'
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
    STORED AS TEXTFIlE
    LOCATION 'oss://testdatasample/workshop_sh/trade/';

2.创建开户信息表:
说明:LOCATION 'oss://Bucket名称/开户信息表目录/'
实验中,替换LOCATION 'oss://您的OSS存储空间名称/workshop_sh/user/'。 如:oss://workshopsh20180608100/workshop_sh/user

CREATE EXTERNAL TABLE userinfo (
    u_userid STRING COMMENT '用户ID',
    u_accountdate STRING COMMENT '开户时间', 
    u_gender STRING COMMENT '性别', 
    u_age INT COMMENT '年龄', 
    u_risk_tolerance INT COMMENT '风险承受能力,1-10,10为最高级',
    u_city STRING COMMENT'所在城市', 
    u_job STRING COMMENT'工作类别, A-K', 
    u_income DOUBLE  COMMENT'年收入(万)'
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
    STORED AS TEXTFIlE
    LOCATION 'oss://testdatasample/workshop_sh/user/';

3.建表完毕后,刷新页面,在左边导航条中能看到schema(实验时选择您创建的schema)下的2张表
image

SQL查询(同步执行)

1.查询交易机构SXS_0010,在0603至0604的100条交易记录

SELECT * FROM tradelist_csv 
WHERE t_cdate >= '2018-06-03' and t_cdate <= '2018-06-04' and t_agencyno = 'SXS_0010' 
limit 100;

显示执行结果
image

2.查询各城市、男性女性人群,购买的基金总额(多表Join查询)

SELECT u_city, u_gender, SUM(t_confirmbalance) AS sum_balance 
FROM tradelist_csv , userinfo  
where u_userid = t_userid 
GROUP BY u_city, u_gender 
ORDER BY sum_balance DESC;

image

SQL查询(异步执行)

异步执行查询,将查询结果,以CSV格式,输出到OSS上

image

点击“执行状态”,可看到该异步查询任务的执行状态

主要分为:“RUNNING”,“SUCCESS”,“FAILURE”。
点击“刷新”,当STATUS变为“SUCCESS”时,可以查看到查询结果输出到OSS的文件路径。
image

查看导出OSS的结果文件

image

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
目录
相关文章
|
4月前
|
SQL Go 数据库
SQL Server创建及修改表实验报告(下)
SQL Server创建及修改表实验报告(上)
37 0
|
4月前
|
SQL 数据库 Python
SQL Server创建及修改表实验报告(上)
SQL Server创建及修改表实验报告
65 1
|
4月前
|
SQL 存储 Go
SQL Server 创建与管理数据库实验报告
SQL Server 创建与管理数据库实验报告
64 1
|
9月前
|
SQL 存储 数据库
SQL数据恢复总结 - sql server 2012数据库基础-数据恢复-实验报告
SQL数据恢复总结 - sql server 2012数据库基础-数据恢复-实验报告
157 0
|
9月前
|
SQL 网络安全 数据库
网络安全实验十 sql注入实验(一)
网络安全实验十 sql注入实验(一)
160 0
|
9月前
|
SQL 存储 XML
中南林业科技大学数据库实验五:问题分析与详解,穿插SQL规范
中南林业科技大学数据库实验五:问题分析与详解,穿插SQL规范
112 0
|
6月前
|
SQL 存储 分布式计算
HA3 SQL样本实验:一种混合计算查询的全新样本解决方案
HA3(对外开源代号:Havenask )是阿里智能引擎团队自研的大规模分布式检索系统,广泛应用于阿里内部的搜索业务,是十多年来阿里在电商领域积累下来的核心竞争力产品。Ha3 SQL 是在原有Ha3引擎基础上,新增的SQL查询功能,引擎内置了SQL形式的的查询语法,允许用户通过写SQL语句来构造引擎查询。
|
7月前
|
存储 弹性计算 开发工具
云上有“数”系列实验(2)——基于OSS搭建云上个人博客
在本场景中我们将以Hexo静态博客为例,演示如何通过Hexo博客框架快速生成静态博客,以及如何使用Hexo插件将生成的静态博客自动部署至阿里云OSS。
|
7月前
|
存储 弹性计算 数据管理
云上有“数”系列实验(1)——利用OSS搭建在线教育视频课程分享网
本场景将基于一台配置了CentOS 7.7的ECS实例(云服务器)和OSS资源。通过本教程的操作,您可以在ECS实例上搭建在线教育网站,从OSS中上传数据,可以开通OSS传输加速对OSS数据进行加速访问,并且可以设置生命周期对OSS进行降本增效。
|
9月前
|
SQL 存储 Java
SQL用户权限总结 - sql server 2012数据库基础-用户管理及权限管理-实验报告
SQL用户权限总结 - sql server 2012数据库基础-用户管理及权限管理-实验报告
216 0

相关产品

  • 对象存储