博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析
阅读量:6193 次
发布时间:2019-06-21

本文共 1162 字,大约阅读时间需要 3 分钟。

官方指导文档:

但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下:

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

创建数据源:

步骤1 进入数据集成,点击作业数据源,进入Tab页面。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

步骤2 点击右上角

新增数据源,选择消息队列 loghub。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

步骤3 编辑LogHub数据源中的必填项,包括数据源名称、LogHub

Endpoint、Project、AK信息等,并点击 测试连通性。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

创建目标表:

步骤1 在左侧tab也中找到临时查询,并右键>新建ODPS SQL节点。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

步骤2 编写建表DDL。

步骤3 点击
执行 按钮进行创建目标表,分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步骤4 直到日志打印成本,表示三条DDL语句执行完毕。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

步骤5 可以通过desc 查看创建的表。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

其他两张表也可以通过desc 进行查询。确认数据表的存在情况。

创建数据同步任务

数据源端以及在DataWorks中的数据源连通性都已经配置好,接下来就可以通过数据同步任务进行采集数据到MaxCompute上。
操作步骤
步骤1 点击
新建业务流程 并 确认提交,名称为 直播日志采集。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

步骤2 在业务流程开发面板中依次创建如下依赖并命名。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

依次配置数据同步任务节点配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步骤3 双击

web_tracking_log_syn 进入节点配置,配置项包括数据源(数据来源和数据去向)、字段映射(源头表和目标表)、通道控制。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

根据采集的时间窗口自定义参数为:

当然其消费点位也可以按照自定义设置5分钟调度一次,从00:00到23:59,startTime=系统前分钟到[yyyymmddhh24miss−10/24/60]系统前10分钟到endTime=[yyyymmddhh24miss-5/24/60]系统前5分钟时间(注意与上图消费数据定位不同),那么应该配置为ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。

步骤4 可以点击高级运行进行测试。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

可以分别手工收入自定义参数值进行测试。

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

步骤3 使用SQL脚本确认是否数据已经写进来。如下图所示:

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

日志服务的日志正式的被采集入库,接下来就可以进行数据加工。

比如可以通过上述来统计热门房间、地域分布和卡顿率,如下所示:
通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

具体SQL逻辑不在这里展开,可以根据具体业务需求来统计分析。依赖关系配置如上图所示。

转载于:https://blog.51cto.com/14031893/2375964

你可能感兴趣的文章
《制造业中的机器人、自动化和系统集成》—— 1.4 机器人应用的发展
查看>>
JQuery入门(1)
查看>>
《OpenACC并行编程实战》—— 3.2 导语格式
查看>>
Linux有问必答:nginx网络服务器上如何阻止特定用户代理(UA)
查看>>
Nginx+Keepalived实现站点高可用
查看>>
《jQuery、jQuery UI及jQuery Mobile技巧与示例》——9.12 技巧:跨页面时固定footer...
查看>>
如何使用Monit部署服务器监控系统
查看>>
未来富豪,将出自这12大颠覆性领域
查看>>
《Axure RP8 网站和APP原型制作 从入门到精通》一2.4 权衡并制定功能的优先级...
查看>>
《软件功能测试自动化实战教程》—第6章6.1节什么时候使用数据驱动测试方法...
查看>>
三张图看遍Linux 性能监控、测试、优化工具
查看>>
关于 Linux 进程你所需要知道的一切
查看>>
如何用Python批量发现互联网“开放”摄像头
查看>>
网站开发之DIV+CSS简单布局网站入门篇(五)
查看>>
Mysql查询缓存研究
查看>>
android classloader双亲委托模式
查看>>
剑指offer 面试题6—重建二叉树
查看>>
打造自己的 DockerImage
查看>>
自定义Spark Partitioner提升es-hadoop Bulk效率
查看>>
色情病毒“魅影杀手”的恶意行为及黑产利益链分析
查看>>