- 博客(25)
- 资源 (7)
- 收藏
- 关注

原创 第一个“国产“Apache顶级项目——Kylin,了解一下!
写在前面: 博主是一名大数据初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。我.
2020-05-13 22:47:05
14344
94

原创 这可能是你见过大数据岗位最全,最规范的面试准备大纲 !(建议收藏)
本篇博客所分享的知识非常硬核,建议各位看官(尤其是大数据专业的同学啊),赶紧搬好小板凳,带好西瓜,我们边看边吃瓜。说错了,是带着小本,边看边记下来申明:本篇仅仅只是作为一个大纲目录,具体内容我会在后续详细展开说明!为什么这么说,继续往下看大家就明白了~文章目录【第一章】 面试说明1.1 面试过程最关键的是什么?1.2 面试时该怎么说?1.3 面试技巧1.3.1 六个常见问题1.3.2 两个注意事项1
2020-05-03 14:54:48
11927
46

原创 完美生成年度节假日表,Kettle还能这么玩!
写在前面: 博主是一名大数据初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。我.
2020-05-02 11:27:41
11036
32
原创 一文让你彻底明白,到底什么是用户画像?
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.
2020-05-29 20:35:00
8063
63
原创 不会这20个Spark热门技术点,你敢出去面试大数据吗?
关于大数据面试中对Spark的知识考查不需本菌多解释什么了吧~本篇博客,博主为大家分享20个Spark热门技术点,希望今年出去面试,实习的同学,尤其是想去大厂的同学,一定要把下面的20个技术点看完。文章目录1、Spark有几种部署方式?(重点)2、Spark提交作业参数(重点)3、简述Spark on yarn的作业提交流程(重点)4、请列举Spark的transformation算子(不少于5个)(重点)5
2020-05-28 22:38:41
7681
32
原创 仅需7步带你深入理解【大数据】数仓设计
之前做过一个大数据离线数仓项目,然后写下了一篇总结????大数据实战【千亿级数仓】项目总结。那一篇博客主要针对方向是项目本身,那如果我们把眼光放远,讨论的方向放到数仓设计上面,那该如何总结呢? 不用担心,本篇博客将告诉你答案!文章目录① 构建数据仓库的基础 (前提)② 基于大数据平台构建数仓③ 仓库架构设计原则④
2020-05-28 16:01:53
8930
46
原创 python爬虫获取猫眼电影Top100信息和图片,原来也不是很难
有一段时间没写关于爬虫的博客了,距离上一次自学爬虫已经过去了有一年的时间。想起刚写博客那会,没有什么粉丝,写关于大数据技术的博客受众面不是很广,所以基本上不怎么涨粉。每次涨粉都是因为那段时间分享的几篇关于爬虫入门的几个小Demo,像图片下载器,酷狗Top250,稍微难一点的像爬取拉勾网等等,至今历历在目… 虽然不是p
2020-05-24 16:16:49
10652
43
原创 终于懂了如何进行Cube优化
在上一篇介绍Cube碎片化管理的博客????关于Cube碎片管理,你需要知道这些!发出之后,收到了比较多好的反馈。于是博主趁热打铁,于本篇博客为大家带来关于Cube优化 的知识讲解。文章目录Cube剪枝优化为什么要进行Cuboid剪枝优化检查Cuboid数量检查Cube大小使用衍生维度聚合组结语Cube剪枝优化为什么要进行Cuboid剪枝优化
2020-05-22 14:32:04
9793
59
原创 大数据实战【千亿级数仓】项目总结
前段时间做过一个大数据离线数仓的项目,前后花了有好几周的时间。一共是6个阶段,想关注阶段细节的朋友可以查看????大数据实战项目这个专栏。 现在项目结束了,理应对此进行一个总结,好好回顾一下这个项目中遗漏的细节…文章目录项目架构技术选型数据来源数据存储数据同步计算模型结果存储加速查询结语项目架构① 原始数据
2020-05-21 23:01:47
12492
57
原创 大数据实战【千亿级数仓】阶段六
本篇博客,博主为大家带来的是大数据实战【千亿级数仓】的阶段六,也就是最后一个阶段。文章目录用户行为日志1 .日志数据格式2 .数据仓库-ETL处理点击流概念点击流模型pageviews3. 数据入库1. 创建ODS层数据表1.1 原始日志数据表1.2 点击流模型1.3 点击流visit模型表 通过在阶段一就已经
2020-05-20 23:58:36
9574
20
原创 大数据实战【千亿级数仓】阶段五
本篇博客,为大家带来的是关于大数据实战【千亿级数仓】阶段五的内容。 该阶段中我们需要达成的目标有:学习、掌握kylin的使用,使用kylin,为数据仓库内的数据进行预计算 关于Kylin的入门及使用安装,具体的内容可
2020-05-20 23:57:44
8805
22
原创 大数据实战【千亿级数仓】阶段四
本篇博客,博主为大家带来的是关于大数据实战【千亿级数仓】阶段四的内容。文章目录用户订单指标业务开发1. 需求分析2. 创建dw层表2.1创建itcast_dw.dim_user表2.2 创建订单临时表tmp_order_wide2.3 创建订单时间标志宽表tmp_order_datetag_wide2.4 创建订单时间标志、地址标志宽表 fact_order_wide3. 订单宽表ETL处理3.1 加载用户维
2020-05-20 21:58:54
9602
27
原创 对于Kafka的千言万语,我全凝聚在了一张图里
作为一名大数据的学者,之前接触过一段时间的Kafka,并清楚知道Kafka也一直是大数据岗位面试的热点。所以,为了能对所学知识有一个更好的回顾,博主特意花了一天的时间,把Kafka的重点知识整理成了一份思维导图。希望大家都能够从中或多或少学到一些东西吧~ 想具体了解Kafka的朋友可以去浏览博主之前的专栏 
2020-05-17 21:41:31
10720
48
原创 如何使用JDBC连接操作Kylin?
在之前的博客中已经谈到,Kylin提供了各种Rest API、JDBC/ODBC接口。如果我们要将数据以可视化的方式展现出来,需要使用Kylin的JDBC方式连接执行SQL,获取kylin的执行结果。本篇博客,为大家带来的就是如何使用JDBC操作连接Kylin的步骤流程!文章目录需求开发步骤总结需求 按照日期统
2020-05-17 09:32:50
10446
59
原创 关于Cube碎片管理,你需要知道这些!
在上一篇博客中,博主已经为大家介绍了如何进行kylin的增量构建。在最后也讨论了增量构建会导致Segment越来越多,进而降低数据查询的效率。本篇博客,为大家带来的就是如何对Cube进行碎片化的管理 码字不易,先赞后看文章目录Cube碎片管理增量构建的问题管理Cube碎片手动触发合并Segment删除Segment
2020-05-16 21:01:24
9884
65
原创 原来Kylin的增量构建,大有学问!
本篇博客,博主为大家介绍的是关于Kylin的增量构建的步骤过程,以及其与全量构建的差异对比!看完之后,相信你也一定能够感受到这里面的大学问~文章目录Kylin增量构建应用场景理解Cube、Cuboid与Segment的关系全量构建与增量构建全量构建增量构建全量构建和增量构建的对比增量构建Cube过程增量Cube的创建1、配置Model2、 设置日期范围3、查看Segment总结Kylin增量构建应用场景
2020-05-16 11:57:07
9636
30
原创 多角度带你认清Kylin的工作原理
在之前的博客中,博主已经为大家带来了Kylin的简单介绍,环境搭建以及简单入门使用。本篇博客,博主为大家带来的是关于Kylin工作原理的介绍!文章目录Kylin的工作原理维度和度量Cube 和 Cuboid工作原理技术架构总结Kylin的工作原理 Apache Kylin的工作原理本质上是 MOLAP(多维立方
2020-05-16 09:22:09
10581
32
原创 这么有趣的Kylin入门实操,你值得一试!
上一篇博客已经为各位朋友带来了Kylin的简介以及安装部署(????第一个"国产"Apache顶级项目——Kylin,了解一下!)。本篇博客,博主为大家带来的是关于Kylin的实际应用操作! 码字不易,先赞后看,养成习惯文章目录入门案例测试数据表结构介绍导入测试数据指标和维度按照日期统计订单总额/总数量(Kylin
2020-05-14 21:09:25
9000
32
原创 大数据实战【千亿级数仓】阶段三
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.
2020-05-12 20:48:00
9983
18
原创 通俗易懂讲数据仓库之【缓慢变化维】
本篇博客,博主为大家带来的是关于数据仓库中一个非常重要的知识点缓慢变化维的讲解! 码字不易,先赞后看文章目录缓慢变化维1. 什么是缓慢变化维(SCD)1.1 缓慢变化维简介1.2 举例说明2. SCD问题的几种解决方案SCD解决方案 - 保留原始值SCD解决方案 - 改写属性值SCD解决方案 - 增加维度新行SCD
2020-05-10 14:58:57
10132
38
原创 大数据实战【千亿级数仓】阶段二
写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。.
2020-05-10 09:41:32
10228
30
原创 一文带你认清数据仓库【维度模型设计】与【分层架构】
本篇博客,博主为大家带来关于数仓项目中纬度模型设计与分层架构的一个说明。文章目录数据仓库纬度模型设计1. 纬度建模基本概念1.1 事实表1.2 维度表2. 维度建模三种模式2.1 星形模型2.2 雪花模式2.3 星座模式数据仓库分层架构1. 为什么要分层2.数仓分层思想数据运营层(ODS)数据仓库层(DW)数据服务层/应用层(ADS):3. 阿里巴巴数据仓库分层架构1. ODS 数据准备层2、DWD 数据明细
2020-05-06 21:55:24
10594
41
原创 大数据实战【千亿级数仓】阶段一
最近开始上手一个大数据离线数仓项目。本篇博客先为大家进行一个总体的介绍,包括各个阶段的任务以及项目的简介,环境,需求等等… 码字不易,先赞后看 !总体介绍阶段一 了解行业背景、了解项目背景,项目架构介绍、技术选型,项目
2020-05-04 22:58:37
9849
34
原创 节假日API调用失效,看我如何解决!
上一篇博客为大家分享了Kettle的骚操作——生成年度节假日表,其中在JS代码中调用了节假日API。 关于节假日API,现在网上搜索到比较多的就是下面这种类型的例如我在浏览器上的url上输入https://timor.tech/api/holiday/info/2019-01-01然后就可以看到在页面上返回如下的
2020-05-02 22:56:18
9722
18
原创 这10个常用的Kettle操作,你不会不行!
在上一篇博客《一招教你用Kettle整合大数据和Hive,HBase的环境!》中,已经为大家介绍了Kettle高阶操作中所需要涉及到与Hadoop,Hive,HBase等组件的环境配置过程。本篇,就让我们正式步入到Kettle的常用操作中。 码字不易,先赞后看!文章目录1. HDFS - Excel2. Json
2020-05-01 19:26:47
10442
24
大数据面试宝典-精简版.pdf
2020-04-06
SpringBoot+SpringCloud面试题.doc
2020-06-07
数据可视化驾驶舱.rar
2020-04-29
Java面试 58题.docx
2020-06-07
互联网常见人事面试题.doc
2020-06-07
MQ-A级面试题.pdf
2020-06-07
HBuilder的安装
2019-02-02
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝