- 博客(416)
- 资源 (7)
- 收藏
- 关注

原创 相约2021,回首2020 | 我在CSDN的年度总结
时光荏苒,转眼间2020已成为过去式,2021年的大门已向我们敞开。在新年尹始,作为一个在一年多左右的时间里,在CSDN平台持续输出了三百多篇原创博客的忠实用户,有太多所遇,所思,所学与所悟想在这里跟大家聊聊。同时这也是我写博客一年半载以来,第一次静下心来做一次年度总结,希望您能在看完之后,也能从我的故事中收获一些有益的内容!一、机缘巧合,我与CSDN结下了友谊  
2021-01-10 15:23:41
3737
178

原创 推荐10本大数据领域必读的经典好书(火速收藏)
本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者亲绘大数据生态圈思维导图…持续更新,欢迎star! 写博客也已经快一年了,从去年的1024到现在金秋10月已纷至沓来。回顾这一年所发布的原创文章,基本都是与大数据主流或者周边的技术为主。本篇博客,就为大家介绍几篇.
2020-10-03 12:28:48
11452
54

原创 第一个“国产“Apache顶级项目——Kylin,了解一下!
写在前面: 博主是一名大数据初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。我.
2020-05-13 22:47:05
14344
94

原创 这可能是你见过大数据岗位最全,最规范的面试准备大纲 !(建议收藏)
本篇博客所分享的知识非常硬核,建议各位看官(尤其是大数据专业的同学啊),赶紧搬好小板凳,带好西瓜,我们边看边吃瓜。说错了,是带着小本,边看边记下来申明:本篇仅仅只是作为一个大纲目录,具体内容我会在后续详细展开说明!为什么这么说,继续往下看大家就明白了~文章目录【第一章】 面试说明1.1 面试过程最关键的是什么?1.2 面试时该怎么说?1.3 面试技巧1.3.1 六个常见问题1.3.2 两个注意事项1
2020-05-03 14:54:48
11928
46

原创 完美生成年度节假日表,Kettle还能这么玩!
写在前面: 博主是一名大数据初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。我.
2020-05-02 11:27:41
11036
32

原创 还不会使用大数据ETL工具Kettle,你就真的out了!
> **写在前面:** 博主是一名大数据初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,`写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新`。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:[http://alices.ibilibili.xyz/](http://alices.ibilibili.xyz/) , 博客主页:[https://alice.blog.csdn.net/](https
2020-04-28 23:53:21
11482
40

原创 大数据岗位必知必会的53个Java基础
文章目录1. java中==和equals和hashCode的区别2. int与integer的区别3. String、StringBuffer、StringBuilder区别4. 什么是内部类?内部类的作用5. 进程和线程的区别6. final,finally,finalize的区别7. Serializable 和Parcelable 的区别8. 静态属性和静态方法是否可以被继承?是否可以被重写?以及原因?9. 成员内部类、静态内部类、局部内部类和匿名内部类的理解,以及项目中的应用10. string.
2020-04-26 21:56:23
11418
49

原创 全网最全Python学习路线图+14张思维导图,让python初学者不走弯路!
最近忙着做大数据的项目,故有一段时间没更新Python专栏的内容了。 突发奇想,想把当初自学python时收藏的关于python的14张思维导图和学习路线拿出来分享给许多同样处于"初级"阶段的各位攻城狮们。...
2019-12-28 00:51:03
32698
149

原创 python爬虫获取拉钩网在线搜索招聘信息(超实用!)
在之前的博客《用python爬虫制作图片下载器(超有趣!)》中,小菌为大家分享了如何制作一个快捷便利的图片下载器。本次分享小菌,小菌为大家带来的同样是关于爬虫程序方面的分享——获取拉勾网在线搜索消息。话不多说,直接上代码!# -*- encoding: utf-8 -*-"""@File :...
2019-10-30 10:26:38
11808
27
原创 前方高能 | HDFS 的架构,你吃透了吗?
前言 HDFS是Hadoop中存储数据的基石,存储着所有的数据,具有高可靠性,高容错性,高可扩展性,高吞吐量等特征,能够部署在大规模廉价的集群上,极大地降低了部署成本。有意思的是,其良好的架构特征使其能够存储海量的数据。本篇文章,我们就来系统学习一下,Hadoop HDFS的架构!HDFS架构 HDFS采用 Mas
2021-03-03 01:53:10
28
原创 从 0 到 1 学习 elasticsearch ,这一篇就够了!(建议收藏)
从 0 到 1 学习 elasticsearch ,这一篇就够了!!!
2021-03-01 01:34:40
362
25
原创 用户画像 | 标签数据存储之Elasticsearch真实应用
本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者亲绘大数据生态圈思维导图…持续更新,欢迎star!前言 上一篇文章已经为大家介绍了 HBase 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈 Elasticsearch 的使用!Elastics.
2021-02-24 23:44:53
130
2
原创 用户画像 | 标签数据存储之HBase真实应用
本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者亲绘大数据生态圈思维导图…持续更新,欢迎star!前言 上一篇文章已经为大家介绍了 MySQL 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈 HBase 的使用!原著作者:赵宏田来源:《用户.
2021-02-22 23:45:42
91
原创 用户画像 | 标签数据存储之MySQL真实应用
前言 上一篇文章已经为大家介绍了Hive在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈MySQL! MySQL作为关系型数据库,在用户画像中可用于元数据管理、监控预警数据、结果集存储等应用中。下面详细介绍这3个应用场景。元数据管理 &
2021-02-22 00:20:12
148
原创 用户画像 | 标签数据存储之Hive真实应用
前言 小伙伴们大家好呀,趁着年假的几天时间,我写了一篇 Elacticsearch 从0到1的“长篇大作”,现在还在排版,相信很快就会与大家见面了!关于系统学习用户画像,之前已经分享过2篇文章了,分别是《超硬核 | 一文带你入门用户画像》和《用户画像 | 开发性能调优》,收到的读者反馈还不错!本期文章,我借《用户画像方法论》一书,为大家分享在用户画像系统搭建的过程中,数据存储技术基于不同场景的使用。考虑到 篇幅的
2021-02-21 11:04:14
257
1
原创 用户画像 | 开发性能调优
前言 马上就快过年了,祝福小伙伴们牛年大吉,牛气冲天。本期文章分享的是赵老师在《方法论与工程化解决解决方案》一书中提到的关于如何在用户画像项目开发中进行性能调优的例子,希望大家耐心看完后有所收获!一、数据倾斜调优 数据倾斜是开发画像过程中常遇到的问题,当任务执行一直卡在map 100%、reduce 99%,最后
2021-02-08 22:13:27
729
26
原创 硬核 | Sqoop入门指南
前言 我们在日常开发中需要经常接触到关系型数据库,如MySQL,Oracle等等,用它们来将处理后的数据进行存储。为了能够在Hadoop上分析这些数据,我们需要一些“工具”,将关系型数据库中的结构化数据存储到HDFS上。本篇文章,菌哥将介绍的一个操作最简单,同时也是在工作中使用频率极高的开源组件——Sqoop,希望您能在耐心看完之后,有所收获!Sqoop简介 &
2021-01-27 00:41:03
632
36
原创 干货 | 13道精选Flink面试题
相信小伙伴们对于Flink一定不会感到陌生,作为连续三年蝉联第一,荣膺全球最活跃的 Apache 开源项目,Flink在中国的热度也一直是居高不下。近几年,在社区的推动下,Flink 技术栈在越来越多的公司开始得到应用,因此在大数据的求职招聘中,对于Flink的着重考察也变得越来越重要。本期文章,菌哥就带大家来总结一下,在面试过程中,Flink常被问到的知识点有哪些?如果本文对你有帮助,记得在看完之后,一键三连(
2021-01-26 14:07:38
658
41
原创 FlinkSQL | 流处理中的特殊概念
一、前言 上一篇文章,为大家介绍了关于 FlinkSQL 的背景,常见使用以及一些小技巧。学完之后,对于FlinkSQL只能算是简单入了个门。不过不用担心,本篇文章,博主将为大家带来关于 FlinkSQL中流处理的特殊概念,喜欢的话,记得看完点个赞|ू・ω・` )二、流处理中的特殊概念 Table API和SQL,
2021-01-20 17:49:38
543
55
原创 超硬核 | 一文带你入门用户画像
前言 之前开发过一个画像项目,并为大家介绍了项目过程中标签开发的细节,但是后来考虑到对于没有画像开发经验,尤其是零基础的大数据小白而言不是很友好,理解起来也不是很容易。正好最近在看赵宏田老师的《用户画像方法论与解决方案》,所以,我又专门开了一个专题,打算重新为大家讲解关于用户画像的知识。感兴趣的小伙伴记得关注加星标,每天第一时间收获技术干货!1. 用户画像是什么? &nb
2021-01-20 14:02:42
721
56
原创 干货 | 五千字长文带你快速入门FlinkSQL
前言 最近几天因为工作比较忙,已经几天没有及时更新文章了,在这里先给小伙伴们说声抱歉…临近周末,再忙再累,我也要开始发力了。接下来的几天,菌哥将为大家带来关于FlinkSQL的教程,之后还会更新一些大数据实时数仓的内容,和一些热门的组件使用!希望小伙伴们能点个关注,第一时间关注技术干货!FlinkSQL出现的背景 F
2021-01-19 22:24:42
219
1
原创 干货 | HDFS常用的40个命令,你都知道吗?
前言 众所周知,Hadoop 提供了命令行接口,对HDFS中的文件进行管理操作,如读取文件、新建目录、移动文件、复制文件、删除目录、上传文件、下载文件、列出目录等。本期文章,菌哥在拜读了冰河大佬的《海量数据处理与大数据技术实战》之后,为大家详细介绍 Hadoop 的命令行接口!希望大家看完之后,能够有所收获|ू・ω・` ) &
2021-01-19 14:02:22
737
75
原创 万字长文带你快速了解并上手Testcontainers
前言 前段时间,我负责在所属的一个团队内部去推动一项叫做“Testcontainers”的技术。于是在调研并打磨了数天之后,就诞生下文。希望看完本篇文章的你,能够有所收获,感谢阅读! 1. 技术的演进1.1 传统的测试 &nbs
2021-01-07 23:03:23
172
转载 python爬取并分析淘宝商品信息
前言 相信说起“淘宝” ,大家都不会感到陌生吧。作为中国最大的电商平台,淘宝仿佛已经与我们的生活紧密相连。正好之前在CSDN上看到@不正经的kimol君 写了一篇利用《python爬取并分析淘宝商品信息》的文章,于是仔细拜读了一下,感觉贴近生活,且十分实用,故写下这篇文章,记录一下。1、模拟登陆兴致勃勃的我,冲进淘宝就准备一顿乱搜:在搜索栏里填好关键词:“显卡”,小手轻快敲击着回车键(小样~看我的)
2020-12-26 23:05:12
990
29
原创 娱乐 | 14个简单、有趣、好玩的Linux命令
前言1、sl 命令 你会看到一辆火车从屏幕右边开往左边…… 当然我们需要先安装软件包sudo apt-get install sl 然后运行sl即可看到效果2、fortune 命令 &nbs
2020-12-20 01:11:04
5722
52
原创 基于 flink 的电商用户行为数据分析【9】| 电商常见指标汇总 + 项目总结
本篇是flink 的「电商用户行为数据分析」的第 9 篇文章,也是该系列的最后一篇,为大家带来电商常见的指标汇总和对前8篇文章做一个的阶段性的总结,并融入一些我自己的思考,希望大家能够从中受益,感谢阅读!电商指标整理有关"人"的指标客服指标名词名词解释询单量下单前来询问客服的客户总数询单转换率(转化率= 成单数/来访量转化率)影响的因素有:宝贝描述(宝贝图片优化和描
2020-12-17 01:00:53
2707
39
原创 基于 flink 的电商用户行为数据分析【8】| 订单支付实时监控
本篇是flink 的「电商用户行为数据分析」的第 8 篇文章,为大家带来的是市场营销商业指标统计分析之订单支付实时监控的内容!通过本期内容,我们可以实现通过使用CEP和Process Function来实现订单支付实时监控的功能,还能学会通过connect和join来实现flink双流join的功能,可谓干货满满!...
2020-12-14 22:39:30
3069
30
原创 基于 flink 的电商用户行为数据分析【7】| 页面广告分析
本篇是flink 的「电商用户行为数据分析」的第 7 篇文章,为大家带来的是市场营销商业指标统计分析之页面广告分析的内容。通过本期内容,我们可以实现页面广告点击量统计和黑名单过滤的功能。页面广告分析 电商网站的市场营销商业指标中,除了自身的APP推广,还会考虑到页面上的广告投放(包括自己经营的产品和其它网站的广告
2020-12-12 15:21:32
314
原创 基于 flink 的电商用户行为数据分析【6】| APP市场推广统计
前言 本篇是flink 的「电商用户行为数据分析」的第6篇文章,为大家带来的是市场营销商业指标统计分析之APP市场推广统计的内容,通过本期内容的学习,你同样能够学会处理一些特定场景领域下的问题。话不多说,我们直入正题!...
2020-12-12 01:01:22
348
原创 Hive常用的函数总结
前言 上一篇文章《Hive查询的18种方式,你都学会了吗?》为大家系统地介绍了Hive查询的18种方式,受到了一些朋友的好评,让笔者备受鼓舞。于是本篇文章,我们再来学习关于Hive常用的函数,希望读者朋友们能够从中受益! Hive内部支持大量的函数,可以通过 SHOW FUNCTIONS 查看Hive的内置函数。灵
2020-12-09 00:14:33
676
24
原创 基于 flink 的电商用户行为数据分析【5】| 基于埋点日志数据的网络流量统计
前言 在《基于flink的电商用户行为数据分析【3】| 实时流量统计》这篇文章中,博主为大家介绍了基于服务器 log 的热门页面浏览量统计。 最后通过运行结果的验证,我们发现,从 web 服务器 log 中得到的 url,往往更多的是请求某个资源地址(/*.js、/*.css),如果要针对页面进行统计往往还需要进行过滤。而在实际电商应用中,相比每个单独页面的访问量,我们可能更加关心整个电商网站的网络流量。这个指标
2020-12-08 00:19:56
651
32
转载 这可能是你见过最硬核的微服务入门指南!
前言 最近几年微服务很火,大家都在建设微服务,仿佛不谈点微服务相关的技术,都显得不是那么主流了。 近几年见识到身边朋友的很多公司和团队都在尝试进行微服务的改变,但很多团队并没有实际微服务踩坑经验,很多团队甚至强行为了微服务而去微服务,最终写成一个大型的分布式单体应用,就是改造后的系统既没有微服务的快速扩容,灵活发布的特
2020-12-06 12:06:51
589
22
原创 基于flink的电商用户行为数据分析【4】| 恶意登录监控
基于flink的电商用户行为数据分析之【恶意登录监控】,另附超强 CEP 讲解,真的不点进来学习一下吗!!!
2020-11-28 19:38:39
3652
31
原创 基于flink的电商用户行为数据分析【3】| 实时流量统计
前言 在上一期内容中,菌哥已经为大家介绍了实时热门商品统计模块的功能开发的过程(????基于flink的电商用户行为数据分析【2】| 实时热门商品统计)。本期文章,我们要学习的是实时流量统计模块的开发过程。 模块创建和数据准备
2020-11-27 23:42:42
571
原创 基于flink的电商用户行为数据分析【2】| 实时热门商品统计
前言 在上一期内容中,菌哥已经为大家介绍了电商用户行为数据分析的主要功能和模块介绍。本期内容,我们需要介绍的是实时热门商品统计模块的功能开发。...
2020-11-24 23:50:15
616
原创 基于flink的电商用户行为数据分析【1】| 项目整体介绍
前言 愉悦的一周又要开始了,本周菌哥打算用几期文章为大家分享一个之前在B站自学的一个项目——基于flink的电商用户行为数据分析。本期我们先对项目整体功能和模块做一个介绍。 正式介绍项目整体之前,我们来探讨一下批处理和流处理技术。批处理 VS 流处理 &
2020-11-22 21:51:01
2486
69
原创 关于Hive命令的7个小技巧,你都清楚吗?
前言 最近在看冰河大佬写的《海量数据处理与大数据技术实战》,该书涵盖以Hadoop为主的多款大数据技术框架实战的内容,兼顾理论与实操,是市面上难得的技术好书。本篇文章,我就分享一下从中学习到的关于Hive命令的7个小技巧,受益的朋友记得来发三连⭐支持一下哟~Hive命令说明 在Hive提供的所有连接方式中,命令行界
2020-11-22 01:17:33
1189
32
原创 Ansible进阶学习之Playbooks(剧本)的理解使用
前言 上一篇文章为大家对“Ansible”简单入了个门,介绍了自动化运维发展,Ansible的基本原理以及基本模块的使用。本篇文章,我们将趁热打铁,学习Ansible中playbook的使用。 看完本篇,你将收获:为什么要引入playbookYAML的基本语法和简介playbook基础组件定义及使用为什么
2020-11-21 15:22:59
381
1
大数据面试宝典-精简版.pdf
2020-04-06
SpringBoot+SpringCloud面试题.doc
2020-06-07
数据可视化驾驶舱.rar
2020-04-29
Java面试 58题.docx
2020-06-07
互联网常见人事面试题.doc
2020-06-07
MQ-A级面试题.pdf
2020-06-07
HBuilder的安装
2019-02-02
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝