玩转大数据

Everyday sentence

Time is like a river, the left bank is unable to forget the memories, right is worth grasp the youth, the middle of the fast flowing, is the sad young faint. There are many good things, buttruly belong to own but not much. See the courthouse blossom,honor or disgrace not Jing, hope heaven Yunjuanyunshu, has no intention to stay. In this round the world, all can learn to use a normal heart to treat all around, is also a kind of realm!

虚拟机

很多项目真正部署的环境是Linux，那么我们可不可以在其他系统上面搭建一个linux开发环境呢？当然是可以的，常见的虚拟机软件有VMware，VirtualBox，Microsoft Virtual PC。它就相当于一个程序，会模拟一个完整的主机

在Win上装的时候，win+i打开控制面板，先把hiper-V这个win自带的虚拟机关掉，安装就参照https://how2j.cn/k/vmware/vmware-install/1998.html即可

怎么玩儿

我们看看业内大咖是怎么玩儿的，斗鱼大家都知道，是国内第一游戏直播平台。（如果有看不懂的词汇建议阅读有意思的框架一文）

斗鱼的架构分为

数据源层：用户行为打点，服务日志，Nginx/PHP日志，线上Mysql库，MongoDB，Redis存储

数据接入层：包括Kafka，负责接入打点上报（最大吞吐量200w TPS），Canal/Sqoop（解决数据库接入问题），Flume/ Logstash/ rsyslog等实时日志

数据预处理层：简单的清洗和聚合计算

存储层：系统HDFS（文件存储），Hbase（KV存储），Kalfka（消息缓存）

计算层：MR，Hive，Storm，Spark，Tensorflow

数据服务层：基于Docker的微服务环境支撑

大数据管理平台，承载所有的元数据管理，统一监控系统，报表展示，任务调度，发布系统等功能

Hadoop集群150台物理机，5PB数据（1PB = 1024TB），日增量20T

查询引擎Impala，用于支撑OLAP（联机处理分析，是数据仓库系统的上层应用）比Hive快五倍，用HA proxy作为JDBC（java数据库连接）的负载均衡器。（presto，kylin也是查询引擎）

spark应用

接入实时流，实时日志分析，接口性能监控，报表

抽取异构数据源，合并加工后写入数据库

弹幕分析统计，流量渠道分析统计，垃圾弹幕识别，用户点击预测，用户分群，推荐系统

两个重要组件：zeppelin，提供交互界面查询，数据可视化。Alluxio，基于内存的分布式文件系统，以文件形式在内存或者其他存储设施中提供数据的存取中间件

基于ELK的统一日志监控系统，E是Elasticsearch是分布式搜索引擎，Logstash是日志搜索分析过滤工具，Kibana是汇总分析web界面工具

对外服务架构前后端分离，Nginx作为网关代理，SpringBoot微服务架构，用K8S作为容器编排引擎

数据仓库分层，同步，目前支持MySQL和MongoDB

个性推荐系统，用户画像

风控系统，黑产养卡，大力严惩的同时保证用户体验，风险模型根据特征打分评级

Spark学习

https://courses.edx.org/courses/BerkeleyX/CS190.1x/1T2015/courseware/082cd67bd37e4576871b9845583455b0/920d3370060540c8b21d56f05c64bdda/?child=first

hadoop

测试开发

很不要脸地把这个内容放在大数据里了，因为事情实在繁多，就暂且搁置了大数据部分的学习，先学习一下测试开发的技能。

玩转大数据

Everyday sentence

虚拟机

怎么玩儿

Spark学习

hadoop

测试开发

Locke Wang

Comments

Everyday sentence

虚拟机

怎么玩儿

Spark学习

hadoop

测试开发

Share

Locke Wang

Comments