Everyday sentence

Time is like a river, the left bank is unable to forget the memories, right is worth grasp the youth, the middle of the fast flowing, is the sad young faint. There are many good things, buttruly belong to own but not much. See the courthouse blossom,honor or disgrace not Jing, hope heaven Yunjuanyunshu, has no intention to stay. In this round the world, all can learn to use a normal heart to treat all around, is also a kind of realm!

开门见山

有几个如雷贯耳的框架,Tornado/ Flask/ Django,Flink/ Hadoop/ Spark,Zookeeper等等。不了解都不好意思,这期我就带大家去汇总看一看我接触过的一些框架

Hadoop家族

实际业务中的数据量并不是一部高性能计算机就能handle的,所以需要分布式。Hadoop是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce( 第二代tez,spark)分布式计算的软件架构。

Pig用接近脚本的方式去描述MapReduce,Hive用SQL去描述,这两个工具在背地里把它转换为MapReduce程序。Impala,Presto,Drill是SQL交互引擎,是用于直接加速MR原生引擎的。

后来还出现了Hive on tez,spark和sparkSQL。还不够,还要更快,于是就出现流计算。

KV store就是哈希存储,他不用MapReduce去扫描一遍数据,可以快速获取与key值绑定的数据。

然后是一些与非关系型数据库相关的工具。关系型数据库具有一致性和可用性,所有的 NoSQL 则是在保有分区容错性的基础上选择一致性或可用性,例如 HBase,MongoDB,Redis牺牲了部分可用性换取了完全的一致性,Cassandra 则是牺牲了部分一致性换来了可用性的保证。

Sqoop是一个用来将非关系型数据库和关系型数据库中的数据相互转移的工具

ZooKeeper是一个分布式存取协同系统

Mahout是分布式机器学习库

还有很多,大家可以自己去网上找相关的资料。

这些乱七八糟的工具,都需要在同一个集群上运转,为了有序工作,这里需要一个调度系统,目前最流行的是Yarn