现在位置: 首页 > 大数据 > 文章
RHEEM是一个可扩展且易于使用的跨平台大数据分析系统,它在现有的数据处理平台之上提供了一个抽象。它允许用户使用易于使用的编程接口轻松地编写数据分析任务,为开发者提供了不同的方式进行性能优化,编写好的程序可以在任意数据处理平台上允许,这其中包括:PostgreSQL, Spark, Hadoop MapReduce或者Flink等;Rheem将选择经典处理框架的最佳配置来运行这些程序。RHEEM抽象完全基于用户定义函数(UDF),允许用户专注于其应用...
阅读全文

本文分享两种解决object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable)的方法。现在整理处理,分享给需要的兄弟们。   在使用Spark操作Hbase的时候,其返回的数据类型是RDD[ImmutableBytesWritable,Result],我们可能会对这个结果进行其他的操作,比如join等,但是因为org.apache.hadoop.hbase.io.ImmutableBytesWritable 和 org.apache.hadoop.hbase.client.Result 并没有实现 java.io.Serial...
阅读全文
2017年03月22日 大数据 ⁄ 共 13626字 评论关闭
概览     Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame API处理流数据的聚集,事件窗口,和流与批次的连接操作等。最后Structured Streaming 系统快速,稳定,端到端的恰好一次保证,支持容错的处理。 使用范例   import...
阅读全文
本文深入讲述了Hadoop Streaming的工作原理,以及如何使用Hadoop Streaming。同时列出了几个使用Hadoop Streaming的场景。   Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer 作业。比如下面的例子   mapred streaming \ -input myInputDirs \ -output myOutputDir \ -mapper /bin/cat \ -reducer /usr/bin/wc   Hadoop Streaming程...
阅读全文
2017年03月17日 大数据 ⁄ 共 9926字 评论关闭
本文主要讲述了美团公司如何对HDFS Federation进行改造以适合于自己公司的需求。现在整理出来分享给兄弟们,希望给兄弟们带来帮助。 HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案,真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发,介绍了HDFS Federation在美团点评的实际应用经验。 背景 2015年10月,经过一段时间的优化与改进,美团点评HDF...
阅读全文
2017年03月15日 大数据 ⁄ 共 2319字 评论关闭
本文主要讲述了如何使用Hadoop Streaming编写一个可以运行在Hadoop集群上的MapReduce程序。   Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer,从而充分利用 Hadoop 并行计算框架的优势和能力,来处理大数据。而我们在官方文档或者是Hadoop权威指南看到的Hadoop Streaming例子都是使用 Ruby 或者 Python 编写的,官方说可以使用任...
阅读全文
2017年02月07日 大数据 ⁄ 共 2454字 评论关闭
在大数据领域,处理数据速度快是Spark的一大亮点,也称为很多公司选择的Spark的一个主要原因,但是每个事物都有双面性,本文列出Spark的优点和缺点,一共各位大牛在技术选型时做个参考。   如果你要寻求一种处理海量数据的解决方案,就会有很多可选项。选择哪一种取决于具体的用例和要对数据进行何种操作,可以从很多种数据处理框架中进行遴选。例如Apache的Samza、Storm和Spark等等。本文将重点介绍Spark的功能,Spark不但非常...
阅读全文
2017年02月07日 大数据 ⁄ 共 2441字 评论关闭
Apache Flink 1.2.0于2017年2月7日正式发布。其API和其他1.x.y版本使[email protected] Flink 1.2.0是1.x.y系列的第三个主要版本。本版本一共解决了650个issues。   下面我们来看下Apache Flink 1.2.0的新特性。   Dynamic Scaling / Key Groups Flink streaming job 现在支持通过从带有不同并行度的保持点(savepoint)恢复来修改作业的并行度。整个作业的并行度和操作符(operator)的并行度的修改都是支持的。...
阅读全文
2017年02月07日 大数据 ⁄ 共 1441字 评论关闭
2017年1月29日Apache CarbonData发布了1.0.0版本。CarbonData是一款由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。下面我们来看下CarbonData 1.0.0版本的新特性:   新的数据加载解决方案 旧版本的CarbonData数据加载解决方案依赖了Kettle引擎,然而Kettle引擎并不是为大数据...
阅读全文
2017年01月19日 大数据 ⁄ 共 4463字 评论关闭
本文主要介绍如何在window7中使用eclipse开发hadoop项目。我们首先要做的工作是先搭建hadoop的伪分布或完全分布运行环境。关于hadoop的伪分布运行环境请参考:hadoop自学笔记1——hadoop2.6.5 ubuntu16.04单机和伪分布环境搭建教程。 搭建hadoop开发环境需要用到如下的软件:jdk1.7(64位),eclipse(LUNA),hadoop-eclipse-plugin-2.6.5.jar,hadoop-common-2.2.0-bin-master.zip,hadoop-2.6.5。相关的软件我都上传到了百度云,大...
阅读全文
2017年01月19日 大数据 ⁄ 共 1549字 评论关闭
Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业,成为Apache的顶级项目。从此hadoop生态系统又添加一新成员。 Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领域对开源社区的又一个非常大的贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理...
阅读全文
2017年01月19日 大数据 ⁄ 共 662字 评论关闭
Apache基金会在美国时间2017年1月17日正式对外发出通告: Hbase推出 1.3.0版。该版本大约解决了1700个issues,修复了大量bug,性能较于以往的版本有显著的提升。 以下的新特性值得关注: Date-based tiered compactions (HBASE-15181, HBASE-15339) Maven archetypes for HBase client applications (HBASE-14877) Throughput controller for flushes (HBASE-14969) Controlled delay (CoDel) based RPC scheduler (HBASE-1513...
阅读全文
本教程主要实现了在ubuntu16.04上搭建hadoop2.6.5的单机和伪分布运行环境。搭建过程中用到的软件jdk1.7、hadoop2.6.5、ubuntu16.04都是64位的。 1、安装ubuntu。 这个网上很多教程,大家去搜下即可。一般是在win7中使用vmware创建一个虚拟机,然后在虚拟机中安装ubuntu。我用的是最新的ubuntu16.04 64位桌面版。下载地址为:https://www.ubuntu.com/download/desktop。提供一个在虚拟机中安装ubuntu的教程: http://jingyan.b...
阅读全文
2016年12月23日 大数据 ⁄ 共 141字 评论关闭
本书收集了6个在企业中使用hadoop生态系统解决大数据的案例。通过阅读本书,可以让你的hadoop技能上升一个级别,并且能够把hadoop的知识运用于解决企业大数据的实际问题、利用好企业大数据。本书是英文版。作者:Anurag Shrivastava。2016年9月出版。 本书目录:
阅读全文
2016年12月23日 大数据 ⁄ 共 427字 评论关闭
《Hadoop权威指南》第三版PDF中文版下载,清华大学2015年1月1号出版,由华东师范大学数据科学与工程学院主持翻译。本书增加了很多hadoop2.X的新特性,包含MapReduceAPI,以及MapReduce2及其灵活性更强的执行模型(YARN)等。适用于Hadoop初学者、有一定工作经验的Hadoop开发者和管理员。 本书目录: Chapert 1:初始Hadoop Chapert 2:关于MapReduce Chapert 3:Hadoop分布式文件系统 Chapert 4:Hadoop的I/O操作 Chapert 5:MapRedu...
阅读全文
2016年12月22日 大数据 ⁄ 共 1371字 评论关闭
本文将概述即将发布的Apache Flink 1.2.0新功能。在Apache Flink 1.1+版本上,社区主要的集中点在操作性(Operations)、生态系统(Ecosystem)、更广泛的用户(Broader Audience)以及应用特性(Application Features)等方面的开发。各个模块的开发主要包括了如下的方向: 而Flink 1.2版本对以下的方面进行了提升,其中动态扩展(Dynamic Scaling)和可查询状态(Queryable State)又是本版本的重中之重。 动态扩展(Dynamic...
阅读全文
2016年12月16日 大数据 ⁄ 共 6134字 评论关闭
前言   《HDFS NameNode内存全景》中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题,还有业界进行横向扩展方面的多种可借鉴解决方案。 事实上,对NameNode实施横向扩展前,会面临常驻内存随数据规模持续增长的情况,为此需要经历不断调整NameNode内存的堆空间大小的过程,期间会遇到几个问题: 1、当前内存空间预期能够支撑多长时...
阅读全文
2016年12月14日 大数据 ⁄ 共 9703字 评论关闭
一、概述 从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外,本文基于社区版本Hadoop-2.4.1[1][2],虽然2.4.1之后已经有多次版本迭代,但是基本原理相同。   NameNod...
阅读全文
2016年12月01日 大数据 ⁄ 共 2745字 评论关闭
1、登录用户界面后,要想切换到命令行,有两个方法:(1)点击左上角,然后搜索xterm,就可以打开命令行了。(2)在空白地方点击鼠标右键,在弹出的菜单中点击“打开终端(E)”即可。 2、ubuntu在安装时是不指定root账号的密码,当你没设置密码时,密码是随机的。通过在安装时设置的用户登录后,打开终端,输入如下的命令:sudo passwd root 。然后会让你输入两次密码,这时root账号的密码已经设置完成,不在是随机的。 3、使用ifc...
阅读全文
2016年11月18日 大数据 ⁄ 共 369字 评论关闭
因为工作的原因,需要在ubuntu16.04上安装ssh软件,便于在windows7上使用putty连接远程的linux服务器。在使用sudo apt-get install openssh-server命令安装ssh是出现如下的错误: E:软件包openssh-server还没有可供安装的候选者。 这是因为我安装的是ubuntu16.04 LTS操作系统,这个操作系统没有包含有openssh server软件。 解决方法是先下载openssh server软件,然后进行安装。 下载软件的命令为:sudo apt-get update。下载完...
阅读全文
×