现在位置: 首页 > 大数据 > 文章
2017年02月07日 大数据 ⁄ 共 2454字 评论关闭
在大数据领域,处理数据速度快是Spark的一大亮点,也称为很多公司选择的Spark的一个主要原因,但是每个事物都有双面性,本文列出Spark的优点和缺点,一共各位大牛在技术选型时做个参考。   如果你要寻求一种处理海量数据的解决方案,就会有很多可选项。选择哪一种取决于具体的用例和要对数据进行何种操作,可以从很多种数据处理框架中进行遴选。例如Apache的Samza、Storm和Spark等等。本文将重点介绍Spark的功能,Spark不但非常...
阅读全文

2017年02月07日 大数据 ⁄ 共 2441字 评论关闭
Apache Flink 1.2.0于2017年2月7日正式发布。其API和其他1.x.y版本使用@Public标注的API是兼容的。Apache Flink 1.2.0是1.x.y系列的第三个主要版本。本版本一共解决了650个issues。   下面我们来看下Apache Flink 1.2.0的新特性。   Dynamic Scaling / Key Groups Flink streaming job 现在支持通过从带有不同并行度的保持点(savepoint)恢复来修改作业的并行度。整个作业的并行度和操作符(operator)的并行度的修改都是支持的。...
阅读全文
2017年02月07日 大数据 ⁄ 共 1441字 评论关闭
2017年1月29日Apache CarbonData发布了1.0.0版本。CarbonData是一款由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。下面我们来看下CarbonData 1.0.0版本的新特性:   新的数据加载解决方案 旧版本的CarbonData数据加载解决方案依赖了Kettle引擎,然而Kettle引擎并不是为大数据...
阅读全文
2017年01月19日 大数据 ⁄ 共 4463字 评论关闭
本文主要介绍如何在window7中使用eclipse开发hadoop项目。我们首先要做的工作是先搭建hadoop的伪分布或完全分布运行环境。关于hadoop的伪分布运行环境请参考:hadoop自学笔记1——hadoop2.6.5 ubuntu16.04单机和伪分布环境搭建教程。 搭建hadoop开发环境需要用到如下的软件:jdk1.7(64位),eclipse(LUNA),hadoop-eclipse-plugin-2.6.5.jar,hadoop-common-2.2.0-bin-master.zip,hadoop-2.6.5。相关的软件我都上传到了百度云,大...
阅读全文
2017年01月19日 大数据 ⁄ 共 1549字 评论关闭
Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业,成为Apache的顶级项目。从此hadoop生态系统又添加一新成员。 Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领域对开源社区的又一个非常大的贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理...
阅读全文
2017年01月19日 大数据 ⁄ 共 662字 评论关闭
Apache基金会在美国时间2017年1月17日正式对外发出通告: Hbase推出 1.3.0版。该版本大约解决了1700个issues,修复了大量bug,性能较于以往的版本有显著的提升。 以下的新特性值得关注: Date-based tiered compactions (HBASE-15181, HBASE-15339) Maven archetypes for HBase client applications (HBASE-14877) Throughput controller for flushes (HBASE-14969) Controlled delay (CoDel) based RPC scheduler (HBASE-1513...
阅读全文
本教程主要实现了在ubuntu16.04上搭建hadoop2.6.5的单机和伪分布运行环境。搭建过程中用到的软件jdk1.7、hadoop2.6.5、ubuntu16.04都是64位的。 1、安装ubuntu。 这个网上很多教程,大家去搜下即可。一般是在win7中使用vmware创建一个虚拟机,然后在虚拟机中安装ubuntu。我用的是最新的ubuntu16.04 64位桌面版。下载地址为:https://www.ubuntu.com/download/desktop。提供一个在虚拟机中安装ubuntu的教程: http://jingyan.b...
阅读全文
2016年12月23日 大数据 ⁄ 共 141字 评论关闭
本书收集了6个在企业中使用hadoop生态系统解决大数据的案例。通过阅读本书,可以让你的hadoop技能上升一个级别,并且能够把hadoop的知识运用于解决企业大数据的实际问题、利用好企业大数据。本书是英文版。作者:Anurag Shrivastava。2016年9月出版。 本书目录:
阅读全文
2016年12月23日 大数据 ⁄ 共 427字 评论关闭
《Hadoop权威指南》第三版PDF中文版下载,清华大学2015年1月1号出版,由华东师范大学数据科学与工程学院主持翻译。本书增加了很多hadoop2.X的新特性,包含MapReduceAPI,以及MapReduce2及其灵活性更强的执行模型(YARN)等。适用于Hadoop初学者、有一定工作经验的Hadoop开发者和管理员。 本书目录: Chapert 1:初始Hadoop Chapert 2:关于MapReduce Chapert 3:Hadoop分布式文件系统 Chapert 4:Hadoop的I/O操作 Chapert 5:MapRedu...
阅读全文
2016年12月22日 大数据 ⁄ 共 1371字 评论关闭
本文将概述即将发布的Apache Flink 1.2.0新功能。在Apache Flink 1.1+版本上,社区主要的集中点在操作性(Operations)、生态系统(Ecosystem)、更广泛的用户(Broader Audience)以及应用特性(Application Features)等方面的开发。各个模块的开发主要包括了如下的方向: 而Flink 1.2版本对以下的方面进行了提升,其中动态扩展(Dynamic Scaling)和可查询状态(Queryable State)又是本版本的重中之重。 动态扩展(Dynamic...
阅读全文
2016年12月16日 大数据 ⁄ 共 6134字 评论关闭
前言   《HDFS NameNode内存全景》中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题,还有业界进行横向扩展方面的多种可借鉴解决方案。 事实上,对NameNode实施横向扩展前,会面临常驻内存随数据规模持续增长的情况,为此需要经历不断调整NameNode内存的堆空间大小的过程,期间会遇到几个问题: 1、当前内存空间预期能够支撑多长时...
阅读全文
2016年12月14日 大数据 ⁄ 共 9703字 评论关闭
一、概述 从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外,本文基于社区版本Hadoop-2.4.1[1][2],虽然2.4.1之后已经有多次版本迭代,但是基本原理相同。   NameNod...
阅读全文
2016年12月01日 大数据 ⁄ 共 2745字 评论关闭
1、登录用户界面后,要想切换到命令行,有两个方法:(1)点击左上角,然后搜索xterm,就可以打开命令行了。(2)在空白地方点击鼠标右键,在弹出的菜单中点击“打开终端(E)”即可。 2、ubuntu在安装时是不指定root账号的密码,当你没设置密码时,密码是随机的。通过在安装时设置的用户登录后,打开终端,输入如下的命令:sudo passwd root 。然后会让你输入两次密码,这时root账号的密码已经设置完成,不在是随机的。 3、使用ifc...
阅读全文
2016年11月18日 大数据 ⁄ 共 369字 评论关闭
因为工作的原因,需要在ubuntu16.04上安装ssh软件,便于在windows7上使用putty连接远程的linux服务器。在使用sudo apt-get install openssh-server命令安装ssh是出现如下的错误: E:软件包openssh-server还没有可供安装的候选者。 这是因为我安装的是ubuntu16.04 LTS操作系统,这个操作系统没有包含有openssh server软件。 解决方法是先下载openssh server软件,然后进行安装。 下载软件的命令为:sudo apt-get update。下载完...
阅读全文
×