现在位置: 首页 > summer发表的所有文章
  • 03月
  • 31日
大数据 ⁄ 共 2750字 评论关闭
时隔两年,Apache Hadoop终于又有大改版,Apache基金会近日发布了Hadoop 2.8版,一次新增了2,919项更新功能或新特色。不过,Hadoop官网建议,2.8.0仍有少数功能在测试,要等到释出2.8.1或是2.8.2版才适合用于正式环境。   在2.8.0版众多更新,主要分布于4大套件分别是:   共用套件(Common) 底层分散式档案系统HDFS套件(HDFS) MapReduce运算套件(MapReduce) YARN分析框架(YARN) 例如,共用套件中,可无上限存取S3档案的Hadoop内建S3A机制,可直接外挂上任何AWS验证的资料来源,也可用hadoop验证API直接取得S3A验证,取代透过X......
阅读全文
RHEEM是一个可扩展且易于使用的跨平台大数据分析系统,它在现有的数据处理平台之上提供了一个抽象。它允许用户使用易于使用的编程接口轻松地编写数据分析任务,为开发者提供了不同的方式进行性能优化,编写好的程序可以在任意数据处理平台上允许,这其中包括:PostgreSQL, Spark, Hadoop MapReduce或者Flink等;Rheem将选择经典处理框架的最佳配置来运行这些程序。RHEEM抽象完全基于用户定义函数(UDF),允许用户专注于其应用程序逻辑而不是物理细节。这就使得数据工程师和软件开发人员可以不去了解不同数据处理系统的API、优缺点......
阅读全文
本文分享两种解决object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable)的方法。现在整理处理,分享给需要的兄弟们。   在使用Spark操作Hbase的时候,其返回的数据类型是RDD[ImmutableBytesWritable,Result],我们可能会对这个结果进行其他的操作,比如join等,但是因为org.apache.hadoop.hbase.io.ImmutableBytesWritable 和 org.apache.hadoop.hbase.client.Result 并没有实现 java.io.Serializable 接口,程序在运行的过程中可能发生以下的异常:   Serialization stack: - object not serializa......
阅读全文
概览     Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame API处理流数据的聚集,事件窗口,和流与批次的连接操作等。最后Structured Streaming 系统快速,稳定,端到端的恰好一次保证,支持容错的处理。 使用范例   import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession   val spark = SparkSes......
阅读全文
本文深入讲述了Hadoop Streaming的工作原理,以及如何使用Hadoop Streaming。同时列出了几个使用Hadoop Streaming的场景。   Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer 作业。比如下面的例子   mapred streaming \ -input myInputDirs \ -output myOutputDir \ -mapper /bin/cat \ -reducer /usr/bin/wc   Hadoop Streaming程序是如何工作的   Hadoop Streaming 使用了 Unix 的标准输入输出作为 Hadoop 和其他编程语言的开发接口......
阅读全文
本文分享通过修改操作系统的hosts文件实现访问google的方法,并且提供相应的IP地址(请通过文章末尾的下载按钮进行下载)。下面按照不同的操作系统来介绍: Windows   用文本编辑器打开C:\Windows\System32\drivers\etc中的hosts文件,然后复制下载的hosts文件里面的全部内容到C:\Windows\System32\drivers\etc\hosts文件里。   Android   修改/system/etc/hosts文件,不过这个需要ROOT权限,而且需要重启手机。   Linux   修改/etc/hosts文件,然后复制下载的hosts文件里面的全部内容,并追加到/etc/hosts文件中。   Mac OS X......
阅读全文
  • 03月
  • 17日
大数据 ⁄ 共 9926字 评论关闭
本文主要讲述了美团公司如何对HDFS Federation进行改造以适合于自己公司的需求。现在整理出来分享给兄弟们,希望给兄弟们带来帮助。 HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案,真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发,介绍了HDFS Federation在美团点评的实际应用经验。 背景 2015年10月,经过一段时间的优化与改进,美团点评HDFS集群稳定性和性能有显著提升,保证了业务数据存储量和计算量爆发式增长下的存储服务质量;然而,随着集......
阅读全文
  • 03月
  • 15日
大数据 ⁄ 共 2319字 评论关闭
本文主要讲述了如何使用Hadoop Streaming编写一个可以运行在Hadoop集群上的MapReduce程序。   Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer,从而充分利用 Hadoop 并行计算框架的优势和能力,来处理大数据。而我们在官方文档或者是Hadoop权威指南看到的Hadoop Streaming例子都是使用 Ruby 或者 Python 编写的,官方说可以使用任何可执行文件的方式来编写Hadoop Streaming程序,那么我们一定可以使用JavaScript语言来编写Hadoop Strea......
阅读全文
  • 02月
  • 08日
日历(Calendars) ⁄ 共 1150字 评论关闭
CalendarView是一个开源的Android日历视图控件,能够把月和星期整合起来一起显示数据。   特性: 1、自定义样式颜色和文字大小。   2、可以将周六、周日或者周一设置为每周的第一天。   3、Overflow mark below the day when the views don't fit   可定制的属性: <com.sickmartian.calendarview.MonthView xmlns:calendar_view="http://schemas.android.com/apk/res-auto" android:layout_below="@+id/control_container" calendar_view:textSize="12sp" calendar_view:activeTextColor="@color/colorPrimaryText" calendar_vi......
阅读全文
  • 02月
  • 07日
大数据 ⁄ 共 2454字 评论关闭
在大数据领域,处理数据速度快是Spark的一大亮点,也称为很多公司选择的Spark的一个主要原因,但是每个事物都有双面性,本文列出Spark的优点和缺点,一共各位大牛在技术选型时做个参考。   如果你要寻求一种处理海量数据的解决方案,就会有很多可选项。选择哪一种取决于具体的用例和要对数据进行何种操作,可以从很多种数据处理框架中进行遴选。例如Apache的Samza、Storm和Spark等等。本文将重点介绍Spark的功能,Spark不但非常适合用来对数据进行批处理,也非常适合对实时的流数据进行处理。   Spark目前已经非常成熟,数据处理工......
阅读全文
  • 02月
  • 07日
大数据 ⁄ 共 2441字 评论关闭
Apache Flink 1.2.0于2017年2月7日正式发布。其API和其他1.x.y版本使[email protected] Flink 1.2.0是1.x.y系列的第三个主要版本。本版本一共解决了650个issues。   下面我们来看下Apache Flink 1.2.0的新特性。   Dynamic Scaling / Key Groups Flink streaming job 现在支持通过从带有不同并行度的保持点(savepoint)恢复来修改作业的并行度。整个作业的并行度和操作符(operator)的并行度的修改都是支持的。在StreamExecutionEnvironment中,用户可以通过设置被称为“max parallelism”的参数为每个作业进行参数配......
阅读全文
  • 02月
  • 07日
大数据 ⁄ 共 1441字 评论关闭
2017年1月29日Apache CarbonData发布了1.0.0版本。CarbonData是一款由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。下面我们来看下CarbonData 1.0.0版本的新特性:   新的数据加载解决方案 旧版本的CarbonData数据加载解决方案依赖了Kettle引擎,然而Kettle引擎并不是为大数据领域而设计的,而且代码的维护非常复杂。所以,在Apache CarbonData 1.0.0版本,引入了新的数据加载解决......
阅读全文
×