Azkaban的安装

博客分类：

Azkaban

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点： • Web用户界面 •方便上传工作流 •方便设置任务之间的关系 •调度工作流 • 认证/授权(权限的工作) •能够杀死并重新启动工作流 •模块化和可插拔的插件机制 •项目工作区 •工作流和任务的日志记录和审计准备工作 Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaba ...

2014-08-20 15:43
浏览 998
评论(0)
分类:编程语言

Hive 中内部表与外部表的区别与创建方法

博客分类：

hive

分类： Hive 2013-12-07 11:56 1806人阅读评论(0) 收藏举报先来说下Hive中内部表与外部表的区别： Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在� ...

2014-08-15 17:11
浏览 727
评论(0)
分类:编程语言

hive map和reduce的控制

博客分类：

hive

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)； 2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数 b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130 ...

2014-08-15 16:14
浏览 599
评论(0)
分类:编程语言

hive 压缩策略

博客分类：

hive

Hive使用的是Hadoop的文件系统和文件格式，比如TEXTFILE，SEQUENCEFILE等。在Hive中对中间数据或最终数据数据做压缩，是提高数据吞吐量和性能的一种手段。对数据做压缩，可以大量减少磁盘的存储空间，比如基于文本� ...

2014-08-15 15:16
浏览 1729
评论(0)
分类:编程语言

hive 在mysql中创建备用数据库

博客分类：

hive

修改hive-site.xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://vmtmstorm01:3306/hive2?useUnicode=true&characterEncoding=UTF-8</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName& ...

2014-08-15 09:21
浏览 842
评论(0)
分类:编程语言

HIVE 窗口及分析函数

博客分类：

hive

HIVE 窗口及分析函数使用场景 www.MyException.Cn 发布于：2013-07-20 11:07:48 浏览：49次 1 HIVE 窗口及分析函数应用场景窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析� ...

2014-08-11 16:21
浏览 1155
评论(0)
分类:编程语言

hive 内置函数

博客分类：

hive

1.sort_array(): sort_array(array(obj1, obj2,...)) - Sorts the input array in ascending order according to the natural ordering of the array elements. Example: >SELECT sort_array(array('b', 'd', 'c', 'a')) FROM src LIMIT 1; 'a', 'b', 'c', 'd' 2.ads(): abs(x) - returns the absolute value of x Ex ...

2014-08-11 09:06
浏览 3029
评论(0)
分类:编程语言

hive lateral view

博客分类：

hive

通过Lateral view可以方便的将UDTF得到的行转列的结果集合在一起提供服务。因为直接在SELECT使用UDTF会存在限制，即仅仅能包含单个字段，如下： hive> select my_test(“abcef:aa”) as qq,my_test(“abcef:aa”) as ww from sunwg01; FAILED: Error in semantic analysis: Only a single expression in the SELECT clause is supported with UDTF’s hive> select my_test(“abc ...

2014-08-09 14:59
浏览 1992
评论(0)
分类:编程语言

hive数据的导出

博客分类：

hive

在本博客的《Hive几种数据导入方式》文章中，谈到了Hive中几种数据的导入方式，不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样，将这些方式分为三种：（1）、导出到本地文件系统；（2）、导出到HDFS中；（3）、导出到Hive的另一个表中。为了避免单纯的文字，我将一步一步地用命令进行说明。　　一、导出到本地文件系统　　 hive> insert overwrite local directory '/home/wyp/wyp' > select * from wyp; 　　这条HQL的执行需要启用Mapredu ...

2014-07-28 21:53
浏览 420
评论(0)
分类:编程语言

hive udaf

博客分类：

hive

package com.lwz.udaf; import org.apache.hadoop.hive.ql.exec.UDAF; import org.apache.hadoop.hive.ql.exec.UDAFEvaluator; //1.此函数区分一条记录的方法，如果没有group by和where的检索，那么整个表的数据都会被作为一条数据，从而只会init（）一次 //然后再把这条数据根据表里面的行数依次进行iterator()，再把iterator（）方法返回的结果通过terminatePartial()返回，当再次 //进行iterator()时，结果就会累加，当最后通过term ...

2014-07-25 16:11
浏览 719
评论(0)
分类:编程语言

hbase scan问题

博客分类：

hbase

1.通过scan取完数据后，记得要关闭ResultScanner，否则RegionServer可能会出现问题 2.scan时指定需要的Column Family，可以减少网络传输数据量，否则默认scan操作会返回整行所有Column Family的数据。 3.通过调用HTable.setScannerCaching(int scannerCaching)可以设置HBase scanner一次从服务端抓取的数据条数，默认情况下一次一条。通过将此值设置成一个合理的值，可以减少scan过程中next()的时间开销，代价是scanner需要通过客户端的内存来维 ...

2014-07-25 10:52
浏览 819
评论(0)
分类:编程语言

hive自定义InputFormat

博客分类：

hive

自定义分隔符 package com.lwz.inputf; import java.io.IOException; import java.io.InputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; ...

2014-07-25 09:13
浏览 821
评论(0)
分类:编程语言

HiveServer2连接ZooKeeper出现Too many connections问题的解决

博客分类：

hive

HiveServer2连接ZooKeeper出现Too many connections问题的解决作者: 大圆那些事 | 文章可以转载，请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2013/03/23/hiveserver2-too-many-zookeeper-connections-issues.html HiveServer2支持多客户端的并发访问，使用ZooKeeper来管理Hive表的读写锁。实际环境中，遇到了HiveServer2连接ZooKeeper出现Too many connecti ...

2014-07-24 08:49
浏览 1695
评论(0)
分类:编程语言

hive 常用命令

博客分类：

hive

1.hive通过外部设置参数传入脚本中： hive -hiveconf enter_school_date="20130902" -hiveconf min_ag="26" -f testvar.sql 脚本调用参数：use test; select * from student where pdate='${hiveconf:enter_school_date}' and sage > '${hiveconf:min_ag}' limit 8;

2014-07-17 22:22
浏览 643
评论(0)
分类:编程语言

hadoop配置的修改

博客分类：

hadoop

1.修改/etc目录下yarn-site.xml的配置,重启机器配置不生效修改/var/run/clouder-scm-agent目录下yarn-site.xml的配置,重启节点配置不生效在cloudera manager控制面板中在服务yarn中查看和编辑下的默认中高级选项内,能修改yarn-site.xml配置,重启集群生效

2014-07-17 09:25
浏览 1344
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Azkaban的安装

Hive 中内部表与外部表的区别与创建方法

hive map和reduce的控制

hive 压缩策略

hive 在mysql中创建备用数据库

HIVE 窗口及分析函数

hive 内置函数

hive lateral view

hive数据的导出

hive udaf

hbase scan问题

hive自定义InputFormat

HiveServer2连接ZooKeeper出现Too many connections问题的解决

hive 常用命令

hadoop配置的修改

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>