必威体育Betway必威体育官网
当前位置:首页 > IT技术

一个简单的UDF小程序(HIVE)

时间:2019-10-17 10:14:19来源:IT技术作者:seo实验室小编阅读:81次「手机版」
 

udf

一个运行于HIVE的简单的UDF程序,可以作为对UDF的一个简单的入门,你自己也可以很容易的亲自实践。

主要包括以下步骤:

在hive中建一个测试用例表、编辑UDF的java程序、HIVE中添加JAR包并创建UDF临时函数

(1)在hive中建一个测试用例表(当然如果你已经有合适的数据可以跳过这一步)

create table littlebigdata
(
name string,
email string,
bday string
) 
row format delimited fields terminated by ',';

在根目录下(我的是在/root 目录)新建一个文件存放测试要用的数据,后面导入到测试表littlebigdata中。

测试数据:

zly,[email protected],10-18-1990
xiaozhu,[email protected],12-4-1990

load数据到hive中

加载表数据命令:

load data inpath '${env:HOME}/littlebigdata.txt' into table littlebigdata;

可以看到测试数据已经成功加载到表littlebigdata中了。

(2)编辑UDF的java程序

UDFZodiacSign.java (借鉴《hive编程指南》中的生日解析为星座的例子,这里做了简化,仅仅对月份做一个判断,当然你可   以扩展更加复杂的处理逻辑)。

package zly.udf;

import java.util.Date;
import java.text.simpledateformat;
import org.apache.hadoop.hive.ql.exec.UDF;


public class UDFZodiacSign extends UDF {
    private SimpleDateFormat df;

    public UDFZodiacSign(){
        df = new SimpleDateFormat("MM-dd-yyyy");
    }

    public String evaluate(Date bday){
        return this.evaluate( bday.getmonth(),bday.getDay() );
    }

    public String evaluate(String bday){
        Date date = null;
        try {
            date = df.parse(bday);
        }catch(Exception ex){
            return null;
        }

        return this.evaluate( date.getMonth()+1,date.getDay() );
    }

    public String  evaluate(integer month,Integer day){
         if(month==10){
             return "hello zly";
         }

         if(month==12){
             return "hello xiaozhu";
         }

         return null;
    }

}

编写一个UDF,需要继承UDF类并实现evaluate()函数。在查询执行过程中,查询中每个应用到这个函数的地方都会对这个类进行实例化。对于每行输入都会调用evaluate函数,而evaluate函数处理的结果会返回到hive。同时用户是可以重载evaluate函数的。HIVE会像java的重载一样,选择合适的函数版本。

注意,在UDF中,evaluate()函数的参数和返回值只能是HIVE可序列化的数据类型。null在HIVE中对于 任何数据类型都是合法的。

(3)编译打包java程序

使用maven编译打包Java程序

首先创建必要的目录结构:

mkdir -p src/main/java/UDFZodiacSign
然后将源文件放入UDFZodiacSign目录中

项目根目录(src同一级)下创建pom.xml文件,使用下面的pom.xml配置;

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>zly.udf</groupId>
  <artifactId>dateudf</artifactId>
  <version>1.0</version>

  <name>hive</name>
  <url>http://maven.apache.org</url>

  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  </properties>


  <dependencies>
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-exec</artifactId>
        <version>1.1.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.5.0</version>
    </dependency>
  </dependencies>
  <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.2</version>

                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                              <filter>
                                <artifact>*:*</artifact>
                                  <excludes>
                                     <exclude>META-INF/*.SF</exclude>
                                     <exclude>META-INF/*.DSA</exclude>
                                     <exclude>META-INF/*.RSA</exclude>
                                  </excludes>
                              </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
 </build>
</project>

mvn编译并打包程序(要保证环境是在联网的情况下,需要下载第三方依赖库)

mvn compile
mvn package

程序打包成功之后,jar文件放于target目录下:(class文件在classes目录)

(3)HIVE中添加JAR包并创建UDF临时函数

(填写你自己的JAR包的路径

add jar /home/soft/UDF/target/dateudf-1.0.jar;

创建临时函数:

create temporary function dateudf as 'zly.udf.UDFZodiacSign';

调用自定义UDF函数dateudf:

select name,bday,dateudf(bday) from littlebigdata;

可以看到,自定义UDF程序已经可以正确运行。

再次说明,UDF允许用户在HIVE语言中执行自定义的转换过程。通过上面的UDF,HIVE可以实现日期的一些处理了,当然也可以做其他的转换和聚合操作。

当我们使用完自定义UDF之后,可以通过下面的命令实现删除此函数:

drop temporary function if exists dateudf;

第一次编译运行UDF程序时,遇到了下面的问题:

程序编译和打包都可以成功,但是在HIVE中创建临时函数时,会报错:

经过度娘帮助,这个错误是因为在使用Maven打包的时候导致某些包的重复引用,以至于打包之后的META-INF的目录下多出了一些*.SF,*.DSA,*.RSA文件所致,我们可以在pom文件里面加入以下配置:

                        <configuration>
                            <filters>
                              <filter>
                                <artifact>*:*</artifact>
                                  <excludes>
                                     <exclude>META-INF/*.SF</exclude>
                                     <exclude>META-INF/*.DSA</exclude>
                                     <exclude>META-INF/*.RSA</exclude>
                                  </excludes>
                              </filter>
                            </filters>
                        </configuration>

当然,你也可以将报错的jar包解压,然后删除META-INF的目录下的*.SF,*.DSA,*.RSA文件,然后再打包即可。

参考:《HIVE编程指南》

相关阅读

【Hive】ifnull/nullif = coalesce/if

一、说明 hive中没有ifnull/nullif函数。 可用以下替代: - coalesce( value1,value2,… ) - if( value1 is null, value2, value

Hive入门及常用指令

Hive 最近在公司实习,对hive进行了学习,做了些整理的笔记。 基础命令 show databases; # 查看某个数据库 use 数据库; #

unix_timestamp 时间戳函数用法(hive)

一、unix_timestamp函数用法 1、unix_timestamp() 得到当前时间戳 2、如果参数date满足yyyy-MM-dd HH:mm:ss形式,则可以直接unix

Hive 中HQL中inner join,join, left join,full join区别

表t1 (id , data)数据:1,112, 223, 33表t2 (id, data)数据:1,112, 2244,44---------------------------注意:join默认是inner  join,就

unix_timestamp 时间戳函数用法(hive)

一、unix_timestamp函数用法1)返回当前时间的时间戳select unix_timestamp(); 2)如果参数date满足yyyy-MM-dd HH:mm:ss形式,则可以

分享到:

栏目导航

推荐阅读

热门阅读