Hadoop和hive-exec-3.1.2的Guava的版本冲突导致Flink任务启动异常

一、背景

1、出现异常

公司准备从CDH迁回社区版Hadoop集群,直接把Hadoop升级为比较新的3.30版本,Hive升级为3.12版本。Flink编译的是1.12.0版本,启动自己的测试直接报出下面的错,甚至启动官方的demo任务也会报相同的错。

Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument (ZLjava/lang/String;Ljava/lang/Object;)V.

通过网上的查找和经验就可以知道这Guava里的方法,肯定Guava的版本冲突了。

2、找到异常产生的原因

虽然知道是Guava的版本冲突造成的原因但是那时候并不知道是Hadoop和Hive的版本冲突了,那时候就觉得是lib包下的jar包和新的Hadoop集群依赖冲突了。

目前flink/lib包下的jar包:

**-rw-r--r-- 1 hadoop   hadoop     6319023 1月  26 10:20 flink-connector-hive_2.11-1.12.0.jar**
-rw-r--r-- 1 yujianbo hadoop       91776 1月  26 09:20 flink-csv-1.12.0.jar
-rw-r--r-- 1 yujianbo hadoop   114167540 1月  26 09:20 flink-dist_2.11-1.12.0.jar
-rw-r--r-- 1 yujianbo hadoop      137036 1月  26 09:20 flink-json-1.12.0.jar
**-rwxr-xr-x 1 yujianbo hadoop      993469 1月  26 09:20 flink-metrics-influxdb_2.11-1.12.0.jar**
-rw-r--r-- 1 yujianbo hadoop     7709742 1月  26 09:20 flink-shaded-zookeeper-3.4.14.jar
-rw-r--r-- 1 yujianbo hadoop    36147650 1月  26 09:20 flink-table_2.11-1.12.0.jar
-rw-r--r-- 1 yujianbo hadoop    40311328 1月  26 09:20 flink-table-blink_2.11-1.12.0.jar
-rw-r--r-- 1 hadoop   hadoop     4288658 1月  26 13:39 hadoop-common-3.3.0.jar
**-rw-r--r-- 1 hadoop   hadoop      805467 1月  26 13:40 hadoop-mapreduce-client-common-3.3.0.jar
-rw-r--r-- 1 hadoop   hadoop     1624056 1月  26 13:40 hadoop-mapreduce-client-core-3.3.0.jar
-rw-r--r-- 1 hadoop   hadoop      182043 1月  26 13:40 hadoop-mapreduce-client-hs-3.3.0.jar
-rw-r--r-- 1 hadoop   hadoop       50699 1月  26 13:40 hadoop-mapreduce-client-jobclient-3.3.0.jar
-rw-r--r-- 1 yujianbo yujianbo  40757406 1月  26 18:40 hive-exec-3.1.2.jar
-rw-r--r-- 1 yujianbo yujianbo    313702 1月  26 18:41 libfb303-0.9.3.jar**
-rw-r--r-- 1 yujianbo hadoop       67114 1月  26 09:20 log4j-1.2-api-2.12.1.jar
-rw-r--r-- 1 yujianbo hadoop      276771 1月  26 09:20 log4j-api-2.12.1.jar
-rw-r--r-- 1 yujianbo hadoop     1674433 1月  26 09:20 log4j-core-2.12.1.jar
-rw-r--r-- 1 yujianbo hadoop       23518 1月  26 09:20 log4j-slf4j-impl-2.12.1.jar

上面加粗都是编译后加入的,所以首先先去掉全部的包,先跑官方的demo WordCount看看会不会有依赖冲突,发现没有,最终一个个去试,发现加入hive-exec-3.1.2.jar就会报错,我之前还多加了一个flink-sql-connector-hive-3.1.2_2.11-1.12.0.jar,这个也会异常,后面看了源码flink-sql-connector-hive-3.1.2这个包里的pom文件可以看到他也引入了hive的exec。所以参考官网https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/hive/#dependencies,在配置连接hive时我选择方案二。选择方案一也行,首先要编译出合适Guava版本的hive-exec上传你的私服,然后再把这个pom换成你的版本的hive-exec,重新编译flink-sql-connector-hive-3.1.2_2.11-1.12.0.jar这个jar。

<dependency>
     ** <groupId>org.apache.hive</groupId>
      <artifactId>hive-exec</artifactId>
      <version>3.1.2</version>**
      <exclusions>
        <exclusion>
          <groupId>log4j</groupId>
          <artifactId>log4j</artifactId>
        </exclusion>
        <exclusion>
          <groupId>org.slf4j</groupId>
          <artifactId>slf4j-log4j12</artifactId>
        </exclusion>
      </exclusions>
    </dependency>

3、反编译hive-exec-3.1.2.jar发现Guava的版本是19.0

目录:META-INF.maven.com.google.guava.guava(推荐反编译工具JD-GUI,拖拉拽就能看)

image

二、重新编译hive-exec-3.1.2.jar包,替换里面的Guava版本解决异常

1、我们公司的集群的Guava版本

/usr/local/hadoop-3.3.0/share/hadoop/yarn/csi/lib/guava-20.0.jar
/usr/local/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0-jre.jar
/usr/local/apache-hive-3.1.2-bin/lib/guava-20.0.jar

hive-exec-3.1.2.jar  >>   guava-19.0.jar

2、编译hive-exec-3.1.2.jar

(1)把hive源码拉下来,切换3.1.2分支

(2)找到ql[hive-exec]项目模块

(3)可以看到ql[hive-exec]模块引入的Guava版本是父依赖的,所以要修改父依赖的版本即可。

由于如果将hive-exec的Guava版本改成27.0-jre版本,发现需要改很多的源码,所以决定先把版本降到20.0试试看看能不能解决依赖冲突,同时我们的集群的yarn和hive的lib引入的Guava的版本都是20.0的版本。

(4)经过测试,通过将hive-exec-3.1.2.jar中的Guava的27.0-jre版本改成20.0版本放到flink/lib目录里即可解决,无需再替换hive/lib目录下的hive-exec-3.1.2.jar

三、相关参考(我在jira提的issu以及在flink社区邮件提问)

https://issues.apache.org/jira/browse/FLINK-21142

http://apache-flink.147419.n8.nabble.com/Caused-by-java-lang-NoSuchMethodError-com-google-common-base-Preconditions-checkArgument-ZLjava-langV-td10474.html

引一段Rui Li大佬提供的解决方式:(我这里就是参考了Rui Li的第一种解决方式,采取的版本是改成20.0)

估计是Hadoop跟hive的guava版本冲突,Hadoop-3.3依赖的版本是27 [1],hive-3.1.2依赖的版本是19
[2]。另外请注意hive-3.1.2依赖的Hadoop版本是3.1.0 [3],一般不建议runtime的Hadoop版本高于hive依赖的版本。

解决方案一是在hive-exec里对guava做relocation,这个需要自己手动给hive-exec重新打包。
另一个办法是降低Hadoop版本,这里不一定需要降低集群的Hadoop版本,而是仅仅降低flink和hive这边用到的Hadoop版本,相当于用老的Hadoop
client去访问新的Hadoop server,这个小版本的兼容性一般来说是没问题的。

[1] https://issues.apache.org/jira/browse/HADOOP-16210
[2] https://github.com/apache/hive/blob/rel/release-3.1.2/pom.xml#L147
[3] https://github.com/apache/hive/blob/rel/release-3.1.2/pom.xml#L150

推荐阅读更多精彩内容