如何安装单机版hadoop相关套件

这篇文章主要介绍如何安装单机版hadoop相关套件，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

成都网络公司-成都网站建设公司创新互联公司10年经验成就非凡，专业从事成都网站制作、网站设计，成都网页设计，成都网页制作，软文发布平台，1元广告等。10年来已成功提供全面的成都网站建设方案，打造行业特色的成都网站建设案例，建站热线：13518219792，我们期待您的来电！

hdfs 和 yarn

配置文件在 $HADOOP_HOME/etc/hadoop 目录下。

配置 hadoop-env.sh ，添加属性

# The java implementation to use.
export JAVA_HOME=/home/java/jdk1.8.0_191
export HADOOP_OPTS="$HADOOP_OPTS -Duser.timezone=GMT+08"

配置 core-site.xml


	  
    
        fs.defaultFS
        hdfs://hadoop-standalone:9000
    
	  
	
		hadoop.tmp.dir
		/home/data/hadoop
	
	
	
　　    hadoop.proxyuser.hadoop.hosts
		*
	
	
　　    hadoop.proxyuser.hadoop.groups
　      *

配置 hdfs-site.xml


   
        dfs.replication
        1
    
	
	
        dfs.permissions.enabled
        false
    
	
	
		dfs.webhdfs.enabled
		true

配置 mapred-site.xml


	
		mapreduce.framework.name
		yarn
	

	
	
		mapreduce.jobhistory.address
		hadoop-standalone:10020
	

	
		mapreduce.jobhistory.webapp.address
		hadoop-standalone:19888
	

	
	
		mapreduce.jobhistory.intermediate-done-dir
		/history/done_intermediate
	

	
	
		mapreduce.jobhistory.done-dir
		/history/done

配置 yarn-site.xml



	  
	
			yarn.nodemanager.aux-services
			mapreduce_shuffle
	
	  
	
			yarn.resourcemanager.hostname
			hadoop-standalone
	
	
	 
      yarn.log-aggregation-enable
      true
     

     
      yarn.nodemanager.log-aggregation.debug-enabled
      true
     

     
      yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds
      3600
     
	 
	
         yarn.log.server.url
         http://hadoop-standalone:19888/jobhistory/logs

yarn-env.sh 配置中添加

YARN_OPTS="$YARN_OPTS -Duser.timezone=GMT+08"

格式化namenode

hdfs namenode -format

分别启动 hdfs / yarn / jobhistory服务器

$HADOOP_HOME/sbin/start-dfs.sh

$HADOOP_HOME/sbin/start-yarn.sh

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

分别访问

http://hadoop-standalone:50070

http://hadoop-standalone:8088

spark on yarn

先安装scala, 再在系统的环境变量中配置SPARK_HOME

然后配置 spark-env.sh

export JAVA_HOME=/home/java/jdk1.8.0_191
export SCALA_HOME=/home/scala2.11.12
export HADOOP_HOME=/home/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export SPARK_LOCAL_DIRS=/home/data/spark

配置 spark-defaults.conf

spark.yarn.jars    hdfs://hadoop-standalone:9000/spark/share/lib/*.jar

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop-standalone:9000/spark/spark-events
spark.history.ui.port            18080
spark.history.retainedApplications    10
spark.history.fs.logDirectory    hdfs://hadoop-standalone:9000/spark/spark-events

spark的运行包上传到dfs

hdfs dfs -put $SPARK_HOME/jars/* /spark/share/lib

启动 spark history 服务器

$SPARK_HOME/sbin/start-history-server.sh

spark standalone 集群

master和slave都是同一台机子, 即管理者和工人都是自己

启动 spark master 和 slaves服务

$SPARK_HOME/sbin/start-master.sh

$SPARK_HOME/sbin/start-slaves.sh

下面是默认的端口

SPARK_MASTER_PORT=7077 # 提交任务的端口
SPARK_MASTER_WEBUI_PORT=8080 # webui端口，查看任务进程

打开页面 http://hadoop-standalone:8080/ , 可以看到有worker已经加入到集群

如何安装单机版hadoop相关套件

MySQL

用于一些组件的元数据，需要事先启动

hive

添加环境变量

#hive
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin

复制mysql的驱动程序到hive/lib

配置hive.env.sh

export HADOOP_HOME=/opt/hadoop-2.6.5 
# Hive Configuration Directory can be controlled by: export 
HIVE_CONF_DIR=/opt/hive-2.3.5/conf

修改log生成的目录。配置文件hive-log4j.properties。修改到你所需的目录

property.hive.log.dir = /opt/hive-2.3.5/logs

配置 hive-site.xml



 

	 
	  
	  hive.metastore.warehouse.dir  
	  /user/hive/warehouse   
	
	  
	
	  javax.jdo.option.ConnectionURL
	  jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&useSSL=false  
	  
	 
	
	  javax.jdo.option.ConnectionDriverName  
	  com.mysql.jdbc.Driver  
	 
	  
	  
	  javax.jdo.option.ConnectionUserName  
	  root
	 
	  
	  
	  javax.jdo.option.ConnectionPassword  
	  123456
	
	 
	 
	  hive.cli.print.header
	  true
	
	 
	
	  hive.cli.print.current.db
	  true
	 
	
	  
	    hive.metastore.port
	    9083
	    Hive metastore listener port
	  
	  
	    hive.server2.thrift.port
	    10000
	    Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.
	  
	
	
	 
		hive.metastore.local 
		false 
	 
	 
		hive.metastore.uris 
		thrift://192.168.56.140:9083 
	
	
	
	  hive.metastore.schema.verification
	  false

初始化hive的meta数据库(mysql)

schematool -dbType mysql -initSchema

如何安装单机版hadoop相关套件

启动hive的命令行客户端，试运行

hive

创建个数据库测试下：

create database test_connect_hive;

如何安装单机版hadoop相关套件

使用jdbc客户端连接hiveserver2

在hadoop/core-site.xml 添加配置。其中 root 是现在用的用户名（报错那里有）

	
　　    hadoop.proxyuser.root.hosts
		*
	
	
　　    hadoop.proxyuser.root.groups
　      *

修改hadoop要重启.

下面分别启动 metastore 访问服务和hiveserver2服务

nohup hive --service metastore >> /home/data/hive/metastore.log 2>&1 &
nohup  hive --service hiveserver2 >> /home/data/hive/hiveserver2.log 2>&1 &

通过 beelines 客户端连接 hiveserver2 测试。

beeline

输入连接的地址

!connect jdbc:hive2://localhost:10000

将hive的配置文件拷贝给spark

将 $HIVE_HOME/conf/hive-site.xml copy $SPARK_HOME/conf/

各资源的访问端口

dfs:  http://hadoop-standalone:50070/explorer.html#/
spark master(standalone): http://hadoop-standalone:8080
spark history: http://hadoop-standalone:18080/

以上是“如何安装单机版hadoop相关套件”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注创新互联行业资讯频道！

当前名称：如何安装单机版hadoop相关套件
标题路径：http://scjbc.cn/article/jdgdeo.html

如何安装单机版hadoop相关套件

hdfs 和 yarn

spark on yarn

spark standalone 集群

MySQL

hive

各资源的访问端口

其他资讯