Spark1.2.0伪分布式安装
- JDK1.7.0_67
- Haddoop2.5.2(伪分布式安装)
- Scala2.11.4
- Spark1.2.0(伪分布式安装)
下载并配置Scala
1. 下载Scala2.11.4
wget http://downloads.typesafe.com/scala/2.11.4/scala-2.11.4.tgz?_ga=1.10268349.906591.1419820693
2. 改名
mv scala-2.11.4.tgz?_ga=1.10268349.906591.1419820693 scala-2.11.4.tgz
3. 配置Scala的环境变量
vim /etc/profile export SCALA_HOME=/home/hadoop/software/scala-2.11.4 export PATH=$SCALA_HOME/bin:$PATH
下载Spark1.2.0(与Hadoop2.4兼容版本)
1.下载Spark1.2.0与Hadoop2.4兼容版本
http://d3kbcqa49mib13.cloudfront.net/spark-1.2.0-bin-hadoop2.4.tgz
在本测试环境中,使用的是Hadoop2.5.2版本,测试发现,这个版本的Spark(2.4兼容版本)可以与Hadoop2.5.2兼容
2. 解压Spark安装包到如下目录
tar xzvf spark-1.2.0-bin-hadoop2.4.tgz /home/hadoop/software/spark-1.2.0-bin-hadoop2.4
配置Spark相关的环境变量
1. vim /etc/profile,编辑完成后使用source /etc/profile使得变量生效
export SPARK_HOME=/home/hadoop/software/spark-1.2.0-bin-hadoop2.4 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
这些需要配置的环境变量很多,不过之前在安装JDK,Scala和Hadoop时,已经设置过了,具体需要配置哪些环境,可以看配置spark-env.sh的配置。为了保险期间,可以设置如下的环境变量(在/etc/profile和spark-env.sh同时配置)
- SCALA_HOME
- JAVA_HOME
- HADOOP_HOME
- SPARK_HOME
- YARN_CONF_DIR
2. 把spark-env.sh.template改为spark-env.sh
cp spark-env.sh.template spark-env.sh
3. 配置spark-env.sh
export SCALA_HOME=/home/hadoop/software/scala-2.11.4 export JAVA_HOME=/home/hadoop/software/jdk1.7.0_67 export SPARK_MASTER=localhost export SPARK_LOCAL_IP=localhost export HADOOP_HOME=/home/hadoop/software/hadoop-2.5.2 export SPARK_HOME=/home/hadoop/software/spark-1.2.0-bin-hadoop2.4 export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
启动Spark
1. 在Spark安装目录的sbin目录下执行./start-all.sh命令启动Spark
$SPARK_HOME/sbin/start-all.sh
2. 启动过程中报rsync错误,不过通过查看Java进程可以看到Spark已经启动
可见,启动Spark后,启动了两个Java进程Master和Worker
3. 访问http://localhost:8080,可以看到Spark Master的状态
4. 访问如下地址可以查看关于Spark相关的情况
- http://192.168.26.135:4040/jobs
- http://192.168.26.135:4040/stages/
- http://192.168.26.135:4040/storage/
- http://192.168.26.135:4040/environment/ (包含Spark Shell的类路径)
- http://192.168.26.135:4040/executors/
由下图可见,Spark Shell启动后,只有一个Executor,即driver
Spark Shell运行Word Count
1. 启动Spark Shell
bin/spark-shell
第一次启动过程中用了4分钟,并且系统卡住没反应,不过以后再启动Spark Shell则很快,快则1,2秒,慢则10几秒。Spark Shell启动后,Spark启动了一个进程SparkSubmit
2. 运行Spark Word Count
2.1 Spark Shell启动后,进行入scala命令行模式,此时,Spark已经默认给我们创建了一个SparkContext,sc,如:
scala> sc res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@756cf002
2.2. 在Hadoop HDFS上创建一个文本文件,如:
hdfs dfs -cat /users/hadoop/wordcount/word.txt
内容是:
2.3 Spark读取HDFS上的文本文件word.txt
val file = sc.textFile("hdfs://hadoop.master:9000/users/hadoop/wordcount/word.txt")
这行语句的结果是创建了一个MappedRDD,即file的类型是MappedRDD,执行结果如下所示:
最后的<Console>:12,12指的是什么?不像是word.txt的字节数
2.3.0 题外话:
hdfs://hadoop.master:9000,这里的hadoop.master不能是localhost,因为telnet localhost 9000拒绝连接,如下图所示:
2.4. 执行如下操作
scala> val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)
结果:
可见count是ShuffledRDD类型
2.5 统计结果
scala> count.collect()
查看Spark Master和Spark Worker的运行结果
通过访问http://192.168.26.135:8080/和http://192.168.26.135:8081/,可以查看Spark Master和Spark Worker的运行状态。结果发现,Master上Completed Applications依然为0,原因不清楚, Spark Master UI不显示Spark Shell提交的任务?
参考:http://blog.csdn.net/yeruby/article/details/41042713
相关推荐
hadoop与spark分布式安装,内容详细,亲自搭建成功。助于新手
Spark standalone 分布式集群搭建,Spark standalone运行模式,Spark Standalone运行架构解析---Spark基本工作流程,Spark Standalone运行架构解析---Spark local cluster模式
对于 90%以上想学习 Spark 的人而言,如何构建 Spark 集群是其最大的难点之一, 为了解决大家构建 Spark 集群的一切困难,家林把 Spark 集群的构建分为了四个步骤,从 零起步,不需要任何前置知识,涵盖操作的每一个...
Spark伪分布式搭建配套包
伪分布式安装教程: Flume Hbase Spark Hive Kafka Sqoop zookeeper等分布式系统框架 备注:Hadoop安装教程当时忘记记录,后续也懒得弄,所以上传资料也暂无hadoop安装教程,尽请理解!!!!
1. 解压Spark安装包 2. 配置Spark环境变量 2. 修改 spark-env.sh 文件,完成以下设置: 1. 设置运行master进程的节点, e
第1章 安装VMWare Workstation 10;第2章 VMware 10安装CentOS 6;第3章 CentOS 6安装Hadoop;第4章 安装部署Spark;第5章Spark上机操作;第6章 开发Spark分布式程序
这一两年Spark技术很火,自己也凑一下热闹,主要是为了搭建Spark,但是Spark需要Hadoop的hdfs和yarn,所以需要先搭建Hadoop。本教程在Ubutnu 14.04 64位,Hadoop 2.6.0下验证通过,这里只列出命令与配置,不作详细...
第一章、Spark 基础环境 1.课程安排说明 2.Spark 框架概述 3.快速入门 4.Standalone集群及HA 5.Spark 应用开发入门 6.Spark 应用提交 7.Spark on YARN 8.应用部署模式DeployMode 第二章、SparkCore 模块 1.RDD 概念...
由于之前在网上找的关于Spark搭建的资料都很老旧,大多时1.1之前的版本,于是自己安装后总结了一些相关知识,希望能和初学者共勉,也希望各位大神批评指正
hadoop+spark分布式集群搭建及spark程序示例,例子程序为用二项逻辑斯蒂回归进行二分类分析和一个简单的求平均的程序,两种不同的运行方式
spark=2.4.0 sbt=1.3.8 flink=1.9.1 maven=3.6.3 建议配合主机的IntelliJ-IDEA的Bigdata拓展工具以及SSH服务进行远程操控使用。 3.本机密码都是“hadoop”。 4.mysql5.7用户名为"root",密码为"hadoop"。 5.使用...
BigDL,是 Intel 开源的一个基于 Apache Spark 的分布式深度学习库。使用 BigDL ,用户可以将他们的深度学习应用程序作为标准的 Spark 程序,它可以直接运行在现有的 Spark 或 Hadoop 集群之上。特性:丰富的深度...
星火网用于Spark的分布式神经网络。 详细信息可从。 在上提问!快速开始使用我们的AMI启动Spark集群创建一个AWS密钥和访问密钥。 说明。 运行export AWS_SECRET_ACCESS_KEY=并使用相关值export AWS_ACCESS_KEY_ID= ...
Hadoop2.8和Spark2.1完全分布式搭建详解
Spark分布式集群安装部署 .doc
对于 90%以上想学习 Spark 的人而言,如何构建 Spark 集群是其最大的难点之一, 为了解决大家构建 Spark 集群的一切困难,家林把 Spark 集群的构建分为了四个步骤,从 零起步,不需要任何前置知识,涵盖操作的每一个...
Spark中的(弹性分布式数据集)简称RDD: Spark中的Transformation操作之Value数据类型的算子: Spark中的Transformation操作之Key-Value数据类型的算子: Spark中的Action操作: Transformation->map算子: ...
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在...
Spark集群及开发环境搭建,适合...七、 Spark & Scala 集群安装 18 1. scala安装 18 2. spark安装 19 3. 测试spark集群 20 八、 Scala开发 20 1、插件下载 20 2、插件安装 21 3、scala开发 22 4、程序执行 22