Spark 1.6.0 新手快速入门

来自： http://developer.51cto.com/art/201603/506634.htm

本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用，然后介绍如何使用Java、Scala以及Python编写Spark应用。详细的介绍请阅读 Spark Programming Guide 。

在按照本文进行操作之前，请确保已安装Spark。本文中的所有操作没有使用HDFS，所以您可以安装任何版本的Hadoop。

Spark交互式Shell的使用

基础

Spark的交互式Shell提供了一个简单的方式来学习Spark的API，同时也提供了强大的交互式数据处理能力。Spark Shell支持Scala和Python两种语言。启动支持Scala的Spark Shell方式为

./bin/spark-shell

Spark最重要的一个抽象概念是弹性分布式数据集(Resilient Distributed Dataset)简称RDD。RDDs可以通过Hadoop InputFormats(例如HDFS文件)创建，也可以由其它RDDs转换而来。下面的例子是通过加载Spark目录下的README.md文件生成 RDD的例子：

scala> val textFile = sc.textFile("README.md")  textFile: spark.RDD[String] = spark.MappedRDD@2ee9b6e3

RDDs有两种操作：

actions：返回计算值
transformations：返回一个新RDDs的引用

actions示例如下：

scala> textFile.count() // Number of items in this RDD  res0: Long = 126    scala> textFile.first() // First item in this RDD  res1: String = # Apache Spark

如下transformations示例，使用filter操作返回了一个新的RDD，该RDD为文件中数据项的子集，该子集符合过滤条件：

scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))  linesWithSpark: spark.RDD[String] = spark.FilteredRDD@7dd4af09

Spark也支持将actions和transformations一起使用：

scala> textFile.filter(line => line.contains("Spark")).count() // How many lines contain "Spark"?  res3: Long = 15

缓存

Spark支持将数据缓存到集群的分布式内存中。在数据会被重复访问的情况下，将数据缓存到内存能减少数据访问时间，从而提高运行效率。尤其是在数据分布在几十或几百个节点上时，效果更加明显。下面为将数据linesWithSpark缓存到内存的示例：

scala> linesWithSpark.cache()  res7: spark.RDD[String] = spark.FilteredRDD@17e51082    scala> linesWithSpark.count()  res8: Long = 19    scala> linesWithSpark.count()  res9: Long = 19

独立应用

假设我们想使用Spark API编写独立应用程序。我们可以使用Scala、Java和Python轻松的编写Spark应用。下面示例为一个简单的应用示例:

Scala

/* SimpleApp.scala */  import org.apache.spark.SparkContext  import org.apache.spark.SparkContext._  import org.apache.spark.SparkConf    object SimpleApp {    def main(args: Array[String]) {      val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system      val conf = new SparkConf().setAppName("Simple Application")      val sc = new SparkContext(conf)      val logData = sc.textFile(logFile, 2).cache()      val numAs = logData.filter(line => line.contains("a")).count()      val numBs = logData.filter(line => line.contains("b")).count()      println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))    }  }

上面程序分别统计了README中包含字符‘a’以及‘b’的行数。与前面Spark shell例子不同的是，我们需要初始化SparkContext。

我们通过SparkContext创建了一个SparkConf对象，SparkConf对象包含应用的基本信息。

我们基于Spark API编写应用，所以我们需要编写一个名为“simple.sbt”的sbt配置文件，用于指明Spark为该应用的一个依赖。下面的sbt配置文件示例中，还增加了Spark的一个依赖库“spark-core”:

name := "Simple Project"    version := "1.0"    scalaVersion := "2.10.5"    libraryDependencies += "org.apache.spark" %% "spark-core" % "1.6.0"

为了让sbt正确执行，我们需要对SimpleApp.scala和simple.sbt根据sbt要求的目录结构布局。如果布局正确，就可以生成该应用的JAR包，使用spark-submit命令即可运行该程序。

Javaga

/* SimpleApp.java */  import org.apache.spark.api.java.*;  import org.apache.spark.SparkConf;  import org.apache.spark.api.java.function.Function;    public class SimpleApp {    public static void main(String[] args) {      String logFile = "YOUR_SPARK_HOME/README.md"; // Should be some file on your system      SparkConf conf = new SparkConf().setAppName("Simple Application");      JavaSparkContext sc = new JavaSparkContext(conf);      JavaRDD              logData = sc.textFile(logFile).cache();      long numAs = logData.filter(new Function

该示例的代码逻辑同上一段Scala示例代码。与Scala示例类似，首先初始化了SparkContext，通过SparkContext创建了JavaSparkContext对象。并创建了RDDs以及执行transformations操作。最后，通过继承了spark.api.java.function.Function的类将函数传给Spark。

在这里，使用Maven进行编译，Maven的pom.xml如下：

<project>     <groupId>edu.berkeley</groupId>     <artifactId>simple-project</artifactId>     <modelVersion>4.0.0</modelVersion>     <name>Simple Project</name>     <packaging>jar</packaging>     <version>1.0</version>     <dependencies>       <dependency> <!-- Spark dependency -->         <groupId>org.apache.spark</groupId>         <artifactId>spark-core_2.10</artifactId>         <version>1.6.0</version>       </dependency>     </dependencies>   </project>

按照Maven的要求架构配置文件位置：

$ find .  ./pom.xml  ./src  ./src/main  ./src/main/java  ./src/main/java/SimpleApp.java

现在，就可以使用Maven打包应用，以及使用命令./bin/spark-submit.执行该应用程序。示例如下：

# Package a JAR containing your application  $ mvn package  ...  [INFO] Building jar: {..}/{..}/target/simple-project-1.0.jar    # Use spark-submit to run your application  $ YOUR_SPARK_HOME/bin/spark-submit \    --class "SimpleApp" \    --master local[4] \    target/simple-project-1.0.jar  ...  Lines with a: 46, Lines with b: 23

转载请注明出处：http://www.cnblogs.com/BYRans/

本文由用户 k9988xhil 自行上传分享，仅供网友学习交流。所有权归原作者，若您的权利被侵害，请联系管理员。

转载本站原创文章，请注明出处，并保留原始链接、图片水印。

本站是一个以用户分享为主的开源技术平台，欢迎各类分享！

本文地址：https://www.open-open.com/lib/view/open1456892003187.html

热门搜索

Spark 1.6.0 新手快速入门

Spark交互式Shell的使用

基础

更多RDD操作(More on RDD Operations)

缓存

独立应用