设为首页收藏本站

小牛社区-大数据学习交流社区|大数据免费学习资源

 找回密码
 立即注册!

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 45|回复: 0

数据科学之大数据分支——spark

[复制链接]

125

主题

0

帖子

16

积分

吃土小白

Rank: 1

积分
16
发表于 7 天前 | 显示全部楼层 |阅读模式
hi,all:

前几天给大家重点介绍了信息论和概率论相关的知识点,偏理论,公式也很多,消化起来比较困难,给大家思路放个假,今天我们来一起学习一下一个大数据技术工具:spark
spark大家一定非常熟悉,如同数据科学小白的名字一样,我在spark技术上也算一个小白,之前多是在已经搭建好的spark集群上完成既定的作业,实现数据科学任务,今天我就带着大家一块总结一下spark的相关重要概念,同时带着大家以mac为基础搭建个人的spark环境。本文主要从以下几块完成今天的分享:一、spark介绍;二、spark安装mac
一、spark介绍
介绍spark之前不得不提一下hadoop技术。

hadoop技术的背景就不介绍了,重点给出hadoop的两个最关键技术:
(1)MapReduce 提供海量数据的计算
(2)HDFS 为海量数据提供了分布式存储
但是因为MapReduce存在操作不灵活的原因,目前主流的技术是spark+HDFS。

spark是通用的并行计算框架,基于MapReduce实现分布式计算,其中间结果可以保存至内存中,从而不需要读写HDFS。其特点:

(1)使用scala语言,简单方便(这里在安装的时候有个版本的坑)
(2)计算快速
(3)高容错
(4)操作丰富
(5)广播
spark技术的核心概念是RDD(Resilient Distributed Datasets弹性分布式数据集)。RDD是一种只读的、分区的记录集合。spark借助RDD实现对类存的管理。常见的操作如下:
(1)转换(transformation):生成新的RDD。(map/filter/groupBy/join)
(2)动作(action):将RDD上的某项操作的结果返回给程序,不产生RDD。(count/reduce/collect/save)
spark的典型应用场景包含:
(1)迭代式算法:迭代式机器学习、图算法、包含LR、pagerank、K-means
(2)交互式数据挖掘工具:用户在同一个数据集上运行多个Adhoc查询
spark的计算框架如下:

spark结构
关于spark的调度过程,这里也不做重点介绍了,感兴趣的同学,可以百度或者知乎上进行搜索学习。
二、spark 安装 mac环境
基于mac环境下的spark安装,一共分为两种模式:一种是下载解压式;一种brew install式。
整体上都没有太大的差别,关键在于两点坑:1、spark对应的java以及scala版本需要一一匹配,如果不清楚,可以到spark官网上查看阅读版本号;2、系统路径配置是必不可少的。
下面以brew install方式作为介绍:
(1)确认需要安装的spark版本以及java版本号,建议安装2.0.0

版本号控制
(2)如果都没有,优先安装java 1.8.x
brew tap caskroom/versions brew cask search java brew cask install java8(3)安装scala
brew search scalabrew install scala@2.11(4)检查系统路径,并补充,这里以/etc/profile 为例,实际路径以安装具体路径为准:
sudo vim /etc/profile在最后加上如下系统环境
系统路径
(5)spark 安装:spark部分主要依赖于官网下载: http://spark.apache.org/downloads.html
找到2.0.0的版本下载,病使用tar -zxvf 进行解压,同样将系统路径添加到/etc/profile中:
SPARK_HOME=/home/spark/spark-lectures/spark-1.5.1-bin-hadoop2.6 (解压后的包所在的路径)
PATH=$PATH:${SPARK_HOME}/bin
(6)测试(大家下来一定要多实验实验,很快咱们可能就要进入实战了,不实战联系,看再多文章都没有用)

实验一:
spark-shell # 启动是否正常实验二:
cd xxx/bin./run-example SparkPi 10
测试结果
cd xxx/example 中还有很多实例,大家可以好好学习一下

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册!

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册!

本版积分规则

快速回复 返回顶部 返回列表