设为首页收藏本站

小牛社区-大数据学习交流社区|大数据免费学习资源

 找回密码
 立即注册!

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 108|回复: 0

大数据分析中R语言能否结合Hadoop进行数据统计?内附大数据资料 ...

[复制链接]

136

主题

0

帖子

14

积分

吃土小白

Rank: 1

积分
14
发表于 7 天前 | 显示全部楼层 |阅读模式
说起R语言其实和MATLAB一样,是用于数据分析处理的,在某些方面甚至比MATLAB更加强大,在计算矩阵方面PYTHON完全没可比性,但R语言若是和Hadoop结合运行在集群上,是否可以做好大规模数据统计呢?
说到Hadoop的时候大多指Apache Hadoop项目,它是大数据分布式处理系统,Hadoop的命名起源于作者儿子的一个大象玩具。Apache Hadoop项目中最初包含HDFS(分布式存储系统)、MapReduce(分布式批处理计算)两个部分(Hadoop1.0),随着生产环境中性能和功能需求的增多,Hadoop逐渐演变成HDFS(仍然是分布式存储系统,但是架构在演变)、MapReduce(主要负责批处理计算)、Yarn(主要负责集群资源管理和调度)三个部分(Hadoop2.0)。

小编近日看到有同学要搭建一个通过hadoop上面跑R语言的环境,在填了很多坑之后,能够跑成功,但这样R语言究竟能不能进行分布式计算?因为我不是用的Hadoop+R,而是在Java的hadoop里面调用第三方的jar包,这个jar就是JRI(java调用R语言的jar包),最后一起打成一个jar用hadoop的命令去运行。所以小编觉得如果用Hadoop+R模式,有很多算法无法运行,而数据被分下去的话,在map或者reduce中调用R好像都不是很合适,因为返回的结果可能不可控制。

如果有同学对大数据Hadoop集群和R语言感兴趣,小编已经为大家整理好了Hadoop和R语言的相关资料,供大家学习。需要的同学私信联系小编即可。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册!

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册!

本版积分规则

快速回复 返回顶部 返回列表