设为首页收藏本站

小牛社区-大数据学习交流社区|大数据免费学习资源

 找回密码
 立即注册!

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 914|回复: 0

hadoop笔记本

[复制链接]

3205

主题

3588

帖子

1万

积分

管理员

Rank: 18Rank: 18Rank: 18Rank: 18Rank: 18

积分
15121
发表于 2016-6-4 12:20:41 | 显示全部楼层 |阅读模式
海量数据
    那些年Google公开的大数据领域论文
    大数据量,海量数据 处理方法总结
    布隆过滤器应用
    Google Dremel 原理 – 如何能3秒分析1PB
    Google Spanner原理- 全球级的分布式数据库


    悉数那些“巨型”数据仓库
    Hadoop在业界的使用情况
    淘宝Hadoop集群的概况
    淘宝数据魔方技术架构解析

    Facebook的实时Hadoop系统
    Apache Hadoop Goes Realtime at Facebook(译)
数据统计
  网站统计中的数据收集原理及实现
数据挖掘
  一个电商数据分析师的经验总结

  五个免费开源的数据挖掘软件
  Google推出Prediction API

  K Nearest Neighbor 算法(归类)
  K-Means 算法(聚类)
  kmeans算法java版本
  
hadoop2
  hadoop2升级的那点事情(详解)

hadoop
  介绍
    Hadoop分布式文件系统:架构和设计要点
    mapreduce作业流程概论
    Hadoop使用场景
  管理
    hadoop集群部署
    hadoop部署注意项
    hadoop配置文件说明
    hadoop集群默认配置和常用配置
     hadoop集群测量
    Hadoop管理员的十个最佳实践
    Hadoop 权限管理

    Hadoop FS Shell
    Hadoop Shell 讲解
    hadoop fs -count的结果含义

    Hadoop添加节点datanode
    Hadoop删除节点
    hadoop SecondaryNameNode和NameNode
    hadoop 根据SecondaryNameNode恢复Namenode
    hadoop机架感知

    HDFS 安全模式
    hadoop的dfs.replication
    Hadoop回收站trash
    hadoop升级

    Hadoop计算能力调度器算法解析
    Hadoop计算能力调度器应用和配置
    hadoop mapred-queue-acls 配置

    hadoop和kerberos的整合总结
    hadoop的dfs.umask

    NFS服务对Hadoop(hdfs)集群影响测试
    Facebook团队关于Hadoop/HBase在SSD上的实验和讨论

    HADOOP动态加载配置
    基于计算机资源分析hadoop的默认counter
  调优
    hadoop作业调优参数整理及原理
  原理实现
    
    HDFS的基本概念
    HDFS 读写流程
    HDFS namenode源码分析
    HDFS datanode源码分析
     HDFS dfsclient读文件过程 源码分析
     HDFS dfsclient写文件过程 源码分析
    How MapReduce Works
    MapReduce源码分析总结

     eclipse下编译hadoop源代码
    基于hadoop的crc校验谈hadoop的离线设计思想
    Hadoop在MapReduce中使用压缩详解
    HDFS数据的Checksum
    Hadoop开发常用的InputFormat和OutputFormat
    Hadoop之failed task和killed task
    Hadoop的调度器总结
hive
  Hive体系架构
  应用
    Hadoop和Hive的数据处理流程
  管理
    hive部署手册
    hive元数据中utf8的修改
     hive并发调用的运行方式-个人经验篇
    
    hive Cli常用操作(翻译自Hive wiki)
    hive数据类型(翻译自Hive Wiki)

    hive 创建/删除/截断 表(翻译自Hive wiki)
    hive数据操作(翻译自Hive wiki+实例讲解)
    hive原生和复合类型的数据加载和使用
     hive修改 表/分区语句

    hive select操作(翻译自Hive wiki)
    hive GroupBy操作(翻译自Hive wiki)
      hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
    Hive Join(翻译自Hive wiki)
     hive lateral view语句(翻译自Hive wiki)
    Hive Union(翻译自Hive wiki)
    Hive子查询(翻译自Hive wiki)
     hive实例讲解实现in和not in子句
    Hive Explain(翻译自Hive wiki)
    Hive虚拟列(翻译自Hive wiki)
    hive 锁定(翻译自Hive wiki)

      hive函数(Hive wiki)
    hive udf开发流程(Hive wiki)
    hive udaf开发入门和运行过程详解
    hive中UDTF编写和使用
    hive属性(Hive wiki)

    hive中分组取前N个值的实现

    hive sql遇到的问题
  优化
    hive大数据倾斜总结
    hive join详解
    
    hive文件存储格式

    hive怎样决定reducer个数
    hive的hive.exec.parallel参数说明
    hive local hadoop特性    
pig
  介绍入门
    Apache Pig入门 –介绍/基本架构/与Hive对比
  管理
    pig部署手册
  教程
    Apache Pig中文教程集合
zookeeper
  ZooKeeper概述
  部署与管理ZooKeeper
  ZooKeeper典型应用场景
  ZooKeeper程序员指南
  Zookeeper Api(java)入门与应用
  zookeeper java例子(官网)
  zookeeper 生产者与消费者(官网)
  zookeeper 应用场景与方案(官网)

  ZooKeeper 会话超时
  Watcher使用的注意事项
  zookeeper 权限控制

  Paxos在大型系统中常见的应用场景
  Zookeeper全解析——Paxos作为灵魂
  Zookeeper全解析——Client端
  zookeeper系列之通信模型

hbase
  HBase体系结构

  hbase数据模型
   HBase使用场景和成功案例

  Hbase配置手册
  hbase shell(官方)
  hbase shell基础和常用命令详解
  Hive HBase集成(官网)

  HBase Java API类介绍
  通过Java Api与HBase交互
  HBase二级索引与Join
  HBase配置性能调优
  HBase设计与开发性能优化
  
  HBase 在淘宝的应用和优化

  (H2与HBase)面向行or面向列的存储模型
  HBase查询一条数据的过程
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册!

本版积分规则

快速回复 返回顶部 返回列表