Hive升级全姿势

发表于 2017-09-10 | 分类于 Hive ， Hadoop | 热度 °C |

Hive0.13到2.1跨版本升级全姿势前一段时间我们团队对Hive进行了一次从0.13版本到2.1版本的跨版本升级，升级期间也遇到了一些问题，但是基本做到了可灰度、可控制和升级期间稳定性保证。不停服务这个属性通过本文分析也可以达到，但是我们的场景下接受服务暂停，所以停服务花了一个小时来进行最终的升级。使用背景：深度使用Hive的各项服务。线上每天SQL总量80000+，包含各种正常的和奇 ...

阅读全文 »

Namenode内存分析

发表于 2016-12-25 | 分类于 Hadoop ， JVM | 热度 °C |

最近在学习JVM内存调优,顺便对于Namenode的内存分析了一把,发现还是有很多有意思但是危险的地方。 1 结论1.1 Namenode内存使用和趋势截止2016年12月22号14点,集群的文件和文件夹总数量为293444427,block数量为348566581,堆内存总大小为148GB,Old区大小为130GB,堆内存使用为110GB~126GB。目前Namenode常驻内存(详细定义 ...

阅读全文 »

Hive Metastore Server生产化实践

发表于 2016-11-18 | 分类于 Hive ， Hadoop | 热度 °C |

Hive Metastore保存了公司级别的核心元数据信息,所以其稳定性和高可用需求强烈。如果Hive/Spark/客户端都使用直连MySQL访问方式,那么有诸多缺点: Metastore稳定性无法保证。无法实现Hive审计日志。无法实现Hive集中权限控制。所以对于公司生产环境,强烈建议将Hive Metastore服务化,通过多台的Hive Metastore Server(以下简 ...

阅读全文 »

Spark诊断调优系统

发表于 2016-11-10 | 分类于 Spark ， Troubleshooting | 热度 °C |

动机（Motivation）对于Spark用户来说，只关心自己的业务逻辑，数据由输入到输出的pipeline，并不关注Spark应用任务执行情况和应用资源占用情况等信息。所以在提交和执行应用过程中，经常会遇到一些问题并向管理员询问，例如： Q: 我的应用为什么运行时间超长？A: 与应用相关的可能的原因有，业务逻辑设计不合理、算法需要优化、Executor GC时间太长、输入数据/计算倾斜，计 ...

阅读全文 »

Git命令使用总结

发表于 2016-11-10 | 分类于 Git ，生产效率 | 热度 °C |

git commit 修改上次提交的作者信息：git commit --amend --author='Your Name <you@example.com>' dad git stash 暂时存储现有未提交的内容：git stash 如果需要恢复，首先查看stash列表：git stash list 恢复stash内容：git stash apply 删除stash ...

阅读全文 »

Spark堆外内存管理总结

发表于 2016-09-28 | 分类于 Spark ， Memory | 热度 °C |

现状目前spark1.6版本，只能实现Execution memory部分使用堆外内存，不能实现Storage memory存储RDD使用堆外内存。对于堆外内存的使用，目前非SQL类Spark应用使用较少，shuffle和aggregation等场景（具体使用需要跟踪下代码进行总结分类）下会使用到，因为其Schema信息相对于SQL的RDD较复杂，而SQL中的RDD数据均为简单类型数据，因此SQ ...

阅读全文 »

HDFS配额总结

发表于 2016-08-01 | 分类于 Hadoop ， HDFS ，大数据平台 | 热度 °C |

HDFS允许管理员给私人目录设置其下面文件夹和文件的总数量配额，或空间使用总量配额。所以HDFS配额的对象是目录，而非用户。如果需要实现用户级别的配额，则需要采用第三方系统进行逻辑管理并映射到文件夹配额。在往有配额的目录中写数据时，如果超过限额，会提示DSQuotaExceededException异常，所以提早提醒文件夹所属的用户非常有意义。文件数配额（Name Quota）文件数配额指的是 ...

阅读全文 »

Spark集群自动部署脚本

发表于 2016-02-28 | 分类于 Spark ，大数据平台 | 热度 °C |

最近需要进行Spark多节点的部署和切换，以及日志收集和统计。所以在一位师兄的版本上写了一些多节点部署的工具。本工具有一些需要Expect工具的支持实现SSH用户名和密码自动登录。 Spark自动部署工具Github地址：https://github.com/ericsahit/SparkDeployTools 1. linux\mscp一键多节点拷贝，使用expect进行远程ssh登陆。可以实 ...

阅读全文 »

Wang Haihua

学习总结思考感悟知识总结

GitHub Zhihu Linkedin