Haihua's blog

Live hard or Die hard


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

Hive升级全姿势

发表于 2017-09-10 | 分类于 Hive , Hadoop   |   热度  °C |
Hive0.13到2.1跨版本升级全姿势前一段时间我们团队对Hive进行了一次从0.13版本到2.1版本的跨版本升级,升级期间也遇到了一些问题,但是基本做到了可灰度、可控制和升级期间稳定性保证。不停服务这个属性通过本文分析也可以达到,但是我们的场景下接受服务暂停,所以停服务花了一个小时来进行最终的升级。 使用背景: 深度使用Hive的各项服务。 线上每天SQL总量80000+,包含各种正常的和奇 ...
阅读全文 »

Namenode内存分析

发表于 2016-12-25 | 分类于 Hadoop , JVM   |   热度  °C |
最近在学习JVM内存调优,顺便对于Namenode的内存分析了一把,发现还是有很多有意思但是危险的地方。 1 结论1.1 Namenode内存使用和趋势 截止2016年12月22号14点,集群的文件和文件夹总数量为293444427,block数量为348566581,堆内存总大小为148GB,Old区大小为130GB,堆内存使用为110GB~126GB。 目前Namenode常驻内存(详细定义 ...
阅读全文 »

Hive Metastore Server生产化实践

发表于 2016-11-18 | 分类于 Hive , Hadoop   |   热度  °C |
Hive Metastore保存了公司级别的核心元数据信息,所以其稳定性和高可用需求强烈。 如果Hive/Spark/客户端都使用直连MySQL访问方式,那么有诸多缺点: Metastore稳定性无法保证。 无法实现Hive审计日志。 无法实现Hive集中权限控制。 所以对于公司生产环境,强烈建议将Hive Metastore服务化,通过多台的Hive Metastore Server(以下简 ...
阅读全文 »

Spark诊断调优系统

发表于 2016-11-10 | 分类于 Spark , Troubleshooting   |   热度  °C |
动机(Motivation)对于Spark用户来说,只关心自己的业务逻辑,数据由输入到输出的pipeline,并不关注Spark应用任务执行情况和应用资源占用情况等信息。所以在提交和执行应用过程中,经常会遇到一些问题并向管理员询问,例如: Q: 我的应用为什么运行时间超长?A: 与应用相关的可能的原因有,业务逻辑设计不合理、算法需要优化、Executor GC时间太长、输入数据/计算倾斜,计 ...
阅读全文 »

Git命令使用总结

发表于 2016-11-10 | 分类于 Git , 生产效率   |   热度  °C |
git commit 修改上次提交的作者信息:git commit --amend --author='Your Name <you@example.com>' dad git stash 暂时存储现有未提交的内容:git stash 如果需要恢复,首先查看stash列表:git stash list 恢复stash内容:git stash apply 删除stash ...
阅读全文 »

Spark堆外内存管理总结

发表于 2016-09-28 | 分类于 Spark , Memory   |   热度  °C |
现状目前spark1.6版本,只能实现Execution memory部分使用堆外内存,不能实现Storage memory存储RDD使用堆外内存。 对于堆外内存的使用,目前非SQL类Spark应用使用较少,shuffle和aggregation等场景(具体使用需要跟踪下代码进行总结分类)下会使用到,因为其Schema信息相对于SQL的RDD较复杂,而SQL中的RDD数据均为简单类型数据,因此SQ ...
阅读全文 »

HDFS配额总结

发表于 2016-08-01 | 分类于 Hadoop , HDFS , 大数据平台   |   热度  °C |
HDFS允许管理员给私人目录设置其下面文件夹和文件的总数量配额,或空间使用总量配额。所以HDFS配额的对象是目录,而非用户。如果需要实现用户级别的配额,则需要采用第三方系统进行逻辑管理并映射到文件夹配额。 在往有配额的目录中写数据时,如果超过限额,会提示DSQuotaExceededException异常,所以提早提醒文件夹所属的用户非常有意义。 文件数配额(Name Quota)文件数配额指的是 ...
阅读全文 »

Spark集群自动部署脚本

发表于 2016-02-28 | 分类于 Spark , 大数据平台   |   热度  °C |
最近需要进行Spark多节点的部署和切换,以及日志收集和统计。所以在一位师兄的版本上写了一些多节点部署的工具。 本工具有一些需要Expect工具的支持实现SSH用户名和密码自动登录。 Spark自动部署工具Github地址:https://github.com/ericsahit/SparkDeployTools 1. linux\mscp一键多节点拷贝,使用expect进行远程ssh登陆。可以实 ...
阅读全文 »
Wang Haihua

Wang Haihua

学习总结 思考感悟 知识总结

8 日志
12 分类
13 标签
GitHub Zhihu Linkedin
© 2017 Wang Haihua
由 Hexo 强力驱动
|
主题 — NexT.Mist v5.1.2