【Dr.Elephant中文文档-8】调优建议

你可以使用Dr. Elephant来分析你的作业(只需在搜索页贴入你的作业ID),就可以知道你的作业有哪些地方需要优化。加速你的作业流一般对于特定的作业,最好有自己的配置。大多数情况下,作业的默认配置无法提供最佳性能。尽管作业调优比较费劲,但一些简单的调整往往也能带来不错的效果。需要特别注意的是mapper和reducer的数量,io和内存使用的配置,以及生成的文件数量。对这几个参数进行调整,让参数更适合当前的任务,可以极大的提升任务的执行性能。Apache的官网中Hadoo

【Dr.Elephant中文文档-7】自动调优

目标Dr.Elephant这个项目是希望构建一个可以自动优化hadoop mapreduce相关函数的调优框架。在这种情况下,是为了函数消耗最少的资源来完成作业。我们还希望在未来的版本将作业时间也作为函数资源消耗的参考指标。我们使用迭代算法和粒子群优化算法进行自动调优。这些迭代通过分析作业的多次运行结果来完成,我们已经在15-20次的作业中优化了20-30%的资源。自动优化从作业的默认参数开始,并且在每次运行之后计算判断当前参数是否适合,并且根据算法建议新的参数。为了与Dr.

【Dr.Elephant中文文档-6】度量指标和启发式算法

度量指标资源用量资源使用情况是你作业在GB小时内使用的资源量。计量统计我们将作业的资源使用量定义为任务容器大小和任务运行时间的乘积。因此,作业的资源使用量可以定义为mapper和reducer任务的资源使用量总和。范例12345678Consider a job with: 4 mappers with runtime {12, 15, 20, 30} mins. 4 reducers with runtime {10 , 12, 15, 18&

【Dr.Elephant中文文档-5】用户指南

本节介绍如何使用Dr.Elephant来进行任务查看,分析,搜索,比较等。仪表盘Dr.Elephant的启动首页正如你所见组件集群统计信息这个页面包含了集群最近的统计信息。列出了最近24小时分析过的作业数量,可进行优化的作业数量和待优化的作业数量。最新分析这一部分列出了最近一段时间分析的任务搜索页搜索页允许你通过一下选项过滤搜索作业和工作流:作业ID:输入作业的ID,可以搜索一个特定的任务或者任务流。返回作业详情页面。工作流执行ID/URL:使用作业流的执行ID或者URL(例

【Dr.Elephant中文文档-4】开发者指南

Dr.Elephant设置请按照快速安装说明操作here.先决条件Play/ActivatorHadoop/Spark on Yarn为了在本地部署Dr.Elephant测试,你需要安装Hadoop(version 2.x)或者Spark(Yarn mode, version > 1.4.0),以及资源管理服务和历史作业服务(可以用伪分布式)。关于伪分布式模式在YARN上运行MapReduce作业相关说明可以在这里找到。如果还没设置环境变量,可以导入HADOOP_HOM

【Dr.Elephant中文文档-3】快速安装说明

快速安装说明Step 1:在GitHub上注册一个账号,并fork一份Dr. Elephant项目代码。Step 2:检出代码。12$> git clone https://github.com/<username>/dr-elephant$> cd dr-elephant*Step 3:先决条件:你必须先安装play或者activator命令行。下载activatorzip包https://downloads.typesafe.com/typesaf

【Dr.Elephant中文文档-2】管理员指南

系统环境要求Dr. Elephant依赖于YARN的资源管理服务器和历史作业记录服务器,来获取作业详细信息和记录。YARN作业及其分析的详细信息将存储在当前配置的后端mysql中。因此在运行Dr. Elephant前,必须安装好MySQL和hadoop 2。从#162开始,将不再支持JAVA 6。集群部署Dr. Elephant部署配置将配置文件的目录复制到集群的每台机器上配置环境变量$ELEPHANT_CONF_DIR指向到你的配置文件目录1$> export ELE

【Dr.Elephant中文文档-1】Dr.Elephant简介

简介Dr. Elephant是一个Hadoop和Spark的性能监控和调优工具。它能自动采集作业的度量指标并分析他,然后以简单明了的方式展现出来。Dr. Elephant的设计思想是通过作业分析结果来指导开发者进行作业调优,从而提升开发者效率和集群资源的利用率。Dr. Elephant使用了一组可配置的插件式启发算法来分析hadoop和spark作业并提供优化建议。然后针对结果数据来建议如何调整作业。这个算法还计算了作业的许多其他度量标准,用来为集群作业优化提供了有价值的参考

pyenv实现多个python版本并存

pyenv实现多个python版本并存由于python 2和3存在不小的区别,尤其个别第三方库并不是都兼容,所以有时候我们需要在同一台服务器上运行多个不同的python版本1.安装pyenv(1)安装到$HOME/.pyenv目录:1git clone https://github.com/yyuu/pyenv.git ~/.pyenv(2)配置环境变量12echo 'export PYENV_ROOT=$HOME/.pyenv' >> ~/.bash_profi