您现在的位置是:主页 > 数据库技术 > 数据库技术

Borg使用策略是什么

IDCBT2022-01-12服务器技术人已围观

简介本篇内容介绍了“Borg使用策略是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读

本篇内容介绍了“Borg使用策略是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

使用效率

Borg的一个主要目的就是有效的利用Google的机器舰队,这可是一大笔财务投资:让效率提升几个百分点就能省下几百万美元。

1 测度方法论

我们的job部署是有资源约束的,而且很少碰到负载高峰,我们的机器是异构的,我们从service job回收利用的资源跑batch job。所以,为了测量我们需要一个比“平均利用率”更抽象的标准。在做了一些实验后我们选择了cell密度(cell compaction):给定一个负载,我们不断的从零开始(这样可以避免被一个倒霉的配置卡住),部署到尽可能小的Cell里面去,直到再也不能从这个cell里面抽机器出来。这提供了一个清晰的终止条件,并促进了无陷阱的自动化比较,这里的陷阱指的是综合化的工作负载和建模[31]。一个定量的比较和估算技术可以看[78],有不少微妙的细节。

我们不可能在线上的cell做性能实验,所以我们用了Fauxmaster来达到高保真的模拟效果,使用了真的在线cell的负载数据包括所有的约束、实际限制、保留和常用数据($5.5)。这些数据从2014-10-1 14:00 PDT的Borg快照(checkpoints)里面提取出来。(其他快照也产生类似的结论)。我们选取了15个Borg cell来出报告,先排除了特殊目的的、测试的、小的(<5000机器)的cell,然后从剩下的各种量级大小的cell中平均取样。

在压缩cell实验中为了保持机器异构性,我们随机选择去掉的机器。为了保持工作负载的异构性,我们保留了所有负载,除了那些对服务和存储需要有特定需求的。我们把那些需要超过一半cell的job的硬限制改成软的,允许不超过0.2%的task持续的pending如果它们过于挑剔机器;广泛的测试表明这些结果是可重复的。如果我们需要一个大的cell,就把原cell复制扩大;如果我们需要更多的cell,就复制几份cell。

所有的实验都每个cell重复11次,用不同的随机数发生器。在图上,我们用一个横线来表示最少和最多需要的机器,然后选择90%这个位置作为结果,平均或者居中的结论不会代表一个系统管理员会做的最优选择。我们相信cell压缩提供了一个公平一致的方式去比较调度策略:好的策略只需要更少的机器来跑相同的负载。

我们的实验聚焦在调度(打包)某个时间点的一个负载,而不是重放一段长期的工作踪迹。这部分是因为复制一个开放和关闭的队列模型比较困难,部分是因为传统的一段时间内跑完的指标和我们环境的长期跑服务不一样,部分是因为这样比较起来比较明确,部分是因为我们相信怎么整都差不多,部分是因为我们在消费20万个Borg CPU来做测试——即使在Google的量级,这也不是一个小数目(译者:就你丫理由多!)

标签:

很赞哦! ()

本栏推荐