Golang 实时垃圾回收理论和实践

   <h2>Golang实时垃圾回收理论和实践</h2>    <p>每天，Pusher实时发送数十亿条消息：从消息源到达目的地控制在100ms内。 我们如何实现这一目标？ 一个关键因素是Go的低延迟垃圾回收器。</p>    <p>垃圾收集器是实时系统的祸根，因为他们会暂停程序。 因此，在设计我们的新消息总线时，我们仔细选择了语言。 虽然Go强调低延迟垃圾回收，但我们很警惕：Go真的做到这一点吗？ 如果能做到，效果如何呢？</p>    <p>在这篇博文中，我们会审视Go的垃圾收集器。 我们将看看它是如何工作的（三色算法），为什么它有这样短的GC暂停，最重要的是，它是否工作（对其进行GC基准测试，并与其他语言进行比较）。</p>    <h2>From Haskell to Go</h2>    <p>我们一直在构建的系统是一个带有已发布消息内存存储的pub / sub消息总线。 Go中的这个版本是Haskell版本的重新实现。在发现GHC的垃圾收集器的延迟问题后，我们在5月停止了在Haskell版本的工作。</p>    <p>我们发布了Haskell版本的细节。基本问题是GHC的暂停时间与工作集的大小（即内存中的对象数量）成正比。在我们的例子中，我们在内存中有很多对象，这导致了几百毫秒的暂停时间。任何GC在完成收集之前都会阻塞程序。</p>    <p>Go与GHC的STW(stop-the-world)收集器不同，Go的垃圾回收器与程序同时运行，这使得避免更长的停顿时间成为可能。我们对Go的低延迟垃圾回收感到鼓舞，并发现随着版本改进延迟得到进一步降低。</p>    <h2>并发垃圾收集器如何工作？</h2>    <p>Go的GC如何实现并发？其 核心是三色标记扫描算法。 它使GC与程序同时运行; 这意味着暂停时间成为调度问题。 调度程序可以配置为仅在短时间内运行GC收集，与程序交叉运行。 这对我们的低延迟要求是个好消息！</p>    <p>GC仍然有两个暂停阶段：对根对象的初始堆栈扫描，以及标记终止阶段。 令人兴奋的是，这个终止阶段最近已经消除。 我们将在后面讨论这个优化。 在实践中，我们发现即使具有非常大的堆，这些阶段的暂停时间也可以<1ms。</p>    <p>使用并发GC，也有可能在多个处理器上并行运行GC。</p>    <h2>延迟VS吞吐量</h2>    <p>如果使用并发GC可以在大堆上得到低得多的延迟，为什么要使用stop-the-world收集器？是不是Go的并发垃圾收集器比GHC的stop-the-world收集器更好吗？</p>    <p>不必要。低延迟有成本。最重要的成本是减少吞吐量。并发性需要额外的工作来同步和复制，这会减少程序正常运行的时间。 GHC的垃圾收集器针对吞吐量进行了优化，但Go收集器对延迟进行优化。在Pusher，我们关心延迟，所以这是一个对我们来说很好的折衷。</p>    <p>并发垃圾收集器的第二个成本是不可预测的堆增长。程序可以在GC运行时分配任意数量的内存。这意味着GC必须在堆达到目标最大大小之前运行。但是如果GC运行得太快，那么将执行更多的收集工作。这种权衡是棘手的（Austin Clements提供了一个很好的概述）。在Pusher，这种不可预测性不是一个问题;我们的程序倾向于以可预测的恒定速率分配内存。</p>    <h2>在实践中如何？</h2>    <p>到目前为止，Go的GC看起来很适合我们的延迟要求。 但它在实践中如何？</p>    <p>今年早些时候，当调查Haskell实现的暂停时间时，我们为测量暂停创建了一个基准。 基准程序重复地将消息推送到大小受限的缓冲区中。 旧消息不断地过期并变成垃圾。 堆大小保持很大，这很重要，因为必须遍历堆才能检测哪些对象仍被引用。 这就是为什么GC运行时间与它们之间的活对象/指针的数量成正比。</p>    <p>这里是Go中的基准，其中缓冲区被建模为数组：</p>    <pre>  <code class="language-go">package main    import (          "fmt"          "time"  )    const (          windowSize = 200000          msgCount   = 1000000  )    type (          message []byte          buffer [windowSize]message  )    var worst time.Duration    func mkMessage(n int) message {          m := make(message, 1024)          for i := range m {                  m[i] = byte(n)          }          return m  }    func pushMsg(b *buffer, highID int) {          start := time.Now()          m := mkMessage(highID)          (*b)[highID%windowSize] = m          elapsed := time.Since(start)          if elapsed > worst {                  worst = elapsed          }  }    func main() {          var b buffer          for i := 0; i < msgCount; i++ {                  pushMsg(&b, i)          }          fmt.Println("Worst push time: ", worst)  }</code></pre>    <p>根据James Fisher的博客，Gabriel Scherer写了一篇后续博客文章，将原来的Haskell基准与OCaml和Racket的版本进行比较。 他创建了一个包含这些基准的 仓库 ，Santeri Hiltunen添加了一个 Java版本 。 我决定将基准移植到Go，以便比较它的效果。</p>    <p>不用多说，这里是我的系统上的基准测试结果：</p>    <p>在这里是Java表现很差，OCaml表现非常好。 OCaml的～3ms暂停时间是由于OCaml用旧一代的增量GC算法。 （我们不选择OCaml的主要原因是它的并发支持很差）。</p>    <p>如你所见，Go执行顺利，暂停时间约为7ms。 这达到我们的要求。</p>    <h2>一些注意事项</h2>    <p>警惕基准！不同的运行时针对不同的用例和不同的平台进行了优化。然而，由于我们有明确的延迟要求，并且这个基准代表我们的用例，它表明Go对我们来说很好。</p>    <p>map vs array - 最初我们的基准是基于从map中插入和删除项目。然而，Go的垃圾收集器在处理大map的时候有 bug ，这掩盖了我们的结果。为此，我们决定切换为可变数组的map。Go Map bug在Go 1.8中已经修复，但是并不是所有的基准都被移植到1.8，这就是为什么我要区分这两者。尽管如此，没有理由期望GC时间比map（除了错误或不良实现）更糟糕。</p>    <p>手动vs rts计时 - 作为第二个警告，基准在计时方面不同：一些基准使用手动计时器，但其他使用运行时系统统计。存在此差异，因为某些运行时不会使该统计信息可用（例如在Go中）。我们还担心，打开profiling会对影响一些语言的垃圾收集器。为此，我们将所有基准移植到手动计时。</p>    <p>最后一个警告是基准实现中的最坏情况。有一种情况， insert/delete map操作可能不利地影响定时，这是切换到使用简单数组的另一个原因。</p>    <p>请为我们的基准贡献更多的语言！这个简单的基准是非常通用的，在选择语言时是一个重要的基准。你想看看$ YOUR_LANGUAGE的GC执行情况，然后请提交PR！ :)我会特别感兴趣的是知道为什么Java暂停时间是如此糟糕，因为按理论它应该更好。</p>    <h2>为什么Go的结果不好?</h2>    <p>使用已修复mapbug的编译器，或使用数组时，我们得到暂停时间～7ms。 这是非常好的，但是根据Go团队在演示幻灯片标题为“1.5 Garbage Benchmark Latency”的基准测试结果，我们预计我们的堆大小为200MB时暂停大约1m(GC次数往往与 指针数量而不是字节数，但是它们不能提供该信息）。 Twitch团队使用Go1.7达到约1ms的暂停时间（尽管它们不清楚堆对象的数量）。</p>    <p>我在golang-nuts邮件列表问这个原因。 Rhys Hilter的想法是，这些暂停时间可能是由这个当前未定的错误引起的，GC中的空闲标记worker可能会阻止程序，即使有工作要做。 为了尝试并确认这一点，我启动了go tool trace [3]，它可视化程序运行时行为。</p>    <p>从这个例子可以看出，有一个12ms的周期，其中背景标记woker正在所有四个处理器上运行，阻塞程序。这使我强烈怀疑我遇到上述错误。</p>    <p>到目前为止，我很高兴看到基准测试的现有暂停时间满足要求，但我也保持关注，以解决上述问题。</p>    <p>如前所述，Go团队最近宣布了一项改进措施，导致GC暂停时间小于1ms。它燃起我的希望，但我很快就意识到这个优化是去掉了stw阶段，swt阶段在我使用的基准下已经<1ms。我们的暂停时间主要是由GC的并发阶段引起的。</p>    <p>尽管如此，这是一个值得欢迎的改进，并表明团队继续关注并改进GC的延迟。这种优化的技术描述本身是一个有趣的读物。</p>    <h2>结论</h2>    <p>这项调查的关键是GC是针对更低的延迟或更高的吞吐量进行优化。程序可能执行更好或更差在这取决于您的程序的堆使用率。 （有很多的对象吗？他们有长或短的生命吗？）</p>    <p>重要的是要了解底层的GC算法，以决定它是否适合您的用例。在实践中测试GC实现也很重要。您的基准测试应该与您打算实现的程序具有相同的堆使用率。这将在实践中验证GC实现的有效性。正如我们所看到的，Go的实现不是没有bug的，但在我们的情况下，问题是可以接受的。我想在更多的语言中看到相同的基准，如果你想贡献的话:)</p>    <p>尽管存在一些问题，Go的GC与其他GC语言相比表现良好。 Go团队一直在改进延迟，并继续这样做。我们对Go语言GC的理论和实践感到满意。</p>    <p> </p>    <p> </p>    <p>来自：http://mp.weixin.qq.com/s/IX0zO2MliP01ixtLtih6gQ</p>    <p> </p>
本文由用户 lohc0791 自行上传分享，仅供网友学习交流。所有权归原作者，若您的权利被侵害，请联系管理员。
转载本站原创文章，请注明出处，并保留原始链接、图片水印。
本站是一个以用户分享为主的开源技术平台，欢迎各类分享！
本文地址：https://www.open-open.com/lib/view/open1481180990331.html
热门搜索

Golang 实时垃圾回收理论和实践