Android OOM案例分析
<p>在Android(Java)开发中,基本都会遇到 java.lang.OutOfMemoryError (本文简称OOM),这种错误解决起来相对于一般的Exception或者Error都要难一些,主要是由于错误产生的root cause不是很显而易见。由于没有办法能够直接拿到用户的内存dump文件,如果错误发生在线上的版本,分析起来就会更加困难。本文从一个具体的案例切入,介绍OOM分析的思路及相关工具的使用。</p> <h2>案例背景</h2> <p>在美团App 7.4~7.7版本期间,美食业务的OOM数量居高不下,远高于历史水平,主要都是DECODE本地的资源出错。</p> <p><img src="https://simg.open-open.com/show/8e570f50f09c79c7548fa70355a11fd6.png"></p> <p>图中OOM数量为各版本发版后第一个月的统计量,包含新发版本及历史版本。对比了同时期其他业务的情况,也有类似OOM。由于美食业务的访问量占美团App的比重较大,因此,OOM的数量相对其他业务也多一些。</p> <h2>思路方案</h2> <p>在问题较为严重的7.6~7.7版本期间,团队对OOM频现的原因有过各种猜测。笔者怀疑过是否是业务上某些修改引起的,例如头图尺寸变大,或者是由页面模块加载方式引起的等等。但这些与OOM问题出现的时间并不吻合。其次也怀疑过是否由某些ROM的Bug导致,但此推断缺乏有力的证据支撑。因此,要找到OOM的root cause,根本途径还是找到谁占的内存最多,然后再根据具体case具体分析,为什么占了这么多。</p> <h3>采集用户手机内存信息</h3> <p>要分析内存的占用,需要内存的dump文件,但是dump文件一般都比较大,让用户配合上传dump文件不合适。所以希望能够运行时采集一些内存的特征然后随着crash日志上报上来。当用户发生OOM时,dump出用户的内存,然后基于 com.squareup.haha:haha:2.0.3 分析,得到一些关键数据(内存占用最多的实例及所占比例等)。但这个方案很快就被证明是不可行的。主要基于下面几个原因:</p> <ul> <li>需要引入新的库。</li> <li>dump和分析内存都很耗时,效率难以接受。</li> <li>OOM时内存已经几乎耗尽,再加载内存dump文件并分析会导致二次OOM,得不偿失。</li> </ul> <h3>模拟复现OOM</h3> <p>采集用户手机内存信息的方案不可行,那么只能采取复现用户场景的方式。由于发生OOM时,用户操作路径的不确定性,无法精确复现线上的OOM,因此采取模拟复现的方式,最终发生OOM时的栈信息基本一致即可。为了能够尽量模拟用户发生OOM的场景,需要基本条件基本一致,即用户使用的手机的各种相关参数。</p> <p>挖掘OOM特征</p> <p>分析7.4以来的OOM,列出发生OOM的机器的特征,主要是内存和分辨率,适当考虑其它因素例如系统版本。</p> <table> <thead> <tr> <th>机型</th> <th>内存</th> <th>分辨率</th> <th>OS</th> <th>stack log</th> </tr> </thead> <tbody> <tr> <td>OPPO N1(T/W)</td> <td>2G</td> <td>1920*1080</td> <td>4.2.2</td> <td>java.lang.OutOfMemoryError<br> at android.graphics.BitmapFactory.nativeDecodeAsset(Native Method)</td> </tr> <tr> <td>HM 2LTE-CMCC</td> <td>1G</td> <td>1280*720</td> <td>4.4.4</td> <td>java.lang.OutOfMemoryError<br> at android.graphics.BitmapFactory.nativeDecodeAsset(Native Method)</td> </tr> <tr> <td>Newman CM810</td> <td>2G</td> <td>1920*1080</td> <td>4.4.4</td> <td>java.lang.OutOfMemoryError<br> at android.graphics.BitmapFactory.nativeDecodeAsset(Native Method)</td> </tr> <tr> <td>LGL22</td> <td>2G</td> <td>1830*1080</td> <td>4.2.2</td> <td>java.lang.OutOfMemoryError<br> at android.graphics.BitmapFactory.nativeDecodeAsset(Native Method)</td> </tr> <tr> <td>OPPO X909</td> <td>2G</td> <td>1920*1080</td> <td>4.2.2</td> <td>java.lang.OutOfMemoryError<br> at android.graphics.BitmapFactory.nativeDecodeAsset(Native Method)</td> </tr> <tr> <td>Lenovo K900</td> <td>2G</td> <td>1920*1080</td> <td>4.2.2</td> <td>java.lang.OutOfMemoryError<br> at android.graphics.BitmapFactory.nativeDecodeAsset(Native Method)</td> </tr> <tr> <td>GiONEE E6</td> <td>2G</td> <td>1920*1080</td> <td>4.2.1</td> <td>java.lang.OutOfMemoryError<br> at android.graphics.BitmapFactory.nativeDecodeAsset(Native Method)</td> </tr> </tbody> </table> <p>这些特征可以总结为:内存一般,分辨率偏高,OOM的堆栈log基本一致。其中,OPPO N1(T/W)上所发生的OOM比重较高,约为65%,因此选定这款机器作为复现OOM的机器。</p> <p>关键数据(内存dump文件)</p> <p>需要复现OOM然后获取内存dump。思路是采取内存压力测试,让问题暴露的快速且充分。具体方案为:</p> <ul> <li>选取图片资源多且较为复杂的页面,比如美食的POI详情页。</li> <li>加载30次该页面,为了增加OOM的几率,30个POI页面的ID是不同的。</li> </ul> <p>OOM发生后,使用Android Studio自带的Android Monitor dump出HPROF文件,然后使用SDK中的hprof-conv(位于sdk_root/platform-tools)工具转换为标准的Java堆转储文件格式,这样可以使用MAT(Eclipse Memory Analyzer)继续分析。</p> <p>切到histogram视图,按shadow heap降序排列。</p> <p>选取byte数组,右击->list objects->with incoming references,降序排列可以看到有很多大小一致的byte[]实例。</p> <p><img src="https://simg.open-open.com/show/368abf881bc50f0229272338f2b1efbf.png"></p> <p>右击其中一个数组->Path to GC Roots-> exclude xxx references</p> <p><img src="https://simg.open-open.com/show/11c68c1284f3c0a8d1736dcce6d65970.png"></p> <p>如上图所示,这些byte[]都是系统的EdgeEffect的drawable所持有,drawable对应的bitmap占用的空间为1566 * 406 * 4 = 2543184,与byte数组的大小一致。</p> <p>再看另外一个:</p> <p><img src="https://simg.open-open.com/show/604319d0d89b9c02be7ffb418424c7eb.png"></p> <p>这些byte[]是被App的一个背景图所持有,如下图:</p> <p><img src="https://simg.open-open.com/show/ecaff91d11a63195d17661193c9a6998.png"></p> <p>通过ImageView的ID(如图)及build目录下的R.txt反查可知该ImageView的ID名称,即可知其设置的背景图的大小为720 * 200(xhdpi),加载到内存并考虑density,size刚好是1080 * 300 * 4 = 1296000,与byte数组大小一致。</p> <p>数据分析</p> <p>为什么会出现这些大小一致的byte数组,或者说,为什么会创建多份EdgeEffect的drawable?查看EdgeEffect的源码(4.2.2)可知,其drawable成员也是通过 Resources.getDrawable 系统调用获取的。</p> <pre> <code class="language-java">/** * Construct a new EdgeEffect with a theme appropriate for the provided context. * @param context Context used to provide theming and resource information for the EdgeEffect */ public EdgeEffect(Context context) { final Resources res = context.getResources(); mEdge = res.getDrawable(R.drawable.overscroll_edge); mGlow = res.getDrawable(R.drawable.overscroll_glow); ****** mMinWidth = (int) (res.getDisplayMetrics().density * MIN_WIDTH + 0.5f); mInterpolator = new DecelerateInterpolator(); }</code></pre> <p>ImageView(View)获取background对应的drawable的过程类似。</p> <pre> <code class="language-java">for (int i = 0; i < N; i++) { int attr = a.getIndex(i); switch (attr) { case com.android.internal.R.styleable.View_background: background = a.getDrawable(attr); // TypedArray.getDrawable break; ****** } }</code></pre> <p>不论是Resources.getDrawable还是TypedArray.getDrawable,最终都会调用Resources.loadDrawable。继续看 Resources.loadDrawable 的源码,发现的确是使用了缓存。对于同一个drawable资源,系统只会加载一次,之后都会从缓存去取。</p> <p>既然drawable的加载机制并没有问题,那么drawable所在的缓存实例或者获取drawable的Resources实例是否是同一个呢?通过下面的代码,打印出每个Activity的Resources实例及Resources实例的drawable cache。</p> <pre> <code class="language-java">//noinspection unchecked LongSparseArray<WeakReference<Drawable.ConstantState>> cache = (LongSparseArray<WeakReference<Drawable.ConstantState>>) Hack.into(Resources.class).field("mDrawableCache").get(getResources()); Object appCache = Hack.into(Resources.class).field("mDrawableCache").get(getApplication().getResources()); Log.e("oom", "Resources: {application=" + getApplication().getResources() + ", activity=" + getResources() + "}"); Log.e("oom", "Resources.mDrawableCache: {application=" + appCache + ", activity=" + cache + "}");</code></pre> <p><img src="https://simg.open-open.com/show/cd999df73a77f674df15ba92c45cb9f0.png"></p> <p>这也进一步解释了另外一个现象,即这些大小相同的数组的个数基本和启动Activity的数量成正比。</p> <p>通过数据分析可知,这些drawable之所以存在多份,是因为其所在的Resources实例并不是同一个。进一步debug可知,Resources实例存在多个的原因是开启了标志位 <a href="/misc/goto?guid=4959747505955943177" rel="nofollow,noindex">sCompatVectorFromResourcesEnabled</a> 。</p> <p>虽然最终造成OOM突然增多的原因只是开启一个标志位,但是这也告诫大家阅读API文档的重要性,其实很多时候API的使用说明已经明确告知了使用的限制条件甚至风险。</p> <p>7.8版本关闭了此标志,发版后第一个月的OOM数量(包含历史版本)为153,如下图。</p> <p><img src="https://simg.open-open.com/show/5c30a944b8628f12846cec94f1398fe1.png"></p> <p>其中新版本发生的OOM数量为22。</p> <h2>总结</h2> <p>对于线上出现的OOM,如何分析和解决可以大致分为三个步骤:</p> <ol> <li>充分挖掘特征。在挖掘特征时,需要多方面考虑,此过程更多的是猜测怀疑,所以可能的方面都要考虑到,包括但不限于代码改动、机器特征、时间特征等,必要时还需要做一定的统计分析。</li> <li>根据掌握的特征寻找稳定的复现的途径。一般需要做内存压力测试,这样比较容易达到OOM的临界值,只是简单的一些正常操作难以触发OOM。</li> <li>获取可分析的数据(内存dump文件)。利用MAT分析dump文件,MAT可以方便的按照大小排序实例,可以查看某些实例到GC ROOT的路径。</li> </ol> <h2> </h2> <p> </p> <p>来自:http://tech.meituan.com/oom_analysis.html</p> <p> </p>
本文由用户 koaatuzl 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
转载本站原创文章,请注明出处,并保留原始链接、图片水印。
本站是一个以用户分享为主的开源技术平台,欢迎各类分享!