iOS开发 -卡死崩溃监控原理及最佳实践

字节跳动技术团队

参看:/ Github /

不同于 Android 体系中的卡死(ANR)问题,现在业界对 iOS 体系中 App 产生的卡死溃散问题并无老到的处理计划,首要原因是:

  1. 一般 App 卡死时刻跨越 20s 之后会触发操作ios8备忘录体系的保护机制,产生溃散,此时在用户的设备中能找到操作体系生成的卡死溃散日志,可是由于 iOS 体系封闭生态的联络,App 层面没有权限拿到卡死溃散的日志。

  2. 一般来说用户遇到卡ios15死问题的时分并没有耐性等候那么久的时ios模拟器间,或许在卡住 5s 时就现后端已失掉耐性,直接手动关闭运用或许直接将运用退到后台,因而这两种场景下体系也就不会生成卡死溃散日志。

由于上面说到的两个原因,现在业界 iOS 出产环境中的卡死监控apple计划其实首要是根据卡顿监控,即当用户在运用 App 的进程中页面照顾时刻跨越必定的卡顿的阈值(一般是几百 mapproachs)之后断定为一ios是什么意思次卡顿,然后抓取到当时现场的调用栈而且上签到后台剖析。这种计划的缺点首要体现在:approach

  1. 没有将比较纤细的卡顿问题和严函数调用能够作为一个函数的形参峻的卡死问题区分隔,导致上报的问题数量太多,很难聚集到关键。实践后端开发需求把握哪些常识上这部分问题对用户体会的危害其实是远远大于卡顿的。

  2. 由于一些运用低端机型的用户更简略在短时刻内遇到一再的卡顿,可是调用栈抓取,日志写入和上报等监控手法都是功用有损的,这也是卡顿监控计划在出产环境中一般只能小流量而不能全量的原因。

  3. 试想一次卡顿持操作体系的基本特征续了 100ms,前 99ms 都卡在 A 办法的实施上,可是最终 1ms 刚好切换到了 B 办法在实施,这时分卡顿监控抓到的调用栈是 B 办法的调用栈,其实 B 办法并不是构成卡顿的首要原因,这样也就构成了误导。

根据上述的痛点,字appointment节跳动 APM 中台团队自研了一套专门用于定位出产环境中的卡死溃散的处理计划,本文将具体的介绍该计划的思路和具体完毕,以及经过本计划上线后总结出来的一些典型问题和最佳实践,期望对咱们有所启示。

卡死溃散布景介绍

什么是 watchdog

假定某一天咱们的 App 在建议时卡住大约 20s 然后溃散之后,从设备中导出的体系溃散日志很或许是下面这种格式:

Exce函数调用ption Type:  EXC_CRASH (SIGKILL)Exception Codes: 0x0000000000000000, 0x0000000000000000Exception Note:  EXC_CORPSE_NOTIFYTermi函数调用时的实参和形参之间传递nation Reaso后端语言n: Namespace ASSERTIOND, Code 0x8badf00dTr后端组iggeredapproach by Thread:  0

下面就其间最重要的ios体系前 4 行信操作体系的五大功用息逐一说明:

  1. Exception Type

EXC_CRASH:Mach 层的异常类型,标明进程异常退出。

SIGKILL:BSD 层的信号,标明进程被体系中止,而且这个信号不能被堵塞、处理和疏忽。这时能够检查 Termination Reason 字段了解中止后端开发薪酬一般多少的原因。

  1. Exception Co函数调用进程des

这个字段一般用不上,当溃散陈述包含一个未命名的异常类型时,这个异常类型将用这个字段标明,办法是十六进制数字。

  1. Exception Note

EXC_CORPSE_NOTIFYEXC_CRA后端组SH 定义在同一个文件中,意思是后端开发是干什么的进程异常进入 CORPSE 状况。

  1. Termination Reason

这儿首要重视 Code 0x8badf00d,能够在苹果的官方文档中检查到 0x8badfapple00d函数调用中的参数太少 意味着 App ate bad food,标明进ios15程由于 watchdog 超时而被操作体系完毕进程。通iOS过上述现已信息能够得出 watchdog 溃散的定义:

在iOS途径上操作体系,App假定在建议、退出或许照顾体系作业时由于耗时过长触发体系保护机制,究竟导致进程被强制完毕的这种异常定义为watchdog类型的溃散。

所谓的 watchdog 溃散也便是本文所说的卡死溃散。

为什么要监控卡死溃散

咱们都知道在客户端研制中,由于会阻断用户的正常运用,闪退现已是最严峻的 bug,会直接影响留存,收入等各项最中心的事务政策。之前咱们关键重视的都是比如 unrecognized selectoapplerEXC_BAD_ios体系ACC操作体系ESS 等能够在 App 进程内被捕获的溃散(下文中称ios15之为一般溃散),appear可是关于 SIGKILL 这类由于进程外的指令强制退出导致的异常,原有的监控原理是掩盖不到的,也导致此类溃散在出产环境中被长时刻忽视。除此之外,还有如下理由:

  1. 由于卡死溃散最常见产生于 App 建议阶段,用户在开屏页面卡住 20s 后什么都做ios15不了紧接着 App 就闪退了。这种体会对用户的危害比一般的溃散愈加严峻。

  2. 在卡死监控上线之初,今日头条 App 每天卡死溃发出操作体系原理生的量级大约是一般溃散的 3 倍,可见假定不做任何处理的话,这类问题的产生量级是非常大的。

  3. OOM 溃散也是由 SIGKILL 异常信号究竟触发的,现在 OOM 溃散操作体系原理主流的后端开发是干什么的监控原后端语言理仍是排除法。不过传统计划在做排除法的时函数调用句子分漏掉了一类量级非常大的其他类型的溃散便是这儿的卡死溃散。假定能准确ios15的监控到卡死溃散,也相同iOS能大大提高 OOM 溃散监控的准确性。关于 OO函数调用数组M 溃散的具体监控原理和优化思路能够参看:iOS 功用优化实践:头条抖音怎样完毕 OOM 溃散率下降 50%+

因而,根据以上信息咱们能够得出结论:卡死溃散的监控和办后端是做什么的理是非常有必要的。经过近 2 年的监控和处理,现在今日头条 App 卡死溃散每天产生的量级大致和一般溃散相等。

卡死溃散监控原理

卡顿监控原理函数调用句子func

其实从用户体会启航的话,卡死的定义便是长时刻卡住而且究竟也approve没有康复的那部分卡顿,那么下面咱们就先回想一下卡顿监控的原理。咱们知道在 iOS 体系中,主线appointment程绝大部分核算或许制造使命都是以 runloop 为单位周期性被实施的。单次 r函数调用数组unloop 循环假定时长跨越 16ms,就会导致 U函数调用栈I 体会的卡顿。那怎样检测单次 runloop 的耗时呢?

iOS开发 -卡死溃散监控原理及最佳实践

经过上图能够看到,假定咱们注册一个 runloop 生命周期作业的查询者,那么在 afios体系terWai函数调用时的实参和形参之间传递ting=>beforeTimers,beforeTimers=>beforeSources 以及beforeSources=>befoios模拟器reWaiting 这三个阶段都有或许产生耗时操作。所以关于卡顿问题的监控原理大约分为下面几步:

  1. 注册 runloop 生命周期作业的查询者。

  2. runloop 生命周期回调之间检测耗时,一旦检测到除休眠阶段之外的其他恣意一个阶段耗时跨越咱们预先设定的卡顿阈值,则触发卡顿断定而且记操作体系是一种什么软件载当时的调用栈。

  3. 在适合的机会上函数调用数组签到后端途径剖析approach

全体流程如下图所示:

iOS开发 -卡死溃散监控原理及最佳实践

函数调用栈样断定一次卡顿为一次卡死

其实经过上面后端开发需求学什么的一些总结咱们不难发现,长时刻的卡顿究竟不论是触发了系操作体系是什么的接口统的卡死溃散,仍是用户忍受不了主动完毕进程或许退后台,他们的一起特征便是appointment产生了长时刻时刻卡顿且究竟没有康复,阻断了用户的正常运用流程。

根据这个理论的辅导,咱们就能够经过下面这个流程来断定某次卡顿究竟是不是卡死:

  1. 某次长时刻的卡顿被检测到之后端云后,记载当时所有线程的调用栈,存到数据库中作为卡操作体系是一种什么软件死溃apple散的置疑政策。

  2. 假定在当时 runloop 的循函数调用的三种办法环中进入到了下一个生动状况,那么该卡顿不是一次卡死,就从数据库中删去该条日志。本次运用周期内,下次长时刻操作体系的五大功用的卡顿触发时再从头写入一条日志作为置疑政策,依此类推。

  3. 在下次建议时检测上一次建议有没有卡死的日志ios手游下载平台(用户一次运用周期最多只会产生一次卡死),操作体系的五大功用假定有,说明用户上一次运用期间究竟遇到了一次长时刻的卡顿后端开发薪酬一般多少,且究竟 runloop 也没能进入下一个生动状况操作体系是什么的接口,则标记为一次卡死溃散上报。操作体系原理

iOS开发 -卡死溃散监控原理及最佳实践

经过这套流程剖析下来,咱们不只能够检测到体系的卡死溃后端和前端有什么区别散,也能够检测到用户忍受不了长时刻卡顿究竟杀掉运后端组用或许退后台之后被体系杀死等行为,这些场景尽管并没有实践触发体系的卡死溃散,可是严峻程度其实是平等的后端是做什么的。也便是说本文说到的后端开发是干什么的卡死溃散监控才能是体系卡死溃散的超集。

卡死时刻的阈值怎样招认

体系的卡死溃散日志格式截取部分如下:

Excepti后端开发薪酬一般多少on Type:  EXC_CRASH (SIGappointmentKILL操作体系是一种)Exception Codes: 0x0000000000000000, 0x操作体系的五大功用0000000000000000Exception Note:  EXC_CORPSE_NOTIFYTerminat函数调用进程ionReason: Namespace ASSERTIOND, Code 0x8badf00dTriggere函数调用句子d by Thread:  0Termination Description后端是做什么的: SPRINGBOARD, scene-create watchdog transgression: application<com.ss.iphone.article.News>:2135 exh函数调用的三种办法austed real (wall clock) time allowance of 19.83 seconds操作体系的基本特征

能够看到 iOS 体系的保护机制只要在 App 卡死时刻跨越一个异常阈值之后才会触发,那么这个卡死时后端是做什么的间的阈值便是application一个非常要害的参数。

怅惘的是,现在没有官方的文档或许 api,能够直接拿到体系断定卡死溃散的阈后端开发需求学什么值。这儿 exhausted real (wall clock) time allowance of 19.83 seconds 其间的 19.83 并不是一个固定的数字,在不同的运用阶段,不同体系版其他完毕里都或许有差异,后端开发薪酬一般多少在一些体系的溃散日志中也遇到过 10s 的 case。

根据以上信息,为了掩盖到大部分用户能够感知到的操作体系是对什么进行办理的软件场景,屏蔽不同体系版别完毕的差异,咱们以为体系触发卡死溃散的时刻阈值为 10s,实践上有适当一部分用户在遇到 App 长时刻卡顿的时分会习惯性的手动完毕进程重启而不是一向等候,因而这个阈值不宜过长。为了给触发卡死断定之后的抓栈,日志写入等操作预留满意的时刻,所后端云以究竟本计划的卡死时刻阈值确以为 8s。产生 8s 卡死的概率比产生几百 ms 卡顿的概率要操作体系是一种什么软件低的多,因而该卡死监控计划并没有太大的功用损耗,也就能够在出产环境中对全量用户翻开。

怎样检测到用户一次卡死的时刻

在卡死产生之后,实践上咱们也会重视一次卡死究竟究竟卡住了多appear久,卡死时刻越长,对用户运用体会的损后端开发需求把握哪些常识操作体系的基本特征也就操作体系的主要功用是越大,更应该被高优处理。

在触发卡死阈值之后咱们能够再以一个时刻间隔比较短的定时器(现在战略默许 1s,线上可调整),每隔 1s 就检测当时 runloop 有没有进入到下一个生动iOS状况操作体系是对什么进行办理的软件,假定没有操作体系是什么的接口,则当时的卡死时后端云间就累加 1s后端和前端有什么区别,用这种办法即使究竟产生ios14.4.1更新了什么了闪退也能够迫临实践的卡死时刻,过错不跨越 1s,究竟的卡死时刻ios15也会写入到日appearance志中一起上报。

iOS开发 -卡死溃散监控原理及最佳实践

可是这种计划在上线后遇到操作体系的主要功用是了一些卡死时长特别长的 case,这种问后端开发需求学什么题多产生在 App 切后台的场景。由于在后台状况函数调用能够作为一个函数的形参下,App 的进程会被挂起(suspend)后,就或许被断定为继续好久的卡死状况。函数调用句子而咱们在核算卡死时刻的时分,选用的是实践国际的时刻差,也便是说当时 App 在后台被挂起 10s 后又康复时,咱们会以为 App 卡死了 10s,简略的跨越了咱们设定的卡死阈值,但其实 App 并没有真实卡死,而是操作体系的调度行为。这种误报常常是不符合appear咱们的预期的。误报的场景如下图所示:

iOS开发 -卡死溃散监控原理及最佳实践

怎样处理主线程调用栈或许有误报的问题

为了处理上面的问题,咱们选用多段后端开发需求把握哪些常识等候的办法来降低线程调度、挂ios1471值得更新吗起导致的程序作业时刻后端开发需求学什么与实践时刻不匹配的问题,以下图为例。在 8s 的卡死阈值前,选用间隔等候的办法,每隔 1s 进行一次等候。等候超时后对当时iOS卡死的时刻进行累加 1s。后端开发是干什么的假定在此进程中,App 被挂起,不论被挂起多久,再康复时最多会构成 1s 的过错,这与之前的计划函数调用能够作为一个函数的形参比较极大的添加了稳定性和APP准确性。

iOS开发 -卡死溃散监控原理及最佳实践

另外,待卡死时刻跨越了设定的卡死阈值后,会对全线程进行抓栈。可是仅凭ios模拟器这一时刻的线程调用栈并不确保能够准招认位问题。由于此时主线程实施的或许是一个非耗时使命,真实耗时的使命现已完毕;或许在后续会产生一个愈加耗时的使命,这个使命才是构成卡死的要害。因而函数调用的三种办法,为了添加卡死调用栈的置信度,在跨越卡死阈值后,每隔函数调用的三种办法 1s 进行一次间隔等候的一起,对当时主线程的仓库进行抓取。为了避免卡死时刻过长构成的线程调用栈数量胀大,最多会保存间隔后端云 App 异常退出前的最近 10 次主线程调用栈。经过多次间隔等候,咱们能够获取在 App 异常退出前主线程跟着时刻改动的一组函数调用栈。经过这组appearance函数调用栈,咱们能够定位appointment到主线程真实卡死的原因,并结合卡死时刻跨越阈值时获取的全线程调用栈进一步定位卡死原因。

究竟的监控效果如下:

iOS开发 -卡死溃散监控原理及最佳实践

由于图片大小的捆绑,这儿仅仅截了卡死溃散之前最终一次的主线程调用栈,实践运用的时分能够查appreciate看溃散之前一段时刻内每一秒的调用栈,假定发现每一次主线程的调用栈都没有改动,那就能招认这个卡死问题不是误报,例如这儿便是一次异常的跨进程通讯导致的卡死。

卡死溃散常见问题归类及最佳实践

多线程死锁

问题描绘

比较常见的便是在 dispatch_once 中子线程同步拜访主线程,究竟构成死锁的问题。如上图所示,这个死锁的appointment复现进程是:

iOS开发 -卡死溃散监控原理及最佳实践

  1. 子线程先iOS进入 dispatch_once 的 blockios1471值得更新吗 中并加锁。

  2. 然后主线程再进入 dispatch_once 并等候子线程解锁。

  3. 子线程初始化时触发了 CTTelephonyNetworkInfo 政策初始化抛出了一个告诉却要求主线程同步照顾,这就构成了主线程和子线程由于互相等候而死锁,究竟触发了卡死溃散。

这儿的其实是踩到了 CTTelephonyNetworkInfo 一个潜ios14.4.1更新了什么在的坑。假定这儿替换成一段 dispatch_syncdispatch_get_main_queue()的代码,后端开发效果仍是平等的approach,相同有卡死溃散的危险。

最佳实践

  1. dispatch_once 中不要有同步到主线程实施的办法。

  2. CTTelios模拟器ephonyNetwios15orkInfo 最好在 +load办法或许 main 办法之前的其他机appointment会提前初函数调用数组始化一个同享的实例,ios模拟器避免踩到子操作体系是什么的接口线程懒加载时分要求主线ios8备忘录程同步照顾的坑。

主线程实施代码与子线程耗时操作存在锁竞赛

问题描绘

一个比较典型的问题是卡死在-[YYDiskCache con函数调用栈tainsO函数调用数组bjectForKey:]YYDiskCache 内部针对磁盘多线程读写操作,经过一个信号量锁确保互斥。经过剖析卡死仓库能够发现是子线程占用锁资源进行耗时的写操作或收拾操作引发主线程卡死,问题产生时一般能够发现如下的子线程调用栈:

iOS开发 -卡死溃散监控原理及最佳实践

最佳ios是什么意思实践

  1. 有或许存在锁竞赛的代码尽量不在主线程同步实施。

  2. 假定主线后端开发需求把握哪些常识程与子线程不行避免的存在竞ios下载赛时,加锁的粒度要尽量小,操作要尽量轻。

磁盘 IO 过于布满

问题描绘

此类问题,表现办法或许多种多样,可是归根到底都是由于磁盘 I后端开发需求把握哪些常识O 过于布满究竟导致主线程磁盘 IO 耗时过长。典型 case:

  1. 主线程紧缩/解紧缩。

  2. 主线程同步写入数据库,或许与子线程或许的耗时操作(例如 sqlitevaccum 或许checkpoint 等)复用同一个串行队伍同步写入。

  3. 主线程磁盘 IO 比较轻量,可是子线ios15程 IO 过操作体系是一种什么软件于布满,函数调用不能够常产生于操作体系当前的装备不能运行此应用程序一些低端设备。

最佳实践

  1. 数据库读写,文件紧缩/解紧缩等磁盘 IO 行为不放在主线程实施。

  2. 假定存在主线程将使命同步到串行队伍中实施的场景,确保这些使命不与子线程或许存在的耗时操作复用同一个串行队伍。

  3. 关于一些建议阶段非必要同步加载而且有比较布满磁盘 IO 行为的 SDK,如操作体系的主要功用是各种支付共享等第三方 SDK 都能够推迟,错开函数调用的三种办法加载。

体系 api 底层完毕存在跨进程通讯

问题描绘

由于跨进程通讯需函数调用数组求与其他进程同步,一旦其他进程产生异常或许挂起,很有或许构成当时 App 卡死。典型 case:

  1. UIPasteBoard,特别是 Opeios模拟器nUDID。由于 OpenUDID 这个库为了跨 App 能够拜访到相同的 UDID,经过创建剪切板和读取剪切板的办法来完毕的跨 App 通讯,外部每次调用 OpenUDID 来获取一次 UDID,OpenUDID 内部都会循环 100 次,从剪切板获取 UDID,并经过排操作体系是一种什么软件序取得呈现频率最高的那个 UDID,也便是这个流程或许究竟会导致拜访剪切板卡死。

  2. NSUserDefa操作体系的基本特征ult操作体系s 底层完毕中存在直接或许直接的跨进程操作体系是一种通讯,在主线程同步调用简略产生卡死。

  3. [[UIApplication shaappleredApplicationios体系] openURL]接口,内部完毕也存在同步的跨进程通讯。

最佳实践

  1. 废弃 OpenUDID 这个第三方库,一些依托了 UIPaseteBoard 的第ios模拟器三方 SDK 推动保护者下掉对 UIPasteBoa操作体系是一种rd 的依托并更新版别;或许将这些 SDK 的初始化共同放在非主线程,不过经验来看子线程初始化或许有 5%的卡死转化为闪退,因而最好后端开发是干什么的加一个开关逐渐放量查询。

  2. 关于 kv 类存储需求,假定重度的运用能够考虑 MMKV,假定轻度的运用能够参看 firebase 的完毕ioslauncher自己重写一个更轻量的 UserDefaults 类。

  3. iOS10 及以上的系函数调用不能够统版别运用[[UIApplication sharedApplication] openURL:options:completionHandler:]这个接口替换,此后端开发需求把握哪些常识接口能够异步调起,不会构成卡死。

Objective-C Runtime Lock 死锁

问题描绘

此类问题尽管呈现概率不大,可是在一些凌乱场景下也是时有产生。主线程的调用栈一般都会卡死在一个看似很一般的 OC 办法调用,非常隐晦,因而想要发现后端开发是干什么的这类问题,卡死ios是什么意思监控模块本身就不能用 OC 言语完毕,而应该改为 C/C++。此问题一般多发于_dyld_register_func_for_add_image 回调办法中同步调用 OC 办法(先持有 dyld lock 后持有 OC runtime lock),以及 OC 办法同步调用 objc_copyClassNamesForImage 办法(先持有 OC runtime lock 后持有 dyld lock)。典型 case:

  1. dyld lock、 selector lock 和 OC runtime lock 三个锁互相等候构成死锁的问题。三个锁互相等候的场景如下图所示:

iOS开发 -卡死溃散监控原理及最佳实践

  1. 在某次迭代的进程中 APM SDK 内部断定设备是否越狱的完毕改为依托 fork 办法能否调用成功,可是 fork 办法会调用 _oapplebjc_atapplicationforkios8备忘录_prepare,这个函数会获取 objc 相关的 lock,之后会调用 dyld_initialios8备忘录izer,内部又会获取 dyld lock,假定此时咱们的某函数调用句子个线程现已持有了 dyld lock,在等候 OC rios1471值得更新吗untime loios下载ck,就会引发死锁。

最佳实践

  1. 慎用_dyld_register_func_for_add_imageo后端开发需求学什么bjc_copyClassNamesForImage 这两个办法,特别是与 OCappreciate 办法同步调用的场景。

  2. 越狱检测,不依托 fork 办法的调用函数调用句子func

评论

发表回复