线上问题处理流程

保持冷静，数据驱动：切忌盲目猜测。一切结论都应基于日志、监控指标和性能数据。
先恢复，后定位：对于严重影响线上服务的问题（如P0级故障），首要目标是快速止损（重启、扩容、降级、熔断），恢复服务，然后再深入排查根因。
系统性视角：现代应用是复杂的分布式系统。问题可能出现在应用代码、数据库、中间件、网络、操作系统或硬件等任何环节。需要逐层排查。
可观测性是基石：没有完善的监控（Metrics）、日志（Logging）和链路追踪（Tracing），线上问题定位就像盲人摸象。建设好这三大支柱是前提。

这是一个从宏观到微观，逐步收敛问题范围的通用流程。

目标：确认问题的现象、范围和影响。
动作：
- 收到告警（CPU、内存、磁盘、QPS、RT、错误率飙升）。
- 用户反馈（页面打不开、功能报错、响应慢）。
- 查看核心监控大盘：确认是全局性问题还是局部问题？是哪个服务、哪个接口、哪个机房出了问题？
- 初步判断：是性能问题还是功能问题？

目标：实施解决方案。
动作：
- 紧急修复：修复代码Bug，紧急发布。
- 配置调整：调整JVM参数、数据库连接池大小、线程池参数等。
- 容量扩容：临时增加机器实例。
- 流程优化：优化慢SQL、添加缓存、重构耗时逻辑。

目标：避免同类问题再次发生，将经验沉淀。
动作：
- 书写事故报告：详细记录故障时间线、根因、修复动作、后续改进项。
- 改进项跟踪：例如：完善监控告警、增加压测、修复代码缺陷、优化架构、完善应急预案等。
- 知识分享：团队内部分享，共同进步。

类型	Linux命令/工具	Java生态工具	云平台/分布式工具
CPU/内存	`top`, `htop`, `vmstat`, `pidstat`	`jstack`, `jmap`, `jstat`	-
磁盘IO	`iostat`, `df`, `du`	-	-
网络	`netstat`, `ss`, `tcpdump`, `ping`	-	-
日志	`grep`, `awk`, `sed`, `tail`, `less`	ELK（Elasticsearch, Logstash, Kibana）	Splunk, Loki
监控	-	JMX, Prometheus, Micrometer	Grafana, 云监控（CloudWatch/APM）
链路追踪	-	SkyWalking, Zipkin, Jaeger	-
诊断神器	`strace`, `perf`	Arthas（阿里巴巴开源的Java诊断利器）	-

特别推荐 Arthas：它可以在不重启JVM的情况下，进行动态跟踪、诊断，非常强大。

定位到问题后，常见的优化方向：

代码层面：
- 优化算法和数据结构复杂度。
- 避免不必要的对象创建，减少GC压力。
- 使用线程池，避免频繁创建销毁线程。
- 使用连接池（数据库、HTTP）。
数据库层面：
- 优化慢SQL（添加索引、优化SQL语句）。
- 读写分离、分库分表。
- 引入缓存（Redis），减少数据库直接压力。
JVM层面：
- 根据应用特点（CPU密集型 vs IO密集型）和机器配置，合理设置堆大小（-Xms, -Xmx）。
- 选择合适的GC器（如G1，ZGC）。
架构层面：
- 异步化：将非核心逻辑异步处理（通过MQ、线程池）。
- 削峰填谷：用MQ缓冲瞬时流量。
- 熔断降级：防止故障扩散，保证核心链路。
- 弹性伸缩：根据流量自动扩容缩容。

识别：监控大盘发现「商品详情页」接口RT从200ms飙升到2s，错误率轻微上升。
收集：
- 日志：grep错误日志，发现大量TimeoutException，调用「商品库存服务」超时。
- 监控：发现「商品库存服务」的CPU和RT也同时飙升。
- 链路追踪：通过TraceID查看，耗时全集中在「商品库存服务」的一个getStockById方法上。
分析：
- 登录「商品库存服务」服务器，top看到CPU占用高达300%。
- top -Hp找到高CPU线程，jstack查看堆栈，发现多个线程都卡在执行一条SQL语句上。
- 查看数据库慢查询日志，发现该SQL（SELECT * FROM stock WHERE item_id = ?）执行了10s+。
- 检查该表，发现item_id字段有索引，但表数据量已过亿。
- 根因：虽然 item_id 字段上有索引，但索引失效（比如存在隐式类型转换），而是进行了全表扫描（Full Table Scan）。对于亿级大表，全表扫描的代价是灾难性的。
修复：
- 短期：紧急扩容库存服务实例，增加数据库连接池，暂时缓解。
- 长期：优化SQL，确保索引有效；考虑按item_id进行分库分表；为getStockById方法添加本地缓存。
复盘：
- 改进项：增加数据库慢查询的实时告警；对核心接口进行压测，提前发现容量瓶颈；完善缓存策略。