当前位置：首页 > 云谷精选

SkyWalking在微服务链路追踪中怎么部署

admin2026年03月18日云谷精选49.88万

摘要：# 别让微服务成了“黑盒”，手把手教你部署SkyWalking，把问题揪出来做微服务的朋友，估计都有过这种体验：用户反馈页面打不开了，你心里咯噔一下，然后开始“猜”——是网关挂了？订单服务超时了？还是数据库连接池爆了？ **说白了，这就是在“黑盒”里…

别让微服务成了“黑盒”，手把手教你部署SkyWalking，把问题揪出来

做微服务的朋友，估计都有过这种体验：用户反馈页面打不开了，你心里咯噔一下，然后开始“猜”——是网关挂了？订单服务超时了？还是数据库连接池爆了？

说白了，这就是在“黑盒”里找故障。 服务一多，链路一长，问题到底出在哪个环节，全靠经验和玄学。这感觉，就像你家里水管漏了，但墙都封死了，你只能听着水声干着急。

我自己也经历过这种抓狂的时候。后来上了链路追踪，情况就好比给整条调用链装上了高清摄像头，哪个服务慢了、哪个接口报错了，一目了然。在众多工具里，SkyWalking 是我觉得对中文用户比较友好、功能也够硬的一个。今天不聊虚的，就聊聊它到底怎么部署，才能真的用起来，而不是躺在服务器上吃灰。

一、部署前，先想清楚：你要解决什么问题？

别一上来就照着文档敲命令。部署工具是为了解决问题，不是完成KPI。

很多人一提到链路追踪，就觉得是“运维的事”。其实不然。我见过最典型的误区是：开发把SkyWalking搭起来，看到有数据在跑，就觉得大功告成。结果真出了线上问题，打开Dashboard一看，要么数据对不上，要么关键链路根本没埋点，还是抓瞎。

所以，部署前先问自己几个问题：

核心痛点是什么？ 是排查线上故障慢？还是想分析接口性能瓶颈？
谁来看这些数据？ 开发自己看，还是运维和PM也要看？这决定了你的面板和告警要怎么配置。
重点监控哪些服务？ 不是所有服务都需要同等的监控粒度。那些核心的、调用频繁的、历史上有过“案底”的服务，才是重点关照对象。

想清楚这些，你的部署才会有侧重点，才不会变成“为了部署而部署”。

二、两种主流部署方式，怎么选？（别纠结，看场景）

SkyWalking的部署，核心就两块：后端（OAP Server） 负责收集、分析和存储数据；探针（Agent） 埋到你的应用里，负责收集数据并上报。

部署方式主要纠结在后端上。

方案A：传统虚拟机/物理机部署 —— “踏实的老黄牛”

适合谁？ 团队规模不大，服务器环境你说了算，追求稳定可控，不想在初期引入太多复杂技术栈的公司。

怎么搞？

准备一台单独的服务器。 别跟你的业务应用挤在一起，这玩意儿吃内存和CPU，尤其是聚合分析的时候。
下载、解压、改配置。 从官网下最新的发布包，重点改 config/application.yml 里的两样东西：
- 存储选型： 默认是H2（内存数据库，重启数据就没了，千万别用于生产！）。生产环境老老实实用 Elasticsearch 或者 MySQL（数据量小的话）。我个人的建议是，除非公司有现成的MySQL DBA，否则直接用Elasticsearch，它对这种时序类数据更友好，扩容也方便。
- 集群配置（可选）： 如果担心单点故障，可以配置多个OAP节点组成集群。但对于刚开始用的团队，我建议先单点跑起来，把流程打通。集群可以等你真觉得有必要了再加。
启动。 bin/startup.sh 一行命令的事。启动后，记得用 jps 命令看看 OAPServerBootstrap 和 SkyWalkingWebapp 这两个进程在不在。

说句大实话： 这种方式最直接，所有东西都在你眼皮底下，出了问题也好排查。就是前期准备稍微麻烦点。

方案B：容器化部署（Docker/K8s）—— “敏捷的现代派”

适合谁？ 公司技术栈已经容器化了，或者未来打算上云、用K8s的团队。

怎么搞？

直接用官方镜像。 apache/skywalking-oap-server 和 apache/skywalking-ui 就是你要的。别自己从头构建，除非你有定制需求。
重点在配置传递。 通过环境变量（-e）或者挂载配置文件的方式，把上面提到的存储配置（比如ES的地址、用户名密码）传给容器。Docker命令大概长这样：
```
docker run -d --name skywalking-oap \
  -e SW_STORAGE=elasticsearch \
  -e SW_STORAGE_ES_CLUSTER_NODES=你的ES地址:9200 \
  ... \
  apache/skywalking-oap-server
```
在K8s里。 就是写个Deployment和Service的yaml文件，把上述环境变量配进去。更高级的玩法可以用ConfigMap管理配置。

这种方式的优势很明显： 一键部署、扩缩容方便、和现有的容器运维体系无缝集成。但坑也不少，比如网络互通（Agent所在的Pod要能访问到OAP Service）、存储的持久化卷（PV）配置等，需要你对K8s有一定了解。

我的建议是： 如果你已经在用K8s了，闭眼选方案B。如果还在用虚拟机，先从方案A开始，简单粗暴见效快。

三、最关键的步骤：给应用“插上”探针（Agent）

后端跑起来了，但数据从哪来？靠Agent。

这里有个常见的“坑”： 很多人以为修改了应用代码。其实不用，SkyWalking的Java Agent是通过 “字节码增强” 技术实现的，属于无侵入式的。你只需要在启动命令里加一段参数就行。

以Spring Boot的Jar包启动为例：

java -javaagent:/你的路径/skywalking-agent.jar \
     -Dskywalking.agent.service_name=你的服务名 \
     -Dskywalking.collector.backend_service=你的OAP服务器地址:11800 \
     -jar your-awesome-app.jar

解释一下：

-javaagent：指定Agent的jar包路径。
service_name：在SkyWalking里显示的服务名，取个一眼能看懂的名字，比如user-center。
collector.backend_service：告诉Agent数据往哪送，就是你的OAP Server地址和gRPC端口（默认11800）。

对于Tomcat等Web容器： 修改 catalina.sh 或 setenv.sh，在 JAVA_OPTS 里加上面那段参数。

部署完了？别急，验证一下：

访问你的SkyWalking UI（默认8080端口）。
触发几次你的应用接口。
回到UI的“拓扑图”页面，等个一两分钟，应该就能看到你的服务节点和调用关系了。如果能看到，恭喜你，链路已经通了！

四、部署不是终点，用好才是关键

部署成功只是第一步，接下来怎么让它发挥价值，才是真功夫。

别只看总览大盘： 多看看“拓扑图”和“追踪”页面。拓扑图能帮你理清服务间的依赖关系，有时候一个你没想到的第三方调用可能就是性能瓶颈。“追踪”页面可以让你像调试代码一样，查看一次请求走过的完整路径，每个环节耗时多少，清清楚楚。
配置告警，变被动为主动： SkyWalking支持配置告警规则（比如服务响应时间P99>1秒，错误率>0.1%），并通过Webhook推送到钉钉、企业微信或者你的告警平台。这能让你在用户投诉之前就发现问题。
和日志关联： 这是高阶玩法。SkyWalking的每个Trace（追踪）都有一个唯一的 traceId。如果你能在打印业务日志时把这个 traceId 也输出出来，那么当你在链路上发现一个慢请求时，就能瞬间定位到这次请求对应的所有日志，排查效率直接起飞。

写在最后

部署SkyWalking，甚至任何监控工具，技术本身并不难，难的是让它在你的团队里真正用起来，形成“看数据、分析问题、优化系统”的闭环。

刚开始不用追求大而全，先把核心链路监控起来，让开发和运维同学习惯从这里开始排查问题。等大家尝到甜头了，再逐步扩大覆盖范围，增加更细粒度的监控。

说到底，工具是死的，人是活的。再好的摄像头，也得有人经常去看回放，才能防患于未然。希望这篇能帮你把SkyWalking这个“摄像头”稳稳地装好。

行了，部署中要是遇到具体问题，咱们随时再聊。

扫描二维码推送至手机访问。

本文链接：http://www.ysyg.cn:80/?id=416

返回列表

上一篇：Pinpoint和Zipkin在调用链分析上哪个好用

下一篇：Loki在云原生日志收集场景下有什么优势

SkyWalking在微服务链路追踪中怎么部署

别让微服务成了“黑盒”，手把手教你部署SkyWalking，把问题揪出来

一、部署前，先想清楚：你要解决什么问题？

二、两种主流部署方式，怎么选？（别纠结，看场景）

方案A：传统虚拟机/物理机部署 —— “踏实的老黄牛”

方案B：容器化部署（Docker/K8s）—— “敏捷的现代派”

三、最关键的步骤：给应用“插上”探针（Agent）

四、部署不是终点，用好才是关键

写在最后

“SkyWalking在微服务链路追踪中怎么部署” 的相关文章

网站被CC攻击打崩？别只盯着“技巧”，你得先看懂它的“玩法”和你的“命门”

分析高防服务器内核中的SYN Cookie算法对半连接队列的保护

解析高防CDN中的防篡改校验算法：实时比对边缘缓存与源站指纹

详解高防CDN的智能DNS权重调度算法：攻击期间的流量自动避让

探究针对UDP反射攻击的报文荷载深度匹配（DPI）过滤算法

分析高防 CDN 对特定业务逻辑（如抢购、秒杀）的防御加固方案

鄂ICP备2025123191号-1