博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
skywalking 5.X 分布式链路跟踪 使用笔记
阅读量:6219 次
发布时间:2019-06-21

本文共 9742 字,大约阅读时间需要 32 分钟。

hot3.png

b2dbda4748548d74e2578f8cfca31dd0911.jpg

skywalking 简介(链路跟踪与分析)

随着业务越来越复杂,企业应用也进入了分布式服务化的阶段,随着模块的不断增多,一次请求可能会涉及到十几个甚至几十个服务的协同处理,那么如何准确快速的定位到线上故障和性能瓶颈,便成为我们不得不面对的棘手问题,传统的日志监控等方式无法很好达到跟踪调用,排查问题等需求。在谷歌论文《 Dapper,大规模分布式系统的跟踪系统》的指导下,许多优秀的APM应运而生。

分布式追踪系统发展很快,种类繁多,给我们带来很大的方便。但在数据采集过程中,有时需要侵入用户代码,并且不同系统的 API 并不兼容,这就导致了如果您希望切换追踪系统,往往会带来较大改动。OpenTracing为了解决不同的分布式追踪系统 API 不兼容的问题,诞生了 OpenTracing 规范。OpenTracing 是一个轻量级的标准化层,它位于应用程序/类库和追踪或日志分析程序之间。详细介绍见

opentracing文档中文版。

Skywalking是一款APM(应用程序性能监视器),尤其适用于微服务,Cloud Native和基于容器的架构系统。也称为分布式跟踪系统。它提供了一种自动检测应用程序的方法:无需更改目标应用程序的任何源代码; 以及具有高效流媒体模块的收集器。

针对分布式系统的APM(应用性能监控)系统,特别针对微服务、cloud native和容器化(Docker, Kubernetes, Mesos)架构, 其核心是个分布式追踪系统。

该项目由国人吴晟基于OpenTracking实现的开源项目skywalking(码云、github)

2017年12月8日,Apache软件基金会孵化器项目管理委员会 ASF IPMC宣布“SkyWalking全票通过,进入Apache孵化器”

 

skywalking 特点

性能好,针对单实例5000tps的应用,在全量采集的情况下,只增加 10% 的CPU开销。详细评测见《skywalking agent performance test》。

支持多语言探针

支持自动及手动探针;自动探针:Java支持的中间件、框架与类库列表; 手动探针:OpenTrackingApi、@Trace注解、trackId集成到日志中。

采用探针技术,在使用过程中,完全是0代码,无侵入,分布式自动采集与监控系统运行;

 

skywalking 下载

官方网站:

github项目地址:

下载

可以从上述地址下载,也可以直接到github上下载,选择最新版本,运行环境:jdk7,jdk8,tomcat7,tomcat8(tomcat针对web项目),建议安装使用过程,多看github上的doc文档;

 

部署 java agent

拷贝agent目录到所需位置. 日志,插件和配置都包含在包中,请不要改变目录结构.建议将该agent目录与客户端应用放在同一台服务器,多台服务器需要监控则都部署agent目录,每台服务器上的应用配置本机的agent参数;

增加JVM启动参数, -javaagent:/path/to/skywalking-agent/skywalking-agent.jar. 参数值为skywalking-agent.jar的绝对路径。

新的 agent package 目录结构如下:

+-- skywalking-agent    +-- activations         apm-toolkit-log4j-1.x-activation.jar         apm-toolkit-log4j-2.x-activation.jar         apm-toolkit-logback-1.x-activation.jar         ...    +-- config         agent.config      +-- plugins         apm-dubbo-plugin.jar         apm-feign-default-http-9.x.jar         apm-httpClient-4.x-plugin.jar         .....    skywalking-agent.jar

启动被监控应用.

高级特性

插件全部放置在 /plugins 目录中.新的插件,也只需要在启动阶段,放在目录中,就自动生效,删除则失效.

Log默认使用文件输出到 /logs目录中.

部署 java agent FAQs

Linux Tomcat 7, Tomcat 8

修改 tomcat/bin/catalina.sh,在首行加入如下信息:

CATALINA_OPTS="$CATALINA_OPTS -javaagent:/path/to/skywalking-agent/skywalking-agent.jar"; export CATALINA_OPTS

Windows Tomcat 7, Tomcat 8

修改 tomcat/bin/catalina.bat,在首行加入如下信息:

set "CATALINA_OPTS=-javaagent:/path/to/skywalking-agent/skywalking-agent.jar"

JAR file

在启动你的应用程序的命令行中添加 -javaagent 参数. 并确保在-jar参数之前添加它. 例如:

java -javaagent:/path/to/skywalking-agent/skywalking-agent.jar -jar yourApp.jar

 

更改agent配置

在agent\config目录中的agent.config内修改如下:

agent.application_code=CollectorDBCluster #对应elasticsearch中的clusterName,表示数据存储的集合名称

collector.servers=10.176.16.39:10800 #对应collector配置中的 naming

 

collector安装与配置

所需的第三方软件

JDK6+(被监控的应用程序运行在jdk6及以上版本)

JDK8+(SkyWalking collector和WebUI部署在jdk8及以上版本)

Elasticsearch 5.x(集群模式或不使用)

Zookeeper 3.4.10(单机可不使用)

被监控应用的宿主服务器系统时间(包含时区)与collectors,UIs部署的宿主服务器时间设置正确且相同

 

部署 Zookeeper(集群需要)

Zookeeper用于collector协作,仅在需要多个collector实例时才需要.

在每个collector实例的application.yml中添加Zookeeper集群配置

cluster:# zk用于管理collector集群协作.  zookeeper:    # 多个zk连接地址用逗号分隔.    hostPort: localhost:2181    sessionTimeout: 100000

部署Elasticsearch

修改elasticsearch.yml文件

设置 cluster.name: CollectorDBCluster。此名称需要和collector配置文件一致。

设置 node.name: anyname,可以设置为任意名字,如Elasticsearch为集群模式,则每个节点名称需要不同。

增加如下配置

# ES监听的ip地址network.host: 0.0.0.0thread_pool.bulk.queue_size: 1000

请参阅ElasticSearch官方文档以了解如何部署集群(推荐)

启动 Elasticsearch

 

配置 collector

下面是关于collector连接配置的5种类型方式

naming :agent使用HTTP协议连接collectors

agent_gRPC :agent使用gRPC协议连接collectors

remote :Collector使用gRPC协议连接collector

ui :使用HTTP协议连接collector,(大多数情况不需要修改)

agent_jetty:agent使用HTTP协议连接collectors(可选连接)

以下是 application.yml的详细的配置

config/application.yml

cluster:# The Zookeeper cluster for collector cluster management.  zookeeper:    hostPort: localhost:2181    sessionTimeout: 100000naming:# Host and port used for agent config  jetty:    # 配置agent发现collector集群,host必须要系统真实网络ip地址. agent --(HTTP)--> collector    host: localhost     port: 10800    contextPath: /remote:  gRPC:    # 配置collector节点在集群中相互通信,host必须要系统真实网络ip地址. collectorN --(gRPC) --> collectorM    host: localhost     port: 11800agent_gRPC:  gRPC:    # 配置agent上传(链路跟踪和指标)数据到collector,host必须要系统真实网络ip地址. agent--(gRPC)--> collector    host: localhost    port: 11800agent_jetty:  jetty:    # 配置agent上传(链路跟踪和指标)数据到collector,host必须要系统真实网络ip地址. agent--(HTTP)--> collector    # SkyWalking native Java/.Net/node.js agents don't use this.    # Open this for other implementor.    host: localhost    port: 12800    contextPath: /analysis_register:  default:analysis_jvm:  default:analysis_segment_parser:  default:    bufferFilePath: ../buffer/    bufferOffsetMaxFileSize: 10M    bufferSegmentMaxFileSize: 500Mui:  jetty:    # 配置UI访问collector,host必须要系统真实网络ip地址.    host: localhost    port: 12800    contextPath: /# 配置Elasticsearch 集群连接信息storage:  elasticsearch:    clusterName: CollectorDBCluster    clusterTransportSniffer: true    clusterNodes: localhost:9300    indexShardsNumber: 2    indexReplicasNumber: 0    highPerformanceMode: true    # 设置统计指标数据的失效时间,当指标数据失效时系统将数据自动删除.    traceDataTTL: 90 # 单位为分    minuteMetricDataTTL: 45 # 单位为分    hourMetricDataTTL: 36 # 单位为小时    dayMetricDataTTL: 45 # 单位为天    monthMetricDataTTL: 18 # 单位为月configuration:  default:    # namespace: xxxxx    # 告警阀值    applicationApdexThreshold: 2000    serviceErrorRateThreshold: 10.00    serviceAverageResponseTimeThreshold: 2000    instanceErrorRateThreshold: 10.00    instanceAverageResponseTimeThreshold: 2000    applicationErrorRateThreshold: 10.00    applicationAverageResponseTimeThreshold: 2000        # 热力图配置,修改配置后需要删除热力指标统计表,由系统重建    thermodynamicResponseTimeStep: 50    thermodynamicCountOfResponseTimeSteps: 40

参见下图示例配置:

245d13d098ea52d13c5f503d34a1bbdee8a.jpg

默认zk是注释的;

1表示的naming,是agent代理连接collector的连接,配置配置0.0.0.0或localhsot,表示对当前collector所在的服务器端口进行监听;

2表示的agent_gRPC,是指通过naming连接到collertor之后,由collertor返回和告知agent发送监控数据的gRPC连接,通常这个是配置,当前collector所在服务器,端口默认;

f5550ba64a31fa547ea1c02ef2cc4e20d62.jpg

3.表示当前的elasticsearch的连接配置,只需要配置clusterName和clusterNodes就行,如果有多个节点,则IP:prot之后用逗号隔开;clusterName必需agnet和collector一致;

 

配置 UI

UI的配置项保存在webapp/webapp.yml中. 参考下面描述,更改 collector.ribbon.listOfServers并且与 naming.jetty参数值对应.

Config Description

server.port 默认监听8080端口,修改该端口不能生效,则在skywalking-webapp.jar包application.yml中更改

collector.ribbon.listOfServers collector的访问服务名称(与config/application.yml中naming.jetty配置保持相同) 且若是多个 collector 服务名称用','分隔

collector.path Collector 查询uri地址. 默认是/graphql

collector.ribbon.ReadTimeout 查询超时时间,默认是10秒

security.user.* 登录用户名/密码. 默认是 admin/admin

 

启动 collector 节点

使用 bin/startup.sh同时启动collector和UI,若不使用1启动,需要单独启动,参考2,3

单独启动collector,运行 bin/collectorService.sh

单独启动UI,运行 bin/webappService.sh

 

自定义配置路径过滤

提供了一个可选插件 apm-trace-ignore-plugin

这个插件的作用是对追踪的个性化服务过滤.

你可以设置多个需要忽略的URL路径, 意味着包含这些路径的追踪信息不会被agent发送到 collector.

当前的路径匹配规则是 Ant Path匹配风格 , 例如 /path/*, /path/**, /path/?.

将apm-trace-ignore-plugin-x.jar拷贝到agent/plugins后,重启探针即可生效

Skywalking-使用可选插件 apm-trace-ignore-plugin 有详细使用介绍

如何配置路径

有两种配置方式,可使用任意一种,配置生效的优先级从高到低:

第一种:

在系统环境变量中配置,你需要在系统变量中添加skywalking.trace.ignore_path, 值是你需要忽略的路径,多个以,号分隔

如:在启动参数设置,添加-Dskywalking.trace.ignore_path=/your/path/**

第二种:

将/agent/optional-plugins/apm-trace-ignore-plugin/apm-trace-ignore-plugin.config 复制或剪切到 /agent/config/ 目录下,加上配置

trace.ignore_path=/your/path/1/**,/your/path/2/**

4dfcf7d21c201ab59ac53cf1a4308cdae9e.jpg

 

支持Mysql数据库分片存储

除了默认的Elasticsearch存储外,用户可以用shardingJDBC结合MySQL作为存储实现。 注意:目前仅支持MYSQL数据库的分片存储,且由于license限制,需要用户手动引入mysql驱动包。

配置要求

手工导入MYSQL的驱动包mysql-connector-java-5.1.36.jar到collector libs目录下。

config/application.yml中,删除Elasticsearch配置,添加shardingjdbc配置如下。

storage:    shardingjdbc:      driverClass: com.mysql.jdbc.Driver      # JDBC Datasource connections for ShardingJDBC, multiple should be separated by comma      url: jdbc:mysql://ip1:port1/skywalking,jdbc:mysql://ip2:port2/skywalking      # Usernames, which match the sequence of Datasource URLs      userName: admin,admin      # Passwords, which match the sequence of Datasource URLs      password: 123456,123456

 

使用SkyWalking手动追踪API

使用 maven 和 gradle 依赖相应的工具包,该工具包通过mavne有可能无法下载,可手动下载jar导入到maven

org.apache.skywalking
apm-toolkit-trace
${skywalking.version}

随时使用 TraceContext.traceId() API,在应用程序的任何地方获取traceId.

import org.apache.skywalking.apm.toolkit.trace.TraceContext;

...

modelAndView.addObject("traceId", TraceContext.traceId());

示例代码,仅供参考

import org.apache.skywalking.apm.toolkit.trace.Trace;

对任何需要追踪的方法,使用 标注,则此方法会被加入到追踪链中。

在被追踪的方法中自定义 tag.

ActiveSpan.tag("my_tag", "my_value");

/**     * 对任何需要追踪的方法,使用 @Trace 标注,则此方法会被加入到追踪链中。     * 在被追踪的方法中自定义 tag.     */    @RequestMapping("/login")    @Trace    public String login(@RequestParam("userName") String userName, @RequestParam("passwrod") String passwrod){        logger.info("login to system1, user: " + userName);        //TraceContext.traceId() API,在应用程序的任何地方获取traceId.        System.out.println(userName + "======" + passwrod + "========"+ TraceContext.traceId());        ActiveSpan.tag("login_tag", "login to system, user: " + userName);        return userService.login(userName,passwrod);    }

 

增加log4j2日志组件集成

使用 maven 和 gradle 依赖相应的工具包

org.apache.skywalking
apm-toolkit-log4j-2.x
{project.release.version}

在log4j2.xml中的pattern 配置节,配置[%traceId]

当你使用-javaagent参数激活sky-walking的探针, 如果当前上下文中存在traceid,log4j2将在输出traceId。如果探针没有被激活,将输出TID: N/A.

 

监控界面

02253ce0a409073681697a62253e2472668.jpg

46cf69584a1c17f0501d156177f496eed7f.jpg

8a72493f5966dac6f8c3612c5aa6e3b0ce3.jpg

0e16809834f4c900a70fc5ac0c62e78bf89.jpg

 

问题:

18-Jul-2018 18:55:26.296 严重 [SkywalkingAgent-2-GRPCChannelManager-0] org.apache.skywalking.apm.dependencies.io.grpc.internal.ManagedChannelImpl$ManagedChannelReference.cleanQueue *~*~*~ Channel org.apache.skywalking.apm.dependencies.io.grpc.internal.ManagedChannelImpl-83 for target localhost:11800 was not shutdown properly!!! ~*~*~*

Make sure to call shutdown()/shutdownNow() and awaitTermination().

答:将application.yml配置中的agent_gRPC下的host改成当前部署服务器的IP,端口根据需要更改;

 

参考:

(强烈推荐)

转载于:https://my.oschina.net/u/437309/blog/1920725

你可能感兴趣的文章
身为码农,为 12306 说两句公道话
查看>>
《VMware vSphere设计(原书第2版)》——3.4 小结
查看>>
如何为你的开源项目选择正确的品牌架构
查看>>
Percona XtraDB Cluster 5.7.18-29.20 发布
查看>>
MySQL基本操作命令
查看>>
《Excel 职场手册:260招菜鸟变达人》一第 6 招 带有上标的指数录入
查看>>
在 HAproxy 1.5 中使用 SSL 证书 【已翻译100%】(2/2)
查看>>
《电子元器件的可靠性》——2.4节电子元器件的失效规律
查看>>
《FLUENT 14流场分析自学手册》——第1章 流体力学基础 1.1 流体力学基本概念
查看>>
《机器人爱好者(第3辑)》——DRC机器人是很好的榜样
查看>>
Java RESTful Web Service实战(第2版) 导读
查看>>
CAAI演讲实录丨李德毅院士:交互认知——从图灵测试的漏洞谈开去
查看>>
《Java入门经典(第7版)》—— 导读
查看>>
《TensorFlow技术解析与实战》——2.5 依赖的其他模块
查看>>
《 线性代数及其应用 (原书第4版)》——1.10 经济学、科学和工程中的线性模型...
查看>>
《JUnit实战(第2版)》—第1章1.4节JUnit的设计目标
查看>>
《OpenGL ES 2.0游戏开发(上卷):基础技术和典型案例》一6.2 基本光照效果
查看>>
在Ubuntu中安装XScreenSaver
查看>>
《HTML5 2D游戏编程核心技术》——第3章,第3.9节使用视差产生视深的假象
查看>>
Practical Clojure - 简介
查看>>