数据库能跑的又快又稳，结果不遂人意发现在错误日志内存

又是一个季度一次的现场巡检，期盼数据库能跑的又快又稳，其实这是对DBA最大的馈赠了。

结果不遂人意发觉在错误日志显存在大量的如下报错：

linux 系统日志分析_linux日志管理系统_linux日志解析

点击添加图片描述（最多60个字）编辑

查看当前数据库的状态值：

linux 系统日志分析_linux日志解析_linux日志管理系统

点击添加图片描述（最多60个字）编辑

查看数据库关于数据库会话的关键参数：

数据库环境及相关参数connect_timeout10

interactive_timeout28800wait_timeout28800max_connections151net_write_timeout60net_read_timeout30

可见，自数据库启动linux 系统日志分析，440万尝试联接中，近140万会话异常退出，近200万会话无法正常联接到数据库环境。而排查错误日志中该报错无时间规律，同时顾客反馈在业务层面，时常有长联接断掉的现象。

TIP：

首先我们通过官方文档来了解Aborted_clients和Aborted_connects两个状态变量的代表意义，以及什么情况或诱因会造成这种状态变量变化呢？

linux日志解析_linux日志管理系统_linux 系统日志分析

点击添加图片描述（最多60个字）编辑

致使Aborted_connects状态变量降低的可能缘由：

1.顾客机企图访问数据库，但没有数据库的特权。

2.顾客端使用了错误的密码。

3.联接包不包含正确的信息。

4.获取一个联接包须要的时间超过connect_timeout秒。

linux日志解析_linux日志管理系统_linux 系统日志分析

点击添加图片描述（最多60个字）

致使Aborted_clients状态变量降低的可能缘由：

1.程序退出前，顾客机程序没有调用mysql_close()。

2.顾客端睡眠时间超过了wait_timeout或interactive_timeout秒。

3.顾客端程序在数据传输过程中忽然中止。

简单来说即：数据库会话无法正常联接到数据库，会导致Aborted_connects变量降低。数据库会话已正常联接到数据库但无法正常退出linux 系统日志分析，会导致Aborted_clients变量降低。

依据错误日志年报错：

Gottimeoutreadingcommunicationpackets

出现如上错误，基本上可判定为数据库认证超时造成，或则业务线程异常退出。

顾客反馈并无相关业务顾客端异常退出等操作或现象。

可简单判定会话超过interactive_timeout/wait_timeout限制时间(28800)造成会话被数据库杀掉，跟应用沟通以后，应用确认其业务逻辑会话均为长联接，不会主动进行断掉操作。如上可初步解释为什么Aborted_clients状态变量会这么之高。

那又该怎么解释Aborted_connects这个状态变量怎样之高？

能使该状态变量降低的几种可能性，我们依次来确认排查。

1.顾客机企图访问数据库，但没有数据库的特权。

2.顾客端使用了错误的密码。

3.联接包不包含正确的信息。

4.获取一个联接包须要的时间超过connect_timeout秒。

关于1、2、3这三点，可统一解释为用户/密码/权限错误造成难以正常联接到数据库。这几个错误不会在错误日志年报该错误(Gottimeoutreadingcommunicationpackets),错误日志中也不存在(Accessdeniedforuser)该类错误，且业务能正常运行。这样能够排除这三点的可能性。

linux 系统日志分析_linux日志管理系统_linux日志解析

那惟一可能就是因为联接认证超时时间超过connect_timeout秒，数据库层面connect_timeout参数设置为默认的10s。按照官方文档解释：

linux日志解析_linux日志管理系统_linux 系统日志分析

点击添加图片描述（最多60个字）编辑

10s基本上就能支持业务使用。

那还有哪些可能呢？

跟顾客确认以后，了解到应用是通过MySQLRouter联接到数据库服务器。检测Router参数文件配置，发觉如下参数设置

linux 系统日志分析_linux日志管理系统_linux日志解析

点击添加图片描述（最多60个字）编辑

发觉在Router的配置中connect_timeout配置为3s，那是否可能因为顾客端联接数据库的认证超过该限制致使。

为此建议更改Router配置文件中该参数，之后运行一段时间后是否情况得到一定的改善。

后续排查往网路方向排查linux服务器搭建，简单可通过顾客端长ping数据库服务端，查看网路是否存在波动现象。

TIP:

按照官方文档中介绍，还可能是因为网路或则硬件层面的问题导致这个问题。

linux日志解析_linux 系统日志分析_linux日志管理系统

点击添加图片描述（最多60个字）编辑

1.max_allowed_packet变量值太小，或则查询须要的显存比分配给mysqld的显存多。

2.在Linux中使用以太网合同，包括半双工和全双工。一些Linux以太网驱动程序有这个bug。您应当通过在顾客机和服务器机器之间使用FTP传输一个大文件来测试这个bug。假如传输以突发-暂停-突发-暂停模式进行，这么您正在经历一种Linux双工综合征。将网卡和网桥的双工模式切换到全双工或半双工模式，并测试结果以确定最佳设置。

3.线程库中造成读取中断的问题。

4.错误的TCP/IP配置。

linux日志解析_linux 系统日志分析_linux日志管理系统

5.有故障的以太网、集线器、交换机、电缆等等。只有通过更换硬件能够正确确诊。

下边对各种Abortedconnection的可能性进行一定的测试与剖析：

测试环境说明：MySQL5.7

测试环境及相关参数connect_timeout10

interactive_timeout28800

wait_timeout28800

max_connections151

net_write_timeout60

net_read_timeout30

注：每次测试前均重启数据库重置状态值，便捷后续比较

linux日志管理系统_linux 系统日志分析_linux日志解析

点击添加图片描述（最多60个字）编辑

测试一：错误密码、错误用户

linux日志管理系统_linux日志解析_linux 系统日志分析

点击添加图片描述（最多60个字）编辑

错误用户：数据库不存在该用户。

查看数据库内状态值：

linux日志管理系统_linux日志解析_linux 系统日志分析

点击添加图片描述（最多60个字）编辑

查看错误日志：

linux 系统日志分析_linux日志管理系统_linux日志解析

点击添加图片描述（最多60个字）编辑

测试二：超时参数

当前数据库wait_timeout及interactive_timeout均为默认的28800，下边调整这两个参数，测试对数据库联接的行为影响。

该实验同时更改两个参数为10：

linux 系统日志分析_linux日志解析_linux日志管理系统

点击添加图片描述（最多60个字）编辑

查看数据库内状态值：

linux 系统日志分析_linux日志解析_linux日志管理系统

点击添加图片描述（最多60个字）编辑

查看错误日志：

linux 系统日志分析_linux日志管理系统_linux日志解析

点击添加图片描述（最多60个字）编辑

测试三：最大联接数

当前数据库max_connections参数默认为151linux端口映射，下边调整改参数，测试对数据库联接的行为影响。

点击添加图片描述（最多60个字）编辑

当开启第四个联接会话，报如下错误：

点击添加图片描述（最多60个字）编辑

查看数据库内状态值

linux 系统日志分析_linux日志管理系统_linux日志解析

点击添加图片描述（最多60个字）编辑

此时错误日志无变化。

测试四

第三方工具SQLyogselect结果没有下来的时侯选择停止则出现：

点击添加图片描述（最多60个字）编辑

查看数据库内状态值：

linux日志管理系统_linux日志解析_linux 系统日志分析

点击添加图片描述（最多60个字）编辑

此时错误日志无变化。

推论：

1.建议业务操作结束后使应用程序逻辑以正确关掉联接，以短联接代替长联接。

2.确保max_allowed_packet的值足够高，但是顾客端没有收到“数据包太大”消息。

3.确保顾客端应用程序不终止联接。

4.检测是否启用了skip-name-resolve，检测主机按照其IP地址而不是其主机名进行身分验证。

5.尝试降低MySQL的net_read_timeout和net_write_timeout值，瞧瞧是否降低了错误的数目。

参考文献

本作品采用知识共享署名 4.0 国际许可协议进行许可

数据库能跑的又快又稳，​结果不遂人意发现在错误日志内存

数据库能跑的又快又稳，结果不遂人意发现在错误日志内存