老师,您好,我在今天生产环境发现一个问题想请教下,同事反馈es的集群的索引速度过慢,我去集群上看了下,从表面看来,内存、cpu、网络、磁盘各方面指标都还可以,都不高。
操作系统为Centos,版本信息:Linux lc-gwrz-es25 3.10.0-693.el7.x86_64 #1 SMP Thu Jul 6 19:56:57 EDT 2017 x86_64 x86_64 x86_64 GNU/Linux
在dmesg去查看系统日志的时候,发现几乎每隔1-2s就有网卡重启的日志:
[12528931.704091] ixgbe 0000:01:00.0 em1: NIC Link is Up 10 Gbps, Flow Control: RX/TX
[12528933.478267] ixgbe 0000:01:00.0 em1: NIC Link is Down
[12528933.908089] ixgbe 0000:01:00.0 em1: NIC Link is Up 10 Gbps, Flow Control: RX/TX
[12528936.420314] ixgbe 0000:01:00.0 em1: NIC Link is Down
[12528938.116022] ixgbe 0000:01:00.0 em1: NIC Link is Up 10 Gbps, Flow Control: RX/TX
[12528948.595812] ixgbe 0000:01:00.0 em1: NIC Link is Down
[12528950.439906] ixgbe 0000:01:00.0 em1: NIC Link is Up 10 Gbps, Flow Control: RX/TX
[12528951.949896] ixgbe 0000:01:00.0 em1: NIC Link is Down
[12528952.643856] ixgbe 0000:01:00.0 em1: NIC Link is Up 10 Gbps, Flow Control: RX/TX
[12528953.305133] ixgbe 0000:01:00.0 em1: NIC Link is Down
[12528954.847848] ixgbe 0000:01:00.0 em1: NIC Link is Up 10 Gbps, Flow Control: RX/TX
[12528980.928031] ixgbe 0000:01:00.0 em1: NIC Link is Down
[12528981.199552] ixgbe 0000:01:00.0 em1: NIC Link is Up 10 Gbps, Flow Control: RX/TX
另外查看了下这个网卡的信息:
em1: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
ether 22:14:5b:e1:3e:2a txqueuelen 1000 (Ethernet)
RX packets 29473048069 bytes 29538551685381 (26.8 TiB)
RX errors 755381927 dropped 0 overruns 0 frame 755381927
TX packets 16901640311 bytes 17050517754286 (15.5 TiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
RX errors的数量有点多,通过es的日志来看,这台机器确实和其他主机的连接时常会超时,奇怪的是,对es的其他节点执行ping命令又能够在0.1ms内返回。我看了下网卡,网卡采用team绑定的方式,
TEAM_CONFIG="{\"runner\": {\"name\": \"lacp\"}}"。
请教下:1)为什么网络有问题,我ping显示正常;;2)这种可能是什么原因引起的。
作者回复: 以前碰到过类似的问题,是网卡驱动到导致的,可以到驱动网站看看有没有类似的错误修复