最新消息:

Redis故障整理-热KEY导致网卡PPS过高

IT技术 ipcpu 374浏览 0评论

故障背景

接到开发同学反馈,服务响应变慢,经过trace系统分析, 状态码为错误的情况很少,但是连接redis响应时间变慢,300ms以上的trace数量明显增加。

怀疑Redis出现性能问题,查看redis监控图,发现QPS接近4万。(3主3从的Cluster架构,仅有1个节点QPS高,可能有热KEY情况。)

4万QPS这个数据之前还真没有人跑过,觉着可能有瓶颈问题。阿里云Redis实例提供的QPS保障是8万,我们使用的openstack自建虚拟机,可能比不过人家财大气粗的阿里云。

处理措施

首先我们和openstack同事沟通,查看了网卡PPS值情况,网卡PPS走势基本上和QPS曲线重合,也是超过4万了,确认该PPS值已经达到单核能处理的极限值,如果需要更高的PPS值,需要将网卡升级为多队列网卡,重启虚拟机并修改参数。

另一方面,我们经过分析热key数据找到一个热KEY,这个KEY占据了80%的QPS,经过和开发的沟通,后续会对这个KEY进行拆分,拆成多个小KEY,避免QPS集中于某个节点。

添加监控报警项

# 网卡PPS值报警
 rate(node_network_transmit_packets_total{device="eth0"}[5m]) > 30000

转载请注明:IPCPU-网络之路 » Redis故障整理-热KEY导致网卡PPS过高

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址