Tailscale流量异常

原因

我于一天前在物语云vps上安装了tailscale derp,作为中继, 并且将寝室与实验室的两台n1盒子加入到了虚拟局域网,并且分别设置了子网转发(即,允许n1盒子所在子网的设备在虚拟局域网中可见);最后,在物语云上以节点加入到虚拟网络(tailscale up)

但第二天,物语云主机显示,12小时内消耗了1TB流量(上下行共计);

排查过程

1、**停止可疑服务:**由于只在vps上安装了tailscale,根据控制变量法,问题一定是出自tailscale相关配置;于是我先停下了vps本地作为节点加入的服务;

2、监控网络流量走向

安装ntopng(一个可以实时监控网络流量的工具)

1
apt install ntopng

默认会在3000端口运行,/etc/ntopng.conf里修改w=3000为其它数字即可修改端口;

此外,物语云有外部防火墙,需要额外放开端口

随后,我发现有两个ip占用了非常大的带宽,这两个ip其实就是我的两个n1盒子公网ip;(关键点!)

我立即将derp服务停止,流量恢复正常,不再有大带宽进程占用;

但此时,仍然没有解决问题;

PS:除了ntopng, 还可以使用iftop来查看实时流量;

3、找根本原因

随后,再使用控制变量法进行排查;

我重启了derp,并且将所有客户端的tailscale都down掉;

按单设备逐个加入到网络,我将几台vps以及移动设备加入网络后,并未出来大规模的流量占用;

此时,已经能确定是两台n1盒子的问题;

我意识到,我在n1盒子上还部署过zerotier,并且设置了同样的子网转发,真相大白了!zerotier和tailscale同时设置子网转发会出现异常数据回环之类的错误

随后,我停下两台n1盒子的zerotier服务,再加入到tailscale网络,经过大约一小时的持续监控,未出来流量异常的情况;

4、根本原因2

uu远程没关,产生一晚上流量;