服务器挂了怎么办

服务器挂了

作为「老鸟须知」板块的内容,这里假定已经排除了用户端的各种问题(断网了、ssh配置有问题等),是服务器或机房真的挂了。可以按以下顺序检查:

  • 尝试连接同一个ip下的其他服务器(同一个机房)

    • 如果其他机器也无法连接,基本是整个机房宕了

    • 如果可以连接,可以用其他机器当跳板,用内网ip连接本机器试试。如果成功的话或许要检查路由器设置

  • 用IPMI检查机器状况

    • 如果远程操控正常,那可能是单独掉了一根网线

    • 如果远程操控也卡住,那就远程重启

    • 如果IPMI都连不上,那就铁是机房断网断电/机器网线掉了

  • 去线下重启。记得带耳塞

很多情况是因为内存被占满,ssh进程起不来导致的。恢复后可以检查是什么任务出现的问题;或者适当扩大swap(有些机器还是默认2G的swap)

虽然听起来很离谱,但是在我们凌乱的机房里网线被踩掉确实是很可能发生的(尤其是李所机房)

服务器不但挂了,而且启不来

如果重启后始终无法连接服务器,可能是一些更硬核的问题

  • 没安装ssh(新的机器可能会遇到的蠢问题)

  • 内核更新导致nvidia驱动兼容性问题;体现为启动时卡在主板+ubuntu logo界面

    1. 重启系统,按住shift/esc来进入boot选项,选择recover mode(反正就是进恢复模式,可能不同机器操作不同)

    2. 卸载nvidia驱动

    3. 此时重启即可进系统,然后重新安装驱动

  • ssh被防火墙ban了。直接sudo ufw disable

Last updated