linux服务器故障排除的四大步骤技巧
我们知道由于Linux操作系统的易用性和Windows操作系统相比较起来还是存在一定差别的。在Windows操作系统下,如果系统发生一些故障或问题的时候,我们经常会用一些补救的措施来进行故障的排除,相应的补救方法很多,其中不乏有不少简单易用的。
然而在Linux操作系统进行故障排除的工作却要复杂得多,而且故障的发现不象在Windows操作系统那样可以及时预见,需要手工运行一些系统和网络的管理命令。下面笔者就根据自己多年维修LINUX服务器的经验就系统和网络两种类型在Linux操作系统中的常见故障诊断进行说明。希望能够帮助的读者排忧解难
Linux排障技巧在数据中心十分受人重视。数据中心专家对此提供了一些Linux服务器排障相关的性能问题、优化和便利工具参考。
1、如何处理针对Linux服务器的恶意软件攻击?
Linux服务器同样存在恶意软件问题;只是它们的表现与其他平台不同。rootkit是这些问题最常见的原因。它们修改服务器原本的二进制文件,并将其替换为留有后门的版本,以此破坏系统安全性与私密性。rootkit可以攻陷服务器并让它们极度脆弱。使用文件检查器或高级入侵检测系统可以快速定位并判断rootkit可能造成的损害。同样还可以使用一些Linux命令,如有rpm -Va,可帮助系统管理员校验认证安装包的认证情况。
2、是什么导致服务器连接失败,我该如何解决这个问题?
很难确认是否为传输层安全性(TLS)证书问题,这使得Linux无法连接服务器的排障存在困难。
首先,确定是否证书存在问题。需要熟悉.crt服务器证书文件,因为证书经常由未知的颁发机构颁发,这也是影响安全凭证和信息加密公共密钥的主体。
认证失败十分常见,但理解出错原因、可能造成的影响以及如何修复十分重要。
检查日志文件与网络流量,并使用正确的Linux命令来排查连接故障。如tcpdump命令可以检查网络流量,定位哪个端口正在使用连接。这个命令可以定位协议,便于发现是否存在安全或不安全的端口,而这些端口可能是连接问题的根源。
3、Linux性能工具好用吗?
也许你从没使用过pchar、pidstat或perf_events,但你不是一个人。这些仅仅是大量Linux性能工具中的其中几个,可以利用这些工具来观察带宽、性能状态并进行动态追踪。这些工具听起来可能不起眼,但实施得当的话,可以显著提升Linux性能。
4、我的SSH服务器经常断开连接,要怎么办?
安全外壳(SSH)连接可以让管理员远程连接Linux与Unix系统,但同样也会出现与服务器断开连接的情况,这在物理上同样无法避免。这可不是一件好事,问题会随着同时登录服务器的数量增长而扩大。
SSH会关闭空闲连接来回收资源。这无意中会导致系统管理员断开连接。
当面对服务器经常断开连接的情况,可以在排错时调整两个资源配置:ClientAliveInterval参数和TCPKeepAlive参数。ClientAliveInterval参数用于设定SSH守护进程周期性检查连接是否还在使用。例如将其设置为400,SSH服务器会每400秒检查一次连接是否还在使用。TCPKeepAlive用于确定SSH会话是否依然活跃。如果你希望离开服务器远程连接后,会话仍处于空闲状态并持续一段时间,延长这两个参数即可。
Linux服务器无法正常启动,而之前的采用的老方法现在不适用了。
如果习惯了上一代Linux发行版,如Red Hat Enterprise Linux 5,你会发现在最新版本中,GRUB2和systemd改变了系统管理员排查无法正常启动系统的方式,而且需要恢复关键任务。
Red Hat Enterprise Linux 7和SUSE Linux Enterprise Server 12中,多个启动选项都已经变了。例如,runlevel选项被从两个发行版中移除。取而代之的是systemd服务集,被称作Systemd.units,其替代了rescue和emergency模式。
一旦你熟悉如何修改GRUB2默认设置,排查新版本Linux服务器故障会更容易。如果GRUB2引导程序中有东西阻止服务器正常启动,系统管理员需要修改GRUB2设置来修复配置。但GRUB2配置文件本身无法被修改,它们必须依赖于输入文件。
作为一名合格的 Linux 运维工程师,一定要有一套清晰、明确的解决故障思路,当问题出现时,才能迅速定位、解决问题,这里给出一个处理问题的一般思路:
重视报错提示信息:每个错误的出现,都是给出错误提示信息,一般情况下这个提示基本定位了问题的所在,因此一定要重视这个报错信息,如果对这些错误信息视而不见,问题永远得不到解决。