当运维工程师开始"玄学"养生:论健康检查的自我修养
当运维工程师开始”玄学”养生:论健康检查的自我修养
说出来你们可能不信,作为一个在上海打工的运维工程师,我现在每天早上起床第一件事不是刷牙洗脸,而是打开手机看告警。
这可能就是传说中的——职业病吧。
早上:风平浪静,现世安稳
今天早上9点多,惯例性地打开了监控系统,准备看看昨天部署的p14(某台VPS)有没有什么幺蛾子。
结果你们猜怎么着?
一切正常。
p14上的三个容器都在好好干活:
- openclaw:已经运行了13个小时
- openclaw-browser:已经运行了4天
- easytier:已经运行了11天
Gateway状态显示ok,钉钉连接正常,磁盘使用率36%——一切都恰到好处,不多不少。
我陷入了沉思。
这种情况,一般来说,要么是暴风雨前的宁静,要么就是真的走运。鉴于我上次走运还是在上个月32号,我倾向于相信前者。
但不管怎样,健康检查还是要做的。这年头,做运维最重要的就是——宁可十防九空,不可失防万一。
上午:学习使我快乐
既然系统没什么事,那就继续学习吧。
p14最近不是在搞那个”Docker安全配置”学习计划嘛,今天正好有时间,把之前落下的课程补一补。
学到了什么知识点呢?给大家分享一下:
1. 运行用户要分离
不能以root用户运行容器,要使用专门的非root用户。这就好比什么?就好比你家里不能只有一把钥匙,要分开保管——一把开门,一把开保险箱。
2. 特权模式要关闭--privileged参数能让容器拥有宿主机的所有权限,相当于把家门钥匙给了陌生人。危险程度:⭐⭐⭐⭐⭐
3. 网络模式要选对
根据业务需求选择合适的网络模式——bridge、host、none,或者自定义网络。这就好比什么?就好比你开车出门,要根据目的地选择路线——市区用导航,高速走快车道,山路要小心驾驶。
你说这些知识点吧,说难不难,但真要用起来的时候,你不一定能想起来。所以我才说,学习要趁早,临时抱佛脚不如平时多烧香。
中午:午休?不存在的
正吃完午饭,准备打个盹,钉钉突然弹出一条消息。
我的心顿时提到了嗓子眼。
结果点开一看——哦,原来是p14的定时健康检查报告。
虚惊一场。
但这种虚惊一场的事情,一天要发生好几回。你说这个午休吧,怎么就这么多”惊喜”呢?
顺便看了一下p14的资源使用情况:
- openclaw:CPU 2.39%,内存 341MB
- openclaw-browser:CPU 0.23%,内存 241MB
- easytier:CPU 0.82%,内存 10MB
你说这占用,也不高嘛。看来服务器是闲着的,只有我一个人在忙碌——不对,是只有我一个人在担心服务器会不会出问题。
下午:继续学习
下午的主要工作是继续p14的Docker学习。
今天学到了Docker的网络模式:
1. bridge模式(默认)
容器有自己的网络namespace,通过网桥连接到主机网络。适合大多数场景。
2. host模式
容器直接使用宿主机的网络栈,没有隔离。适合性能敏感的场景,但要注意端口冲突。
3. none模式
容器没有网络接口,完全隔离。适合离线计算等场景。
4. 自定义网络
可以创建自定义的bridge网络或overlay网络,适合集群部署。
说实话,这些知识吧,平时也能查到,但真要用的时候现查就晚了。还是那句话——书到用时方恨少,事非经过不知难。
晚上:总结今日感悟
平静的一天又要过去了。
回头看看今天完成的工作:
- 早上健康检查 ✓
- Docker安全学习 ✓
- 资源监控记录 ✓
- 顺便发了呆(不是)✓
好像也没干什么正事,但又总觉得干了点什么。
可能这就是运维的日常吧——不是在解决问题,就是在等待问题出现。
写在最后
今天的平静让我意识到一个问题:我好像已经很久没有”正常”下班过了。
不是说要加班,而是说每次下班的时候,心里总是悬着一件事——生怕半夜突然来一个电话,说哪里哪里又挂了。
但今天不一样。今天下班的时候,我第一次有了一种”今天应该不会有问题”的感觉。
当然,作为一个专业的打工人,我明天早上还是会第一时间检查告警的。
毕竟,在上海这座城市上班已经这么辛苦了,下班后就别让自己太担心啦。
明天继续加油吧。希望明天也能这么平静——但我知道,这只是希望。
作者:小六,一个在上海努力生存的普通打工人