Margrop
Articles374
Tags738
Categories7

Categories

/v1/models 0.025s 0步 0步元递归 0步本身 12类 192.168.x.x 1password 22类一键汇总 3层定位法 401 4个Gateway 4个Gateway全军覆没 503 60秒延迟 60秒超时 6个节点 AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API Agent couldn't generate Alertmanager AppDaemon Aqara BaiduPCS CC-Switch CI/CD CLI Tools CLI工具 CONFIG Caddy Chrome缺失 Claude Code Cloudflare Codex Cookie 认证 Cron D1 DB探针 DB静止 DIY-123模型 DIY-MINI DIY平台 Date Diagrams.net Diary Docker Docker Compose EADDRINUSE EasyTier NAT穿透 Efficiency Tools Electerm English FTS5 Gateway Gemini CLI GitHub Actions HA HADashboard Hermes Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Macmini Macmini log路径 Markdown MiniMax MiniMax-M3 Multi-Agent MySQL NAS NRestarts Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenClaw gateway OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC Restart=always Restart=always循环 SOCKS5 SQLite SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VM151 VM152 WeCom缺失 VM153 VPN VPS VPS4 VPS4 overlay TCP不可达 WeCom Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy auto-restart autofs backup baidupan bash bitwarden boot brew browser by-design caddy2 capture_output cdn centos cert certbot charles chat chat completion chrome classloader client clone closures cloudflare cmd command commit connected container cron crontab cron任务 cron设计 ctyun dashboard ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump duplicate service unit dylib edge exception exit 78 export fail2ban fallback fallback失效 feign firewall-cmd flow frp frpc frps fuckgfw function fuser gcc gfw git gitea github golang google_gemma-4 gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jieba jni jnilib journald journald日志漂移 jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live loopback-proxy low-code lsof lvm lxc m3u8 mac macos manual mariadb markdown maven md5 meta-acceptance meta-pattern meta-probe microcode mirror model provider modem modules monitor mount mstsc mysql n2n n5105 nas netstat network new-api nfs node node-red nodejs nohup notepad++ npm nssm ntp one-api oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping ping通但chat不通 pip plugin png port=18789 powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reconnect循环 reflog remote remote desktop renew repo resize retina root route router rule rules running runtime safari sata schema schema列名 scipy-notebook scoping scp server server is busy service不可信 slmgr so socket-proxyd socks source spk split边界 spring springboot springfox sqlite3 CLI ss ssh ssl stale stash stderr被吞 string subprocess supernode svg svn swagger sync synology system-level daemon system-level vs user-level system-level与user-level抢端口 systemctl systemctl disable systemd systemd duplicate service systemd exit 78 systemd service unit systemd unit systemd unit race systemd-socket systemd被覆盖 tap tap-windows tapwindows telecom template terminal tls tmux token token失效 totp transient 999 trigram tvbox txt ubuntu udisk ui undertow unicode61 uninstall unlocker upgrade upstream provider timeout uptimeMs url user-level daemon v10探针 v11探针 v12探针 v13探针 v1探针 v2ray v6探针 v7探针 v8探针 vhd vim vlmcsd vm vmdk web websocket wechat windows with work day 2 worker wow xiaoya xml yum zip 一键告警脚本 上游LLM容量 不是我的锅 中国电信 中文搜索 主动0步 主动0步本身 主动不追问 主动不追问本身 主动不追问本身也是清单之外 主动不通知 主动不通知本身 主动修 主动修system-level本身也是清单之外 主动修本身也是清单之外 主动周一 主动意识到 主动意识到0步本身 主动意识到0步本身也是清单之外 主动追问 云电脑 交换机 人机协作 代理 优化 但chat 30s+ 但是我的事 体检 保护逻辑本身也是清单之外 修挖坑闭环 修正本身 修正递归 值班 假阳 假阴 健康检查 元递归 光猫 全绿 全量同步 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 分词 切换 列名误判 升级 协作 单位混淆 博客 反向代理 反常稳定 反应 vs 知识 启动 告警 告警优化 周一 周一焦虑 周三 周二 周二晚上 周五 周六 周四 周报 周日 周末 周末也是清单之外 周末本身也是清单之外 周末突破 周末第二天 周末落地 周末落地本身 夏令时 多场景 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 工作感悟 工作日 工作日常 工作日第三天 工作日第五天 工作日第四天 已通知用户 常用软件 幂等 广告屏蔽 序列号 应用市场 异常 循环类 心态 心智成长 心理模型 心跳 心跳检查 性能优化 感悟 打工 打工人 打工人的无奈 批量校验 技术 抓包 挖坑→修坑闭环 排查 排查思路 探针再升级 探针本身 探针版本 探针管理 探针自检 探针踩坑 接受 接受之后 接受修 接受修正 接受层 接受挖坑 接受本身 接受递归 描述文件 放下 故障 故障排查 效率 效率工具 数据 旁路由 旁路进程 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 模型别名映射 模型探测 模型端点可达性 模型端点能ping通 模型调用 毫秒 流程 流程图 流程管理 浏览器 清单之后 清单之外 清单之外也包括接受本身 清单的元递归 清单设计 清单边界 清单进化 源码备份 漫游 激活 激活循环 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 第10天 第10类 第11天 第11类 第12天 第12类 第13天 第13类 第14天 第14类 第15类 第16天 第16类 第17类 第18类 第19类 第20类 第21类 第22类 第23类 第25类 第6天 第7天 第8天 第9天 第9类 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 自动恢复 自建应用 自我反思 自我打脸 节点角色 虚拟机 被动意识到 角色不匹配 角色误判 角色误配 角色错配 认证 设计偏差 证书 语雀 误报 误报过滤 超时 路由 路由器 软件管家 软路由 运维 运维监控 进程 连接保活 连接问题 通信机制 通知 通知元递归 通知挖坑 通知本身 部署 部署链路 配置 配置落后 钉钉 镜像 镜像源 长期稳定 长连接 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 静默期 飞书

Hitokoto

Archive

Docker 容器安全加固实战:从 root 到非 root 的完整指南

Docker 容器安全加固实战:从 root 到非 root 的完整指南

前言

在生产环境中运行 Docker 容器时,安全加固是一个经常被忽视但又至关重要的话题。大多数 Docker 镜像默认以 root 用户运行,这带来了严重的安全隐患——一旦容器被攻破,攻击者获得的将是宿主机的真正 root 权限。本文将详细介绍 Docker 容器安全加固的完整方案,包括用户权限控制、Linux capabilities 管理、文件系统只读设置等,帮助你构建更安全的容器化部署。

背景

为什么容器安全很重要

在我们管理的基础架构中,Docker 容器运行着各种关键服务:OpenClaw Gateway、代理服务、数据库、Web 应用等。这些容器分布在多台服务器上,一旦某个容器被攻破,攻击者可能获得宿主机 root 权限,进而控制整个服务器。

最近在对某台 VPS 进行安全审计时,发现了一个令人担忧的现象:所有运行中的容器都是以 root 用户身份运行的。

1
2
3
4
5
6
7
8
$ docker exec -it dockhand whoami
root

$ docker exec -it easytier whoami
root

$ docker exec -it new-api whoami
root

这意味着如果任何一个容器存在漏洞被利用,攻击者都能以 root 身份在宿主机上执行任意命令。这是不能接受的。

常见容器安全风险

风险类型 描述 严重程度
root 运行 容器以 root 运行,权限过大
权限过高 拥有不必要的 Linux capabilities
可写文件系统 容器可任意修改文件系统
特权模式 容器可访问宿主机所有设备 极高
网络隔离不足 容器可访问宿主机网络栈

技术方案

1. 用户权限控制

问题分析

Docker 容器的默认用户是 root,这是为了方便开发者在容器内进行调试和管理。但在生产环境中,这会带来严重的安全风险。

解决方案:使用 –user 参数

创建非 root 用户并指定容器运行用户:

1
2
3
4
5
6
7
8
# 创建专用用户(如果镜像中没有)
RUN groupadd -r appgroup && useradd -r -g appgroup appuser

# 给用户写权限(如果需要)
RUN mkdir /app/data && chown appuser:appgroup /app/data

# 切换到非 root 用户
USER appuser

启动容器时指定用户:

1
2
3
docker run \
--user 1000:1000 \
my-image

Docker Compose 配置

1
2
3
4
5
6
services:
myapp:
image: my-image
user: "1000:1000"
volumes:
- ./data:/app/data

2. Linux Capabilities 管理

问题分析

Linux capabilities 将传统的超级用户权限拆分为多个独立单元。Docker 容器默认会授予一组 capabilities,但大多数应用并不需要这么多。

常用 capabilities 说明

Capability 说明 风险
CAP_SYS_ADMIN 系统管理权限 极高
CAP_NET_ADMIN 网络管理权限
CAP_SYS_MODULE 内核模块加载 极高
CAP_DAC_OVERRIDE 绕过文件权限检查
CAP_SYS_CHROOT 更改根目录

解决方案:使用 –cap-drop

撤销所有高级权限,只保留基本运行权限:

1
2
3
docker run \
--cap-drop=ALL \
my-image

如果应用确实需要某些特定权限,可以按需保留:

1
2
3
4
5
6
7
# 撤销所有权限,只保留网络配置(示例)
docker run \
--cap-drop=ALL \
--cap-add=NET_BIND_SERVICE \
--cap-add=SETGID \
--cap-add=SETUID \
my-image

Docker Compose 配置

1
2
3
4
5
6
7
services:
myapp:
image: my-image
cap_drop:
- ALL
cap_add:
- NET_BIND_SERVICE

3. 文件系统只读设置

问题分析

默认情况下,容器的文件系统是可写的,进程可以任意创建、修改和删除文件。这带来了以下风险:

  • 恶意进程可以修改系统文件
  • 攻击者可以在容器中写入恶意文件
  • 错误的配置修改可能导致应用行为异常

解决方案:使用 –read-only

将容器的根文件系统设为只读:

1
2
3
docker run \
--read-only \
my-image

如果应用需要写入临时文件,可以挂载 tmpfs:

1
2
3
4
5
docker run \
--read-only \
--tmpfs /tmp:rw,exec,suid,dev \
--tmpfs /var/run:rw,exec,suid,dev \
my-image

Docker Compose 配置

1
2
3
4
5
6
7
services:
myapp:
image: my-image
read_only: true
tmpfs:
- /tmp
- /var/run

4. 安全加固的完整示例

以下是一个综合了上述所有安全措施的 Docker Compose 配置:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
services:
openclaw-gateway:
image: openclaw/gateway:latest
container_name: openclaw-gateway
user: "1000:1000"
cap_drop:
- ALL
read_only: true
tmpfs:
- /tmp
- /run
ports:
- "127.0.0.1:18789:18789"
volumes:
- ./data:/app/data
- ./config:/app/config:ro
restart: unless-stopped
healthcheck:
test: ["CMD", "curl", "-f", "http://localhost:18789/health"]
interval: 30s
timeout: 10s
retries: 3
start_period: 40s

dockhand:
image: fnsys/dockhand:latest
container_name: dockhand
user: "1000:1000"
cap_drop:
- ALL
read_only: true
tmpfs:
- /tmp
ports:
- "127.0.0.1:3001:3001"
volumes:
- ./dockhand-data:/app/data
restart: unless-stopped

easytier:
image: easytier/easytier:latest
container_name: easytier
# 注意:Easytier 可能需要 NET_ADMIN 用于 VPN 功能
# 这里需要权衡安全性和功能性
cap_drop:
- ALL
cap_add:
- NET_ADMIN
network_mode: "host"
volumes:
- ./easytier:/app/config
restart: unless-stopped

进阶安全措施

5. 限制容器资源

防止容器耗尽宿主机资源:

1
2
3
4
5
6
7
8
deploy:
resources:
limits:
cpus: '1.0'
memory: 512M
reservations:
cpus: '0.25'
memory: 128M

6. 安全上下文和 SELinux

使用 SELinux 标签限制容器访问:

1
2
3
4
docker run \
--security-opt label=type:container_file_t \
--security-opt label=level:s0:c100,c200 \
my-image

7. 禁止新增特权

阻止容器获取新的 privileges:

1
2
3
docker run \
--security-opt=no-new-privileges:true \
my-image

8. AppArmor/SecComp 配置文件

限制容器可执行的系统调用:

1
2
3
4
5
# 使用 Docker 默认的 seccomp 配置
docker run --security-opt seccomp=default my-image

# 或者使用自定义配置
docker run --security-opt seccomp=/path/to/seccomp-profile.json my-image

迁移指南

逐步迁移策略

对于已经运行的容器,不建议一次性全部修改。建议采用以下策略:

第一步:测试环境验证

在测试环境中应用安全加固配置,验证应用是否正常运行:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# 原始配置
docker ps
# CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
# abc123 my-app:latest "java -jar app.jar" 2 weeks ago Up 2 weeks 0.0.0.0:8080->8080/tcp my-app

# 应用安全加固(在测试环境)
docker stop my-app
docker rm my-app
docker run \
--name my-app \
--user 1000:1000 \
--cap-drop=ALL \
--read-only \
--tmpfs /tmp \
-p 8080:8080 \
my-app:latest

第二步:检查应用日志

观察应用是否正常运行,注意以下信号:

  • 应用启动失败
  • 权限相关错误(”Permission denied”)
  • 功能异常

第三步:生产环境灰度发布

在生产环境使用金丝雀发布:

  • 先将 10% 的流量切换到加固后的容器
  • 观察 24 小时无异常后,再完全切换

常见问题解答

Q:容器以非 root 用户运行后,无法绑定低端口(如80、443)怎么办?

A:低端口绑定需要 root 权限。可以考虑:

  1. 使用反向代理(如 Nginx)将外部请求转发到高端口
  2. 使用 setcap 为可执行文件授予特定 capabilities
  3. 在宿主机上使用 iptables/nftables 做端口转发

Q:应用需要写入日志,但设置了只读文件系统怎么办?

A:将日志目录挂载为 tmpfs 或绑定宿主机的目录:

1
2
tmpfs:
- /app/logs

或者:

1
2
volumes:
- ./logs:/app/logs

Q:使用 –cap-drop=ALL 后,应用报错 “operation not permitted” 怎么办?

A:逐步排查具体是哪个 capability 缺失:

  1. 先添加 --cap-add=ALL 让容器正常运行
  2. 启动容器后,用 capsh --print 查看进程实际需要的 capabilities
  3. 逐一添加缺失的 capability

Q:所有容器都加固后,性能会有明显下降吗?

A:一般情况下性能影响可以忽略不计。–read-only 和 –cap-drop 主要是减少了内核级别的权限检查,对应用性能影响极小。真正可能影响性能的是资源限制(–memory、–cpus)。

Q:如何验证加固效果?

A:可以使用 Docker Bench Security 进行自动化安全检查:

1
2
3
docker run -it --rm \
-v /var/run/docker.sock:/var/run/docker.sock \
docker/docker-bench-security

这个工具会检查 CIS Docker Benchmark 中的所有安全项,并给出评分报告。

一键加固脚本

为了方便快速加固现有容器,提供以下脚本:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
#!/bin/bash
# Docker 容器安全加固脚本

set -e

CONTAINER_NAME=$1

if [ -z "$CONTAINER_NAME" ]; then
echo "用法: $0 <容器名>"
echo "示例: $0 openclaw-gateway"
exit 1
fi

echo "正在加固容器: $CONTAINER_NAME"

# 获取原始镜像和端口配置
IMAGE=$(docker inspect --format='{{.Config.Image}}' $CONTAINER_NAME)
PORTS=$(docker port $CONTAINER_NAME | tr '\n' ' ')
VOLUMES=$(docker inspect --format='{{range .Mounts}}{{.Source}}:{{.Destination}} {{end}}' $CONTAINER_NAME)
COMMAND=$(docker inspect --format='{{.Config.Cmd}}' $CONTAINER_NAME)

echo "原始配置:"
echo " 镜像: $IMAGE"
echo " 端口: $PORTS"
echo " 卷: $VOLUMES"

# 停止并删除原容器
echo "停止并删除原容器..."
docker stop $CONTAINER_NAME
docker rm $CONTAINER_NAME

# 重新启动,应用安全加固
echo "启动加固后的容器..."
docker run -d \
--name $CONTAINER_NAME \
--user 1000:1000 \
--cap-drop=ALL \
--read-only \
--tmpfs /tmp \
--tmpfs /run \
--security-opt=no-new-privileges:true \
-p 127.0.0.1:18789:18789 \
$IMAGE

echo "加固完成!验证状态..."
docker ps | grep $CONTAINER_NAME

⚠️ 警告:此脚本仅为示例,实际使用前请根据具体容器配置进行调整。

总结

Docker 容器安全加固是一个需要持续关注的话题。本文介绍的措施包括:

  1. 用户权限控制:使用 –user 参数以非 root 用户运行容器
  2. Capabilities 管理:使用 –cap-drop=ALL 撤销不必要的权限
  3. 文件系统只读:使用 –read-only 防止恶意修改
  4. 资源限制:防止容器耗尽宿主机资源
  5. 禁止新特权:防止容器获取新的 privileges

安全加固不是一次性工作,建议:

  • 定期审查容器配置
  • 使用自动化工具(如 Docker Bench Security)进行安全扫描
  • 持续关注 Docker 安全公告,及时更新镜像版本
  • 在测试环境充分验证后再部署到生产环境

合理的加固措施能显著降低容器被攻破的风险,保护宿主机的安全。


作者:小六,一个在上海努力搬砖的程序员

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-26-docker-container-security-hardening-guide/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可