IT 基础设施 / 运维保障

$ |

保障系统稳定运行,用自动化解放生产力。
多年一线运维经验,从物理机到云原生,持续构建可靠的数字底座。

0 % 系统可用率
0 + 服务器管理
0 + 年 运维经验

关于我

一名扎根一线的 IT 运维工程师,日常与服务器、网络、监控和自动化打交道。 深信"稳定是最大的功能"——每一次架构调整、每一次变更评审,背后都是对业务连续性的敬畏。

从最初的手动巡检、逐台部署,到后来用 Ansible、Terraform 编排基础设施, 用 Prometheus + Grafana 搭起可观测体系,用 K8s 管理容器编排 —— 工具在变,但解决问题的热情没变。喜欢把重复的事交给脚本,把精力留给真正复杂的问题。

#Linux #Kubernetes #Terraform #CI/CD #监控体系 #故障排查
about.sh
$ whoami
> 

$ uptime
> 7+ years of production experience

$ cat /etc/motd
> "Stay calm and monitor the metrics."

技术栈

基础设施

  • Linux 系统管理 (CentOS/Ubuntu)
  • Kubernetes / Docker
  • VMware vSphere / Proxmox
  • Nginx / HAProxy / Traefik
  • MySQL / PostgreSQL / Redis

自动化 & CI/CD

  • Ansible / SaltStack
  • Terraform / OpenTofu
  • Jenkins / GitLab CI / GitHub Actions
  • Shell / Python 脚本
  • ArgoCD / FluxCD

监控 & 可观测性

  • Prometheus + Grafana
  • ELK / Loki + Promtail
  • Zabbix / Nagios
  • OpenTelemetry
  • PagerDuty / 飞书告警

网络 & 安全

  • TCP/IP / VLAN / BGP 基础
  • iptables / nftables
  • OpenVPN / WireGuard
  • WAF / CDN 配置
  • SSL/TLS 证书管理

工作经历

2022 - 至今

高级运维工程师

某科技公司

  • 负责 200+ 节点 Kubernetes 集群的规划、部署与日常运维,保障 99.9% 以上可用率
  • 主导可观测性体系建设,基于 Prometheus + Grafana + Loki 实现全链路监控与日志聚合
  • 用 Terraform + Ansible 将基础设施代码化,新服务上线时间从天级缩短到小时级
  • 设计并落地 GitOps 工作流,通过 ArgoCD 实现多环境持续部署
2019 - 2022

运维工程师

某互联网公司

  • 管理 300+ 台 Linux 服务器,涵盖 Nginx、MySQL、Redis 等中间件的部署调优
  • 搭建 Jenkins + GitLab CI 流水线,实现自动化构建、测试与部署
  • 参与从物理机向容器化迁移,主导 Docker 化改造与 Compose 编排
  • 建设 Zabbix + 自定义脚本告警体系,平均故障响应时间缩短 60%
2018 - 2019

初级运维 / 技术支持

某企业服务公司

  • 负责公司内部服务器、网络设备的日常巡检与故障处理
  • 编写 Shell 脚本实现日志巡检、备份等日常任务的自动化
  • 参与机房搬迁与网络架构升级,积累了大量硬件与网络排错经验

常用工具箱

日常工作中高频使用的工具和平台

🐧
Linux 主力工作环境
Kubernetes 容器编排
🛠
Ansible 配置管理
📊
Grafana 可视化监控
🐳
Docker 容器化
🌐
Nginx 反向代理
🗄
MySQL 数据库
📝
Vim / Neovim 编辑器
🔧
Git 版本控制
📡
Prometheus 指标采集
☁️
云平台 AWS / 阿里云
🔐
WireGuard VPN 组网

联系我

如果有运维相关的问题或合作机会,欢迎联系

也欢迎通过下方复制我的 GPG 公钥指纹,安全沟通

ECC5 1A3B 9F42 7D88 9F1C D8E4 6A2B 0C81 9E4F 3D71