1、负责生产系统的运行维护、性能调优、故障处理等工作;
2、负责生产系统架构演进、业务监控、持续交付、应急响应、容量规划等;
3、负责推进开发高效的自动化运维管理平台,提升运维工作效率;
4、参与公司运维体系、运维流程、运维规范制定及实施;
5、参与设计和优化监控报警系统、日志系统;
6、参与操作系统及网络安全策略的实施;
1、熟练linux操作系统,体系结构;
2、熟悉使用阿里云、aws等云产品;
3、熟练使用ansible自动化,会编写ansible playbook脚本;
4、熟悉Nginx、Tomcat等常用web服务器维护,并对JVM调优有一定的了解;
5、熟练使用docker,熟悉k8s的基础架构;
6、熟悉Redis、RabbitMQ、MySQL等中间件的相关配置及优化;
7、熟悉zabbix监控工具,有二次开发经验优先,了解Prometheus监控工具;
8、熟练使用ELK日志收集服务,要求有一定的实战经验;
9、了解DevOps流程,自动化CI/CD流水线;
10、了解分布式存储系统,有分布式配置存储经验,熟悉使用ceph,glusterfs等;
11、了解虚拟化技术kvm,vmware等;
12、了解hadoop体系结构,对大数据有一定的了解。
1、《kubernetes》部署使用经验;
2、 熟悉各种系统安全,网络安全方面的知识,掌握安全事件的定位及分析;
3、 具有高并发系统的维护经验。