岗位摘要
该职位为运维工程师,要求计算机相关专业本科及以上学历,具备5年以上运维经验,其中3年左右Web3运维经验。职责包括保障生产系统高可用、主导故障应急响应、优化运维流程体系、建设智能监控体系、执行日常技术运营及参与24×7轮班值守。技能需熟悉Linux系统、网络协议、自动化脚本、主流监控工具和故障排查方法,了解容器化技术及CI/CD流程,强调责任心和抗压能力。工作模式为远程,薪资范围在每月30-50美元。
技能要求:
岗位职责
保障生产系统高可用:监控核心交易、充提币、API、风控等系统的运行状态,第一时间发现并响应故障,确保 SLA 达标;主导故障应急响应:对网站及后端服务异常进行快速定位与根因分析,评估业务影响范围,协调开发、安全、DBA 等多团队协同修复,并推动复盘闭环;优化运维流程体系:持续改进 故障管理(Incident Management)、问题管理(Problem Management)流程,定义并追踪关键质量指标(MTTR、MTBF、告警准确率等);建设智能监控体系:推动完善日志(ELK/Grafana Loki)、指标(Prometheus)、链路追踪(Jaeger)及自定义业务监控,提升异常发现与定位效率;执行日常技术运营:完成系统巡检、容量评估、变更风险检查,并输出标准化 运维日报/周报;参与 24×7 轮班值守:按排班计划承担 On-call 职责,确保任何时段均有工程师可响应 P0 级事件。
岗位要求
计算机或相关专业本科及以上学历,5年以上运维经验,3 年左右web3运维经验;熟悉 Linux 系统、网络协议(TCP/IP、HTTP/S)、Shell/Python 自动化脚本;有 主流监控工具实战经验(如 Prometheus + Grafana、Zabbix、Datadog、ELK);具备 故障排查系统性思维,能熟练使用 tcpdump、strace、日志分析等手段定位复杂问题;了解 容器化技术(Docker/K8s)及 CI/CD 流程;强烈的责任心与抗压能力,能适应夜间/节假日值班;