직무소개
Opportunities
- Design, build, and maintain highly available, scalable, and resilient backend infrastructure that powers critical system components.
- Partner with product managers and software engineers to ensure seamless integration of reliability and performance into core commerce functionality.
- Automate everything — from deployment pipelines and monitoring to incident response and infrastructure management.
- Implement and refine full-cycle CI/CD pipelines, ensuring rapid and stable deployments while maintaining service reliability.
- Take ownership of production systems by proactively identifying and resolving performance bottlenecks, and driving operational excellence.
- Continuously improve system observability and monitoring, leveraging metrics, logging, and tracing to enhance incident detection and resolution.
- Conduct postmortems and blameless retrospectives, applying lessons learned to prevent future incidents.
- Lead and architect scalable, self-healing systems to support multi-region, high-traffic applications.
- Mentor engineers and advocate for best practices in reliability engineering, helping shape a culture of resilience and continuous improvement.
- 다양한 시스템 구성 요소와 끊임없이 통신하는 고가용성(High Availability) 및 확장성 있는 백엔드 인프라를 설계하고 구축합니다.
- 프로덕트 매니저 및 소프트웨어 엔지니어들과 협력하여 안정적이고 신뢰성 높은 커머스 기능을 제공합니다.
- 배포 자동화 및 운영 자동화를 통해 인프라 관리의 효율성을 극대화합니다.
- 풀 사이클 CI/CD 환경을 구축 및 개선하여 안정적인 서비스 배포를 보장합니다.
- 서비스의 신뢰성을 유지하고 장애를 신속하게 해결하며 Operational Excellence를 달성합니다.
- 모니터링 및 관찰 가능성(Observability) 개선을 통해 장애 감지 및 대응 시간을 단축합니다.
- 장애 발생 시 생산적인 포스트모템을 수행하고 문제를 분석하여 장기적인 해결책을 마련합니다.
- 멀티 리전, 대규모 트래픽을 처리할 수 있는 안정적이고 확장 가능한 시스템을 설계합니다.
- 엔지니어들을 멘토링하며 신뢰성 엔지니어링(SRE) 베스트 프랙티스를 전파하고, 신뢰성 중심의 문화를 조성합니다.
지원자격
Qualifications
- 7+ years of experience in software development, DevOps, or site reliability engineering.
- Proficiency in one or more modern programming languages (e.g., Python, Go, Java, or similar).
- Experience with cloud-native development (AWS, GCP, or Azure) and containerization technologies (Docker, Kubernetes).
- Strong understanding of modern web service architectures, distributed systems, and microservices.
- Passion for automation, observability, and performance tuning to improve reliability and scalability.
- Experience with infrastructure as code (IaC) tools such as Terraform, CloudFormation, or Helm.
- Expertise in monitoring and alerting with tools like Prometheus, Grafana, Datadog, or New Relic.
- Strong leadership in cross-functional collaboration, decision-making, and system design.
- 7+년 이상의 소프트웨어 개발, DevOps, 또는 사이트 신뢰성 엔지니어링 경험.
- Python, Go, Java 등 현대적 프로그래밍 언어 중 하나에 대한 전문성.
- AWS, GCP, Azure 등의 클라우드 환경에서의 개발 및 운영 경험.
- Kubernetes, Docker 등 컨테이너 오케스트레이션 및 클라우드 네이티브 기술 경험.
- 마이크로서비스 및 분산 시스템 아키텍처에 대한 깊은 이해.
- 자동화, 성능 최적화 및 장애 대응을 통한 서비스 신뢰성 향상 경험.
- Terraform, CloudFormation, Helm 등의 Infrastructure as Code (IaC) 툴 경험.
- Prometheus, Grafana, Datadog, New Relic 등의 모니터링 및 로깅 시스템 경험.
- 다양한 직무의 동료들과 협업하여 신뢰성 및 가용성을 향상시킨 경험.
우대사항
- Experience in large-scale e-commerce infrastructure, including checkout, order processing, or payment systems.
- Knowledge of multi-language and multi-region service deployment strategies.
- Hands-on experience with incident management and root cause analysis in high-traffic environments.
- Proven track record of improving operational excellence and reliability in a large-scale system.
- 대규모 이커머스 인프라(주문, 결제, 배송 등) 운영 경험.
- 다중 언어 및 다중 지역 서비스 배포 경험.
- 대규모 트래픽 환경에서 장애 대응 및 운영 경험.
- 대량 트래픽을 처리하는 시스템의 Operational Excellence를 개선한 경험.
기타 안내사항
※ 전형 안내
서류전형 - 사전코딩테스트 - 1차(HR인터뷰 및 라이브코딩테스트) - 2차(화이트보드테스트 및 CJAT(온라인 인성검사)) - 레퍼런스 체크 - 처우전형 - 건강검진 - 합격
*채용에 합격하시는 경우 3개월의 수습기간을 적용합니다.
*직무에 따라 면접 방식 및 프로세스가 변경될 수 있습니다.
*지원서 내용 중 허위사실이 확인될 경우 채용이 취소될 수 있습니다.
*서류는 하나의 공고에만 지원 가능하며, 전형 종료 시 다른 공고로 지원 가능합니다. (6개월 이내 재지원은 권장드리지 않고 있습니다.)
📢 올리브영 채용블로그를 방문해 더 많은 정보를 확인해 보세요!
👉 채용블로그 바로가기 : career.oliveyoung.com