우아한형제들

[Tech] System Reliability Engineering (SRE)팀 SRE 개발자

[조직소개]

서비스인프라실은 클라우드인프라스트럭쳐부터 개발자 콘솔, 배포, 모니터링, 장애대응까지 진행하는 실입니다. 그중에서 SRE팀은 모니터링플랫폼으로 가시성을 제공하고 전사 장애에 주체적으로 대응합니다. 서비스 안정화 지표를 마련하고 목표를 수립하며 소프트웨어 시스템과 서비스를 안정적으로 운영하는 노력을 기울입니다.

[업무내용]

- 시스템의 성능, 가용성, 안정성 등을 모니터링하고, 시스템의 이상 사항을 신속하게 파악하여 현장 팀과 함께 대응합니다.

- 시스템 장애가 발생했을 때 신속하게 장애의 원인을 파악하여 조치합니다. 또한, 시스템의 문제를 해결하기 위한 체계 등을 수립하고 수행합니다.

- 시스템의 안정성을 고려하여 시스템의 설계와 개발에 참여합니다. 시스템의 안정성, 확장성, 보안성 등을 고려하여 시스템 아키텍처를 검토하고, 안정적인 시스템 운영을 위한 자동화 도구를 개발합니다.

- 시스템 안정을 위한 여러 예방 활동을 주도하고 참여합니다. 이는 제도적인 노력과 함께 카오스 엔지니어링 같은 공학적 접근

[지원 자격]

- 백엔드 서비스 개발 및 운영 경력이 8년 이상

- 커뮤니케이션 및 협업 능력

- 기술적 문제 이해 능력

[우대 사항]

- Java, Kotlin, Spring Framework 등을 활용하여 서비스를 개발한 분

- 높은 가용성을 가진 시스템을 설계 및 운영하고 그 경험을 토대로 기존 서비스를 개선해 안정화해 본 분

- 시스템 로드맵을 스스로 제시하고 이를 구축하기 위한 절차를 동료와 논의해 진행하실 수 있는 분

- Kafka, Redis, OpenSearch 등 다양한 오픈소스 시스템의 동작 원리를 이해하고 있으며, 장애시 문제 지점을 빠르게 찾아내어 해결하는 데 능숙한 분

- Spring Framework, JPA, HikariCP 등 백엔드 기술의 코드 레벨 구조 및 동작 원리를 이해하고 있어, 문제가 발생했을 때 이를 활용해 빠르게 대응 가능한 분

[개발환경]

Kotlin, AWS, Kubernetes, Git, Slack, Jira, Confluence, Prometheus, Grafana 외

[꼭 읽어 주세요!]

- 지원 시 경력기술서(PDF형식) 필수 첨부 부탁드립니다.

- 경력기술서는 자신의 기술력을 보여 줄 수 있는 프로젝트나 협력했던 활동사항 위주로 작성해주세요.

(진행기간, 주요업무내용, 본인이 기여한 기술력, 결과/성과/성취 등)

- 코딩테스트는 개별적으로 안내드리며, 심사는 평균 일주일 정도 소요됩니다.

채용 홈페이지지원하기