콘텐츠로 이동

do4ai Obsidian

서비스 배포 이상 1차 대응 절차

do4ai Obsidian

do4ai Obsidian
Data Sources
Data Sources
- [UL]
  [UL]
  - Rows
    Rows
    
    상품이란
- 새 데이터베이스
  새 데이터베이스
  - Rows
    Rows
    
    김현우
- 새 데이터베이스 31fe313f
  새 데이터베이스 31fe313f
SenseCore AI LAB, AI융합학부
SenseCore AI LAB, AI융합학부
- Convention
  Convention
- Domains
  Domains
  - Domain Template
    
    Domain Template
    
    UL
    
    UL
    
    도메인 스토리텔링
    
    도메인 스토리텔링
    
    바운디드 컨텍스트
    
    바운디드 컨텍스트
    
    컨텍스트 맵
    
    컨텍스트 맵
  - OAuth 2.0
    
    OAuth 2.0
  - 논문 검사 솔루션
    
    논문 검사 솔루션
    
    UL
    
    UL
    
    도메인 스토리텔링
    
    도메인 스토리텔링
    
    바운디드 컨텍스트
    
    바운디드 컨텍스트
    
    컨텍스트 맵
    
    컨텍스트 맵
  - 에이전트 플랫폼
    
    에이전트 플랫폼
    
    UL
    
    UL
    
    도메인 스토리텔링
    
    도메인 스토리텔링
    
    바운디드 컨텍스트
    
    바운디드 컨텍스트
    
    컨텍스트 맵
    
    컨텍스트 맵
  - 자동차 경매
    
    자동차 경매
    
    UL
    
    UL
    
    도메인 스토리텔링
    
    도메인 스토리텔링
    
    바운디드 컨텍스트
    
    바운디드 컨텍스트
    
    컨텍스트 맵
    
    컨텍스트 맵
- Guide
  Guide
  - 00. SCAI LAB Guide 사용법
    
    00. SCAI LAB Guide 사용법
  - 10. 연구실 운영 개요
    
    10. 연구실 운영 개요
  - 20. 계정과 접근
    
    20. 계정과 접근
  - 30. 연구실 업무 도구
    
    30. 연구실 업무 도구
  - 40. 연구 개발 환경
    
    40. 연구 개발 환경
  - 50. 인프라와 플랫폼
    
    50. 인프라와 플랫폼
    
    ArgoCD 운영 흐름 가이드
    
    ArgoCD 운영 흐름 가이드
    
    GitOps 운영 모델 가이드
    
    GitOps 운영 모델 가이드
    
    Infisical 시크릿 관리 가이드
    
    Infisical 시크릿 관리 가이드
    
    Kubernetes 기본 구조 가이드
    
    Kubernetes 기본 구조 가이드
    
    Observability 운영 가이드
    
    Observability 운영 가이드
    
    k3s GitOps 운영 클러스터 초보자 가이드
    
    k3s GitOps 운영 클러스터 초보자 가이드
    
    K3s 운영 구조 가이드
    
    K3s 운영 구조 가이드
  - 60. 서비스 운영
    
    60. 서비스 운영
  - 70. 데이터, 관측, 보안
    
    70. 데이터, 관측, 보안
    
    k3s 운영 장애 Discord 리포트 설계
    
    k3s 운영 장애 Discord 리포트 설계
    
    운영 장애 Discord 리포트 솔루션 리서치
    
    운영 장애 Discord 리포트 솔루션 리서치
  - 80. 협업과 커뮤니케이션
    
    80. 협업과 커뮤니케이션
  - 90. 장애 대응과 운영 판단
    
    90. 장애 대응과 운영 판단
- Lecture
  Lecture
  - AI를 위한 수학
    
    AI를 위한 수학
    
    01. 숫자와 계산의 감각
    
    01. 숫자와 계산의 감각
    
    1. 문자와 식, 다항식의 구조
    
    1. 문자와 식, 다항식의 구조
    
    2. 방정식과 부등식
    
    2. 방정식과 부등식
    
    3. 함수와 그래프
    
    3. 함수와 그래프
    
    4. 지수와 로그
    
    4. 지수와 로그
    
    5. 수열, 급수, 시그마
    
    5. 수열, 급수, 시그마
    
    6. 삼각함수와 복소수
    
    6. 삼각함수와 복소수
    
    문제 해설 01. 숫자와 계산의 감각
    
    문제 해설 01. 숫자와 계산의 감각
    
    02. 벡터와 행렬의 시작
    
    02. 벡터와 행렬의 시작
    
    10. 직교성, 투영, 최소제곱
    
    10. 직교성, 투영, 최소제곱
    
    11. 특이값분해와 저랭크 근사
    
    11. 특이값분해와 저랭크 근사
    
    7. 벡터공간과 기저
    
    7. 벡터공간과 기저
    
    8. 행렬연산과 선형시스템
    
    8. 행렬연산과 선형시스템
    
    9. 선형변환과 고유값
    
    9. 선형변환과 고유값
    
    문제 해설 02. 식과 방정식의 언어
    
    문제 해설 02. 식과 방정식의 언어
    
    03. 그래프와 함수의 시야
    
    03. 그래프와 함수의 시야
    
    12. 극한, 연속, 미분
    
    12. 극한, 연속, 미분
    
    13. 다변수미분과 Jacobian
    
    13. 다변수미분과 Jacobian
    
    14. 적분, 누적량, 확률밀도
    
    14. 적분, 누적량, 확률밀도
    
    15. Taylor 전개와 근사
    
    15. Taylor 전개와 근사
    
    16. 미분방정식과 동역학
    
    16. 미분방정식과 동역학
    
    문제 해설 03. 미적분과 해석
    
    문제 해설 03. 미적분과 해석
    
    04. 경우의 수, 확률, 통계의 기초
    
    04. 경우의 수, 확률, 통계의 기초
    
    17. 조합론과 확률
    
    17. 조합론과 확률
    
    18. 확률변수와 주요 분포
    
    18. 확률변수와 주요 분포
    
    19. 기대값, 분산, 공분산
    
    19. 기대값, 분산, 공분산
    
    20. 통계적 추정, MLE, MAP, 베이즈
    
    20. 통계적 추정, MLE, MAP, 베이즈
    
    21. 가설검정, 신뢰구간, 실험설계
    
    21. 가설검정, 신뢰구간, 실험설계
    
    문제 해설 04. 확률과 통계
    
    문제 해설 04. 확률과 통계
    
    05. 최적화와 정보이론
    
    05. 최적화와 정보이론
    
    22. 볼록성, 제약최적화, 라그랑주
    
    22. 볼록성, 제약최적화, 라그랑주
    
    23. 경사하강법, 모멘텀, Adam
    
    23. 경사하강법, 모멘텀, Adam
    
    24. 수치선형대수와 자동미분
    
    24. 수치선형대수와 자동미분
    
    25. 엔트로피, cross entropy, KL divergence
    
    25. 엔트로피, cross entropy, KL divergence
    
    26. 일반화, 정규화, bias variance
    
    26. 일반화, 정규화, bias variance
    
    문제 해설 05. 최적화와 정보이론
    
    문제 해설 05. 최적화와 정보이론
    
    06. 머신러닝 이론
    
    06. 머신러닝 이론
    
    27. 선형회귀와 최소제곱
    
    27. 선형회귀와 최소제곱
    
    28. 로지스틱 회귀와 지수족
    
    28. 로지스틱 회귀와 지수족
    
    29. PCA와 잠재공간
    
    29. PCA와 잠재공간
    
    30. 커널방법과 RKHS 직관
    
    30. 커널방법과 RKHS 직관
    
    31. 그래픽모델, EM, 잠재변수
    
    31. 그래픽모델, EM, 잠재변수
    
    문제 해설 06. 머신러닝 이론
    
    문제 해설 06. 머신러닝 이론
    
    07. 딥러닝과 생성모델
    
    07. 딥러닝과 생성모델
    
    32. 신경망, 계산그래프, backprop
    
    32. 신경망, 계산그래프, backprop
    
    33. 초기화, 정규화, residual, optimization tricks
    
    33. 초기화, 정규화, residual, optimization tricks
    
    34. self supervised learning과 표현학습
    
    34. self supervised learning과 표현학습
    
    35. variational inference, ELBO, VAE
    
    35. variational inference, ELBO, VAE
    
    36. 확률과정, score matching, diffusion
    
    36. 확률과정, score matching, diffusion
    
    문제 해설 07. 딥러닝과 생성모델
    
    문제 해설 07. 딥러닝과 생성모델
    
    08. LLM, VLM, 멀티모달 AI 수학
    
    08. LLM, VLM, 멀티모달 AI 수학
    
    37. Attention, Transformer, positional math
    
    37. Attention, Transformer, positional math
    
    38. LLM pretraining, scaling laws, tokenization
    
    38. LLM pretraining, scaling laws, tokenization
    
    39. Alignment SFT, RLHF, DPO
    
    39. Alignment SFT, RLHF, DPO
    
    40. CLIP, contrastive learning, multimodal alignment
    
    40. CLIP, contrastive learning, multimodal alignment
    
    41. VLM, multimodal generation, fusion architectures
    
    41. VLM, multimodal generation, fusion architectures
    
    42. Frontier topics optimal transport, graphs, manifolds, mechanistic interpretability, 최신 논문 독해
    
    42. Frontier topics optimal transport, graphs, manifolds, mechanistic interpretability, 최신 논문 독해
    
    문제 해설 08. LLM, VLM, 멀티모달 AI 수학
    
    문제 해설 08. LLM, VLM, 멀티모달 AI 수학
  - 풀스택실전스터디
    
    풀스택실전스터디
    
    Lecture Sync Test
    
    Lecture Sync Test
    
    커리큘럼
    
    커리큘럼
- Manual
  Manual
  - 00. SCAI LAB Manual 사용법
    
    00. SCAI LAB Manual 사용법
  - 10. 계정 발급과 회수
    
    10. 계정 발급과 회수
  - 20. 외부 로그인 설정
    
    20. 외부 로그인 설정
    
    구글로그인
    
    구글로그인
    
    카카오로그인
    
    카카오로그인
  - 30. 서버와 배포 작업
    
    30. 서버와 배포 작업
    
    k3s 클러스터 접속과 GitOps 배포 점검
    
    k3s 클러스터 접속과 GitOps 배포 점검
  - 40. 운영 변경 작업
    
    40. 운영 변경 작업
    
    Ingress, 도메인, 이미지, 환경 변수 변경 절차
    
    Ingress, 도메인, 이미지, 환경 변수 변경 절차
  - 50. 모니터링 로그 작업
    
    50. 모니터링 로그 작업
    
    Grafana, Kibana, Tempo 1차 장애 확인 절차
    
    Grafana, Kibana, Tempo 1차 장애 확인 절차
  - 60. 시크릿 권한 작업
    
    60. 시크릿 권한 작업
    
    Infisical 시크릿 반영과 권한 변경 절차
    
    Infisical 시크릿 반영과 권한 변경 절차
  - 70. 서비스별 운영 작업
    
    70. 서비스별 운영 작업
    
    Do4i 배포 이상 대응 절차
    
    Do4i 배포 이상 대응 절차
    
    Palcar 배포 이상 대응 절차
    
    Palcar 배포 이상 대응 절차
    
    Papersens 배포 이상 대응 절차
    
    Papersens 배포 이상 대응 절차
    
    서비스 배포 이상 1차 대응 절차
    
    서비스 배포 이상 1차 대응 절차
- SCAI LAB의 동료들을 소개합니다
  SCAI LAB의 동료들을 소개합니다
- Wiki
  Wiki
  - Data Analysis
    
    Data Analysis
  - Design
    
    Design
  - Development
    
    Development
    
    개발
    
    개발
    
    아키텍처 디자인
    
    아키텍처 디자인
    
    3 Layer(N tier)
    
    3 Layer(N tier)
    
    EDA(Event Driven Architecture)
    
    EDA(Event Driven Architecture)
    
    Hexagonal Architecture(Ports and Adapters)
    
    Hexagonal Architecture(Ports and Adapters)
    
    MSA(Microservice Architecture)
    
    MSA(Microservice Architecture)
    
    Message Queue
    
    Message Queue
    
    도메인 주도 설계 (Domain Driven Design, DDD)
    
    도메인 주도 설계 (Domain Driven Design, DDD)
    
    Aggregate
    
    Aggregate
    
    Bounded Context (BC)
    
    Bounded Context (BC)
    
    Context Map
    
    Context Map
    
    DDD의 정의
    
    DDD의 정의
    
    Domain
    
    Domain
    
    Domain Storytelling
    
    Domain Storytelling
    
    Entity
    
    Entity
    
    Modeling
    
    Modeling
    
    Ubiquitous Language (UL)
    
    Ubiquitous Language (UL)
    
    Value Object
    
    Value Object
    
    모놀리식 아키텍처(Monolithic Architecture)
    
    모놀리식 아키텍처(Monolithic Architecture)
    
    분산 시스템
    
    분산 시스템
    
    데이터베이스
    
    데이터베이스
    
    백엔드
    
    백엔드
    
    아키텍처 디자인
    
    아키텍처 디자인
    
    인프라
    
    인프라
    
    프론트
    
    프론트
  - LLM
    
    LLM
  - Machine Learning
    
    Machine Learning
  - Planning
    
    Planning
  - Project Managing
    
    Project Managing
  - Sales
    
    Sales
  - VLM
    
    VLM
- 완료
  완료
- 진행 중
  진행 중
  - PassView
    
    PassView
    
    Feature
    
    Feature
    
    Screen
    
    Screen
  - Palcar
    
    Palcar

서비스 배포 이상 1차 대응 절차

문서 목적

이 문서는 do4i, palcar, papersens 같은 운영 서비스가 배포 후 정상 수렴하지 않을 때 공통으로 따르는 1차 대응 절차를 정리한다.

서비스별 상세 차이는 따로 보강할 수 있지만, 초기 대응 흐름은 공통으로 유지하는 편이 빠르고 안전하다.

준비물

장애가 난 서비스명
대상 namespace
최근 배포 시각 또는 최근 변경 커밋
확인 가능한 health endpoint 또는 대표 URL

절차

1. 서비스 범위를 먼저 고정한다

장애가 난 서비스가 하나인지 여러 개인지 구분한다.
namespace를 고정한다.
최근 배포가 있었는지 확인한다.

여기서 범위를 못 좁히면 클러스터 전체 문제와 서비스 단일 문제를 혼동하기 쉽다.

2. ArgoCD 상태를 본다

sudo kubectl get applications -A

확인할 것은 아래다.

대상 서비스 Application 이 보이는가
OutOfSync 인가
Degraded 인가
sync 이후 수렴이 멈췄는가

3. namespace live 상태를 본다

sudo kubectl get deploy,sts,svc,ing -n <namespace>
sudo kubectl get pods -n <namespace>

먼저 아래를 확인한다.

deployment/statefulset 이 존재하는가
available replica 가 부족한가
pod가 CrashLoopBackOff, ImagePullBackOff, Pending 인가
ingress 와 service 가 끊기지 않았는가

4. 앱 로그를 확인한다

sudo kubectl logs deploy/<deploy-name> -n <namespace> --tail=100

로그에서 먼저 찾는 것은 아래다.

환경 변수 또는 secret 누락
DB 연결 실패
외부 API 인증 실패
migration 또는 startup 실패

5. 변경 유형별로 원인을 좁힌다

아래 기준으로 빠르게 분류한다.

ImagePullBackOff: 이미지 태그 또는 registry 접근 문제
CrashLoopBackOff: 앱 시작 설정, secret, 코드 오류 문제
ingress 이상: 도메인, path, service backend 문제
OutOfSync 만 있고 앱은 정상: 즉시 장애인지 아닌지 구분 필요

검증 기준

서비스 pod가 최소 정상 기동 상태로 수렴하는가
대표 URL 또는 health endpoint가 응답하는가
로그에 반복 치명 오류가 남지 않는가
동일 namespace의 다른 핵심 리소스가 함께 망가지지 않았는가

롤백 또는 중단 기준

아래 중 하나면 롤백을 우선 검토한다.

기동 자체가 되지 않는다
대표 기능이 응답하지 않는다
새 변경이 원인이라는 근거가 명확하다

바로 롤백하면 안 되는 경우도 있다.

장애 원인이 외부 의존성이고 배포와 무관할 때
이미 다른 긴급 변경이 동시에 들어가 기준이 불분명할 때

이 경우 먼저 기준 커밋과 원인 범위를 확정한다.

작업 후 기록

대상 서비스와 namespace
장애 시작 시각
확인한 Application 상태
pod 상태와 핵심 로그 근거
최종 조치: 관찰, 추가 조사, 즉시 롤백