구글 클라우드 상태 확인(GoogleHC) 때문에 서버가 터지다.
·
Dev
갑자기 서버가 10분 정도의 주기로 계속 재생성되는 현상이 있었다. 오토 스케일링이나 상태 확인(Health Check) 설정이 잘못된건지 살펴보며 1주일만에 겨우 원인을 밝혀냈다.원인구글 클라우드 부하 분산(로드 밸런서)는 안정성을 위해서 한 개가 아니라 여러개가 여러 가용성 존에서 동시에 들어간다. 그런데 이번에 구글이 무슨 업데이트를 한 건지 이 서버들이 엄청나게 늘어났다. 기존에 초당 4번 정도만 확인하던 상태 확인 요청이 수십개로 늘어나니까 부하를 견디지 못한 것이다.당시 마인리스트는 상태 확인을 전용 엔드포인트(예를 들어 /_health 같은 페이지)가 아닌 메인 페이지에 했었다. 문제는 당시 마인리스트의 메인 페이지는 캐싱조차 제대로 설정되지 않은 상태였다. 대량으로 늘어나는 상태 확인용 요..
iwinv를 버릴 수 밖에 없었던 이유
·
IT/정보글
Iwinv. Iwinv인지 IWINV인지 iWINV인지는 잘 모르겠다. 3월달, 블로터 기사로 iwinv가 AWS에 대항할 만한 IaaS 클라우드 서비를 오픈한다는 이야기를 보았다. 당시는 베타 기간이라 문제가 있어도 그러려니 했다. 처음에는 방화벽 설정 관련해서 혼란이 있었다. 분명 WEB UI 측 방화벽의 설정을 변경해서 접속을 허용시켰는데, 접속 허용이 안 됐다. 전화까지 해가며 답변받은 내용은 서버 측에서 iptables 설정을 해 줘야 한다는 것. 아니 방화벽이 이미 있는데 왜 이중으로 설치한건지 의문이었다. 어느 날 서버 메모리가 임계치를 초과했다고 모니터링한게 연락이 와서 봤더니, 진짜 80%를 먹고 있었다. (당시 2기가짜리 클라우드 서버를 사용하고 있었다) 급하게 서버 업그레이드를 진행했..