han-0315.blog

Terraform Study #5

Sat, 30 Sep 2023 02:53:38 GMT

5주차

워크플로

Terraform_remote_state

데이터 소스 중 하나로, 다른 Terraform state 파일의 값을 참조할 수 있게 해주는 기능이다. 한 Terraform 프로젝트의 출력 변수를 다른 Terraform 프로젝트에서 읽어올 수 있으며, 이를 통해 다양한 프로젝트나 환경 간의 종속성을 관리할 수 있게 된다.

여기서 network 코드와 ec2의 코드를 분리한 뒤, 각각 terraform cloud에 올리고 이를 terraform_remote_state을 통해 연결하는 것을 테스트해본다.

network

backend.tf

  terraform {
    cloud {
      organization = "kane-org"         # 생성한 ORG 이름 지정
      hostname     = "app.terraform.io" # default

      workspaces {
        name = "network" # 없으면 생성됨
      }
    }
    required_providers {
      aws = {
        source  = "hashicorp/aws"
        version = ">= 4.58"
      }
    }
    required_version = ">= 0.13"
  }

main.tf

  locals {
    additional_tags = {
      Terraform   = "true"
      Environment = "Network"
    }
  }

  resource "aws_vpc" "kane_vpc" {
    cidr_block           = "10.10.0.0/16"
    enable_dns_support   = true
    enable_dns_hostnames = true

    tags = {
      Name = "t101-study"
    }
  }

  resource "aws_subnet" "kane_subnet" {
    vpc_id            = aws_vpc.kane_vpc.id
    cidr_block        = "10.10.1.0/24"
    availability_zone = "ap-northeast-2a"
    tags = {
      Name = "t101-subnet"
    }
  }

  resource "aws_internet_gateway" "kane_igw" {
    vpc_id = aws_vpc.kane_vpc.id

    tags = {
      Name = "t101-igw"
    }
  }

  resource "aws_route_table" "kane_rt" {
    vpc_id = aws_vpc.kane_vpc.id

    tags = {
      Name = "t101-rt"
    }
  }

  resource "aws_route_table_association" "kane_rtassociation1" {
    subnet_id      = aws_subnet.kane_subnet.id
    route_table_id = aws_route_table.kane_rt.id
  }

  resource "aws_route" "kane_defaultroute" {
    route_table_id         = aws_route_table.kane_rt.id
    destination_cidr_block = "0.0.0.0/0"
    gateway_id             = aws_internet_gateway.kane_igw.id
  }

  resource "aws_security_group" "kane_sg" {
    vpc_id      = aws_vpc.kane_vpc.id
    name        = "T101 SG"
    description = "T101 Study SG"
  }

  resource "aws_security_group_rule" "kane_sginbound" {
    type              = "ingress"
    from_port         = 80
    to_port           = 80
    protocol          = "tcp"
    cidr_blocks       = ["0.0.0.0/0"]
    security_group_id = aws_security_group.kane_sg.id
  }

  resource "aws_security_group_rule" "kane_sgoutbound" {
    type              = "egress"
    from_port         = 0
    to_port           = 0
    protocol          = "-1"
    cidr_blocks       = ["0.0.0.0/0"]
    security_group_id = aws_security_group.kane_sg.id
  }

output.tf

  output "aws_vpc_id" {
    value = aws_vpc.kane_vpc.id
  }
  output "aws_subnet_id" {
    value = aws_subnet.kane_subnet.id
  }
  output "aws_security_group_id" {
    value = aws_security_group.kane_sg.id
  }

ec2

backend.tf

  terraform {
    cloud {
      organization = "kane-org"         # 생성한 ORG 이름 지정
      hostname     = "app.terraform.io" # default

      workspaces {
        name = "ec2" # 없으면 생성됨
      }
    }
    required_providers {
      aws = {
        source  = "hashicorp/aws"
        version = ">= 4.58"
      }
    }
    required_version = ">= 0.13"
  }

main.tf

  locals {
    additional_tags = {
      Terraform   = "true"
      Environment = "EC2"
    }
  }
  data "aws_ami" "amazonlinux2" {
    most_recent = true
    filter {
      name   = "owner-alias"
      values = ["amazon"]
    }

    filter {
      name   = "name"
      values = ["amzn2-ami-hvm-*-x86_64-ebs"]
    }

    owners = ["amazon"]
  }

  data "tfe_outputs" "network" {
    organization = "kane-org"
    workspace    = "network"
  }
  resource "aws_instance" "kane_ec2" {
    ami                         = data.aws_ami.amazonlinux2.id
    associate_public_ip_address = true
    instance_type               = "t2.micro"
    vpc_security_group_ids      = ["${data.tfe_outputs.network.values.aws_security_group_id}"]
    subnet_id                   = data.tfe_outputs.network.values.aws_subnet_id

    user_data_replace_on_change = true
  }

output.tf

  output "instance_id" {
    value       = aws_instance.kane_ec2.id
    description = "The ID of the App instance"
  }
  output "instance_public_ip" {
    value       = aws_instance.kane_ec2.public_ip
    description = "The public IP address of the App instance"
  }

먼저 network 모듈을 실행한다. network 모듈을 실행하면 다음과 같이 vpc, subnet, 보안그룹, igw 등이 생성되고 state 파일은 terraform cloud로 업로드된다.

...
aws_vpc.kane_vpc: Creating...
aws_vpc.kane_vpc: Still creating... [10s elapsed]
aws_vpc.kane_vpc: Creation complete after 11s [id=vpc-0611bde7af568db76]
aws_internet_gateway.kane_igw: Creating...
aws_subnet.kane_subnet: Creating...
aws_security_group.kane_sg: Creating...
aws_route_table.kane_rt: Creating...
aws_internet_gateway.kane_igw: Creation complete after 0s [id=igw-0a40a4d39738b4bf1]
aws_route_table.kane_rt: Creation complete after 0s [id=rtb-07685b8b451a260ed]
aws_route.kane_defaultroute: Creating...
aws_subnet.kane_subnet: Creation complete after 0s [id=subnet-08e6ad517434f1842]
aws_route_table_association.kane_rtassociation1: Creating...
aws_route_table_association.kane_rtassociation1: Creation complete after 0s [id=rtbassoc-0994211199a244a68]
aws_route.kane_defaultroute: Creation complete after 0s [id=r-rtb-07685b8b451a260ed1080289494]
aws_security_group.kane_sg: Creation complete after 1s [id=sg-0002c365bfa9ad634]
aws_security_group_rule.kane_sgoutbound: Creating...
aws_security_group_rule.kane_sginbound: Creating...
aws_security_group_rule.kane_sgoutbound: Creation complete after 0s [id=sgrule-1882620294]
aws_security_group_rule.kane_sginbound: Creation complete after 1s [id=sgrule-1795632479]

Apply complete! Resources: 9 added, 0 changed, 0 destroyed.

Outputs:

aws_security_group_id = "sg-0002c365bfa9ad634"
aws_subnet_id = "subnet-08e6ad517434f1842"
aws_vpc_id = "vpc-0611bde7af568db76"

이후 ec2 모듈을 실행한다. 아래의 코드를 통해 위에서 실행된 network 모듈의 state 파일을 읽어 참조할 수 있다.

data "tfe_outputs" "network" {
  organization = "kane-org"
  workspace    = "network"
}

데이터소스를 이용하여 EC2의 네트워크 관련 사항이 설정된다. 생성결과를 보면 데이터소스를 통해 가져오는 값들은 sensitive value로 표시되는 것을 확인할 수 있다.

...
      + secondary_private_ips                = (known after apply)
      + security_groups                      = (known after apply)
      + source_dest_check                    = true
      + spot_instance_request_id             = (known after apply)
      + subnet_id                            = (sensitive value)
      + tags_all                             = (known after apply)
      + tenancy                              = (known after apply)
      + user_data                            = (known after apply)
      + user_data_base64                     = (known after apply)
      + user_data_replace_on_change          = true
      + vpc_security_group_ids               = (sensitive value)
...
Changes to Outputs:
  + instance_id        = (known after apply)
  + instance_public_ip = (known after apply)
aws_instance.kane_ec2: Creating...
aws_instance.kane_ec2: Still creating... [10s elapsed]
aws_instance.kane_ec2: Still creating... [20s elapsed]
aws_instance.kane_ec2: Still creating... [30s elapsed]
aws_instance.kane_ec2: Still creating... [40s elapsed]
aws_instance.kane_ec2: Creation complete after 41s [id=i-052c74426b547ab75]

Apply complete! Resources: 1 added, 0 changed, 0 destroyed.

Outputs:

instance_id = "i-052c74426b547ab75"
instance_public_ip = "3.34.94.79"

AWS 콘솔에서 확인해보면 VPC,Subnet 모두 정상적으로 네트워크 모듈에서 생성된 것을 가져왔다.

규모에 따른 워크플로

개인: 혼자서 테라폼으로 작업할 때는 기존과 같이 3가지 방식으로 작업한다.
1. write: 테라폼 코드 작성
2. plan: 리뷰
3. apply: 프로비저닝, 성공한 경우 VCS에 코드를 병합한다.
단일 팀:
1. write: 다른 브랜치 혹은 다른 작업환경에서 혼자 테라폼 코드를 테스트한다.
2. plan(review): 테스트가 완료되면, plan을 통해 다른 팀원에게 리뷰받는다.
3. apply(merge): 리뷰가 완료되면 코드를 병합하고 인프라를 프로비저닝한다.
여러 개의 팀

팀 별로 (2)번 과정을 수행한다. 이후 terraform_remote_state를 통해 다른 팀의 state 파일을 참조하여 인프라를 구성한다.

MSA

리소스가 적다면 모놀리식 방식으로 구성해도 좋지만 유지보수, 운영을 생각하면 프로비저닝 단위별로 분류하는 것이 좋다. 정보는 공유할 수 있지만 각 집합은 독립적으로 실행되며 다른 집합에 영향을 받지 않는 격리된 구조가 필요하다.

출처: https://medium.com/@dudwls96/terraform-통한-iac-infrastructure-as-code-365일간-운영-후기-500737e6c1e6

CI/CD

제공해주신 자료를 통해 GitHub Actions 실습을 진행했다.

https://github.com/terraform101/terraform-aws-github-action

actions.yaml 파일의 내용을 요약해보면

TerraScan을 통해 스캔 결과를 얻고, 업로드한다.
Terraform 워크플로 실행: 코드를 복사하고, fmt → init → validate → plan → apply 를 진행한다.

name: Terraform DEV

on:
  push:
    branches:
      - main
  pull_request:

env:
  MY_PREFIX: DEV
  TF_VERSION: 1.2.5

jobs:
  SCAN:
    name: SCAN
    runs-on: ubuntu-latest
    # env:
    #   working-directory: terraform
    #   TF_WORKSPACE: my-workspace
    steps:
      # - name: Configure AWS credentials
      #   uses: aws-actions/configure-aws-credentials@v1
      #   with:
      #     aws-region: eu-west-1

      - name: Check out code
        uses: actions/checkout@v3

      - name: Run Terrascan
        id: terrascan
        uses: tenable/terrascan-action@main
        with:
          iac_type: 'terraform'
          iac_version: 'v14'
          policy_type: 'aws'
          only_warn: true
          sarif_upload: true

      - name: Upload SARIF file
        uses: github/codeql-action/upload-sarif@v2
        with:
          sarif_file: terrascan.sarif  
  Terraform:
    needs: SCAN
    name: Terraform
    runs-on: ubuntu-latest
    steps:
      - name: Check out code
        uses: actions/checkout@v3

      - uses: hashicorp/setup-terraform@v2
        with:
          terraform_version: $TF_VERSION
          cli_config_credentials_token: ${{ secrets.TF_API_TOKEN }}

      - name: Terraform Fmt
        id: fmt
        run: terraform fmt -recursive -check
        continue-on-error: true

      - name: Terraform init
        id: init
        run: terraform init -upgrade
        # working-directory: ${{ env.working-directory }}

      - name: Terraform validate
        id: validate
        run: terraform validate -no-color

      - name: Terraform plan
        id: plan
        run: terraform plan -no-color -var=prefix="$MY_PREFIX"
        # working-directory: ${{ env.working-directory }}
        env:
          AWS_ACCESS_KEY_ID: ${{ secrets.AWS_ACCESS_KEY_ID }}
          AWS_SECRET_ACCESS_KEY: ${{ secrets.AWS_SECRET_ACCESS_KEY }}
          TF_LOG: info

      - name: Plan output
        id: output
        uses: actions/github-script@v3
        if: github.event_name == 'pull_request'
        env:
          PLAN: "terraform\n${{ steps.plan.outputs.stdout }}"
        with:
          github-token: ${{ secrets.GITHUB_TOKEN }}
          script: |
            const output = `#### Terraform Format and Style 🖌\`${{ steps.fmt.outcome }}\`
            #### Terraform Initialization ⚙️\`${{ steps.init.outcome }}\`
            #### Terraform Plan 📖\`${{ steps.plan.outcome }}\`
            Show Plan
            \`\`\`hcl
            ${process.env.PLAN}
            \`\`\`
            
            **Pusher**: @${{ github.actor }}
            **Action**: ${{ github.event_name }}
            `;
            github.issues.createComment({
              issue_number: context.issue.number,
              owner: context.repo.owner,
              repo: context.repo.repo,
              body: output
            })

      - name: Terraform apply
        id: apply
        if: github.ref == 'refs/heads/main' && github.event_name == 'push'
        run: terraform apply -auto-approve -var=prefix="$MY_PREFIX" -input=false
        env:
          AWS_ACCESS_KEY_ID: ${{ secrets.AWS_ACCESS_KEY_ID }}
          AWS_SECRET_ACCESS_KEY: ${{ secrets.AWS_SECRET_ACCESS_KEY }}

결과

GitHub Actions, AWS, Terraform Cloud에 모두 정상적으로 반영되었다. Terrascan이 수행되고 코드가 실행돼 프로비저닝되었고, 결과를 AWS 콘솔과 테라폼 클라우드에서 모두 확인할 수 있었다.

GitHub Actions

AWS 콘솔

Terraform Cloud

이제 로컬에서 terraform plan -destroy -out=destroy.tfplan 명령어를 실행하여 백엔드의 state값을 읽어와 인프라를 제거한다.

도전과제: Terrascan 설치 후 직접 검증 테스트 해보기

공식사이트에서 직접 설치한 후 테스트를 해본다. 아래는 macOS, 리눅스 전용 설치명령어다.

$ curl -L "$(curl -s https://api.github.com/repos/tenable/terrascan/releases/latest | grep -o -E "https://.+?_Darwin_x86_64.tar.gz")" > terrascan.tar.gz
$ tar -xf terrascan.tar.gz terrascan && rm terrascan.tar.gz
$ install terrascan /usr/local/bin && rm terrascan
$ terrascan version
version: v1.18.3

docker image도 제공하고 있어, gitlab 등 다른 플랫폼 파이프라인에 적용할 때 편하게 사용할 수 있다.

docker run --rm tenable/terrascan version

이제 테라폼 디렉터리로 이동하여 명령어를 실행하면, 다음과 같이 검사를 실행할 수 있다.

$ terrascan init
$ terrascan scan
...
Scan Summary -

        File/Folder         :   ...
        IaC Type            :   terraform
        Scanned At          :   2023-09-30 02:36:12.552512 +0000 UTC
        Policies Validated  :   144
        Violated Policies   :   6
        Low                 :   2
        Medium              :   1
        High                :   3

보안 그룹과 관련하여 High이 3개 있다. 3개의 포트를 열었는데 각각 취약점으로 검사되었다.

scan의 exit 코드는 다음과 같이 총 5개로 구분된다. GitHub 참고. Terraform Cloud Run task, CI/CD를 구성할 때 참고하여 코드를 작성해야 한다.

Scenario	Exit Code
scan summary has errors and violations	5
scan summary has errors but no violations	4
scan summary has violations but no errors	3
scan summary has no violations or errors	0
scan command errors out due to invalid inputs	1

Terraform Study #4

Thu, 21 Sep 2023 08:42:56 GMT

💡 ‘테라폼으로 시작하는 IaC’ 책으로 진행하는 Terraform 스터디[T101] 4주차 정리내용입니다.

4주차

이번 주차에서는 기본 문법을 넘어, 코드를 구조화하고 협업하는 방법에 대해 배운다. 구체적으로는 module과 state에 대해 학습하며, 협업과 관련된 내용은 5주차에서 더 자세하게 다룬다.

State

아래는 1주차 정리내용이다. 테라폼에서는 State 파일을 Serial을 기준으로 backup 관리한다.

Terraform의 .tfstate 파일 내의 serial 값은 상태 파일의 버전을 나타내며, 동시성 제어와 데이터 무결성 확인에도 중요한 역할을 합니다. 이 값은 Terraform 명령이 실행될 때마다 자동으로 증가하여, 상태 파일의 최신성과 일관성을 유지합니다. 그렇기에 backup 파일이 현재 state 파일보다 serial 번호가 낮다.

이론적인 내용

상태 파일은 배포할 때마다 변경되는 프라이빗 API이며, 오직 테라폼 내부에서 사용용도이니 직접 편집하거나 작성해서는 안된다. (파일 내부 데이터를 통해, API를 요청하는 것 같다.)

만약, 테라폼을 통해 협업을 진행해야 한다면 state 파일을 관리해야 한다. 이때는 1주차때 진행했던 원격 백엔드를 사용한다.

팀 단위 운영시 필요한 점은 다음과 같다.

state 파일의 공유 스토리지
Locking(한명에 한명씩)
파일 격리(dev, stage 등 환경 별 격리가 필요)

아래는 VCS를 사용할 때, 발생하는 문제점이다.

VCS: 수동으로 상태파일을 push, pull 해야 하니 휴먼에러가 발생할 수 있다.++ Lock 기능이 없다.

결국, 테라폼을 지원하는 원격 백엔드를 사용해야 한다. S3, Terraform Cloud 등이 있다.

.tfstate

Terraform의 .tfstate 파일 내의 serial 값은 상태 파일의 버전을 나타내며, 동시성 제어와 데이터 무결성 확인에도 중요한 역할을 합니다. 이 값은 Terraform 명령이 실행될 때마다 자동으로 증가하여, 상태 파일의 최신성과 일관성을 유지합니다. 그렇기에 backup 파일이 현재 state 파일보다 serial 번호가 낮다.

유형	구성 리소스 정의	State 구성 데이터	실제 리소스	기본 예상 동작
1	있음			리소스 생성
2	있음	있음		리소스 생성
3	있음	있음	있음	동작 없음
4		있음	있음	리소스 삭제
5			있음	동작 없음
6	있음		있음
- `-refresh=false` 옵션을 사용하면, 현재의 state파일과 테라폼코드를 비교하여 그대로 적용한다. 원격 리소스의 실제 상태는 확인하지 않음. 그렇기에 만약 원격리소스가 제거되었어도 다시 생성하지 않는다.

유형6번 실습진행

IAM user를 추가하는 리소스 확인

locals {
  name = "mytest"
}

resource "aws_iam_user" "myiamuser1" {
  name = "${local.name}1"
}

resource "aws_iam_user" "myiamuser2" {
  name = "${local.name}2"
}

배포진행

terraform apply -auto-approve

배포 상태 확인

aws iam list-users | jq '.Users[] | .UserName'
"admin"
"mytest1"
"mytest2"

tfstate 파일 삭제

rm -rf terraform.tfstate*
❯ ls terraform.tfstate*
zsh: no matches found: terraform.tfstate*

Plan 명령을 실행하면, 아래와 같이 이미 존재하는 리소스를 파악하지 못하고 새롭게 생성하려고 함.

$ terraform plan

Terraform used the selected providers to generate the following execution plan. Resource
actions are indicated with the following symbols:
  + create

Terraform will perform the following actions:

  # aws_iam_user.myiamuser1 will be created
  + resource "aws_iam_user" "myiamuser1" {
      + arn           = (known after apply)
      + force_destroy = false
      + id            = (known after apply)
      + name          = "mytest1"
      + path          = "/"
      + tags_all      = (known after apply)
      + unique_id     = (known after apply)
    }

apply 명령어를 실행하면, EntityAlreadyExists 에러 발생

$ terraform apply
...
Plan: 2 to add, 0 to change, 0 to destroy.
aws_iam_user.myiamuser2: Creating...
aws_iam_user.myiamuser1: Creating...
╷
│ Error: creating IAM User (mytest1): **EntityAlreadyExists: User with name mytest1 already exists.**
│       status code: 409, request id: e32ae858-e9eb-4c3a-a6ab-d7dba9f8bbd8
│ 
│   with aws_iam_user.myiamuser1,
│   on main.tf line 5, in resource "aws_iam_user" "myiamuser1":
│    5: resource "aws_iam_user" "myiamuser1" {
│ 
╵

이럴때는 import 명령어를 통해 해결할 수 있다, IAM user의 ID는 유저의 이름이므로 아래의 명령어를 실행한다.
- terraform import [options] ADDRESS ID

terraform import aws_iam_user.myiamuser1 mytest1                     
aws_iam_user.myiamuser1: Importing from ID "mytest1"...
aws_iam_user.myiamuser1: Import prepared!
  Prepared aws_iam_user for import
aws_iam_user.myiamuser1: Refreshing state... [id=mytest1]

Import successful!

The resources that were imported are shown above. These resources are now in
your Terraform state and will henceforth be managed by Terraform.

tfstate 확인, myiamuser1의 상태파일이 추가되었다.

{
  "version": 4,
  "terraform_version": "1.5.6",
  "serial": 4,
  "lineage": "0e52f56e-fe1e-d6e7-acb3-f521a3c2f365",
  "outputs": {},
  "resources": [
    {
      "mode": "managed",
      "type": "aws_iam_user",
      "name": "myiamuser1",
      "provider": "provider[\"registry.terraform.io/hashicorp/aws\"]",
      "instances": [
        {
          "schema_version": 0,
          "attributes": {
                        ...
            "id": "mytest1",
            "name": "mytest1",

          },
          "sensitive_attributes": [],
...
}

워크스페이스

State를 관리하는 논리적인 가상 공간을 워크스페이스라고한다.

개발용 환경, 스테이징 환경, 운영환경은 대부분 가지고 있다. 거의 유사한 환경을 구축한다고 하면 여러 개의 프로젝트를 통해 운영할 수 있지만 동일한 환경을 구성한다면 이는 일관성 유지에 좋지 않다. 테라폼에서는 이를 위해 workspace를 지원한다. 하나의 코드를 기반으로 여러 개의 환경을 구성할 수 있으며 terraform.workspace 변수를 통해 환경마다 리소스를 조정할 수 있다.

vs 아래는 워크스페이스가 아닌 여러 개의 프로젝트로 구성한 모습이다.

💡 설명해주신 워크스페이스의 장단점

장점
- 하나의 루트 모듈에서 다른 환경을 위한 리소스를 동일한 테라폼 구성으로 프로비저닝하고 관리
- 기존 프로비저닝된 환경에 영향을 주지 않고 변경 사항 실험 가능
- 깃의 브랜치 전략처럼 동일한 구성에서 서로 다른 리소스 결과 관리 - [참고 : 화해 - Git 브랜치 전략 수립을 위한 전문가의 조언들]
단점
- State가 동일한 저장소(로컬 또는 백엔드)에 저장되어 State 접근 권한 관리가 불가능(어려움)
- 모든 환경이 동일한 리소스를 요구하지 않을 수 있으므로 테라폼 구성에 분기 처리가 다수 발생 가능
- 프로비저닝 대상에 대한 인증 요소를 완벽히 분리하기 어려움
  
  → 가장 큰 단점은 완벽한 격리가 불가능
  
  ⇒ 해결방안 1. 해결하기 위해 루트 모듈을 별도로 구성하는 디렉터리 기반의 레이아웃을 사용할 수 있다. ⇒ 해결방안 2. Terraform Cloud 환경의 워크스페이스를 활용

Module

모듈은 대부분의 프로그래밍 언어에서 쓰이는 라이브러리나 패키지와 역할이 비슷하다.

중복되거나, 자주쓰는 코드를 모듈화해서 편하게 재사용할 수 있다.

모듈 디렉터리 형식은 terraform-<프로바이더 이름>-<모듈 이름> 형식을 제안한다.

이 형식은 Terraform Cloud, Terraform Enterprise에서도 사용되는 방식으로

1) 디렉터리 또는 레지스트리 이름이 테라폼을 위한 것이고, 2) 어떤 프로바이더의 리소스를 포함하고 있으며, 3) 부여된 이름이 무엇인지 판별할 수 있도록 한다.

구조

아래와 같이 루트 모듈에서 자식 모듈을 참조한다. 자식모듈이 라이브러리 역할을 수행하고, 루트 모듈이 main 함수이다. 자식 모듈을 호출할 때, 변수도 맞게 대입한다.

출처: https://jloudon.com/cloud/Azure-Policy-as-Code-with-Terraform-Part-1/

간단한 예시를 확인해보면, 아래의 자식 모듈을 사용한다고 가정해보자. isDB라는 변수의 값을 대입해줘야하고, id와 pw를 출력할 수 있다.

# main.tf
resource "random_pet" "name" {
  keepers = {
    ami_id = timestamp()
  }
}

# DB일 경우 Password 생성 규칙을 다르게 반영 
resource "random_password" "password" {
  length           = var.isDB ? 16 : 10
  special          = var.isDB ? true : false
  override_special = "!#$%*?"
}
# variable.tf
variable "isDB" {
  type        = bool
  default     = false
  description = "패스워드 대상의 DB 여부"
}
# output.tf
output "id" {
  value = random_pet.name.id
}

output "pw" {
  value = nonsensitive(random_password.password.result) 
}

루트 모듈

"mypw1"의 경우는 변수를 대입하지 않았으니, isDB의 기본값이 들어간다. 다음과 같이 모듈을 통해 코드를 구조화하고 재사용할 수 있다.

module "mypw1" {
  source = "../modules/terraform-random-pwgen"
}

module "mypw2" {
  source = "../modules/terraform-random-pwgen"
  isDB   = true
}

output "mypw1" {
  value  = module.mypw1
}

output "mypw2" {
  value  = module.mypw2
}

프로바이더 정의

루트모듈에서 프로바이더를 정의하는 것이 좋다. 만약, 자식모듈에서 프로바이더를 정의하면 루트 모듈에 버전이 다르면 오류가 발생하고 모듈에 반목문을 쓸 수 없다.

아래의 module “example”과 같이 루트 모듈에 프로바이더를 선언한다.

# The default "aws" configuration is used for AWS resources in the root
# module where no explicit provider instance is selected.
provider "aws" {
  region = "us-west-1"
}

# An alternate configuration is also defined for a different
# region, using the alias "usw2".
provider "aws" {
  alias  = "usw2"
  region = "us-west-2"
}

# An example child module is instantiated with the alternate configuration,
# so any AWS resources it defines will use the us-west-2 region.
module "example" {
  source    = "./example"
  providers = {
    aws = aws.usw2
  }
}

모듈은 위에서 진행하듯이 로컬파일로 가능하며 테라폼 레지스트리, 깃허브 등에서 가져와서 쓸 수 있다.

ex) Terraform registry에서 가져오기

module "consul" {
  source = "hashicorp/consul/aws"
  version = "0.1.0"
}

협업

S3를 통해, 백엔드를 구성하는 것은 1주차때 진행했다. 여기서는 Terraform Cloud를 이용하여 TFC 백엔드를 구성해본다. 당연히 Lock 기능과 버전관리도 지원한다.

Terraform Cloud

state 관리를 진행하는 TFC는 무상이라고 한다.

워크스페이스 생성

https://app.terraform.io/ 링크 접속 후 계정 생성
workflow 선택 화면에선 Create a new organization 선택
Connect
GitHub와 같은 버전관리 시스템에 연결할거면 VCS를 선택한다.
CLI-driven 선택

terraform login을 진행한다.

$ terraform login
[토큰 입력]

토큰 확인

cat ~/.terraform.d/credentials.tfrc.json | jq
{
  "credentials": {
    "app.terraform.io": {
      "token": "YMgr4VM...EWGuw"
    }
  }
}

provider.tf에서 테라폼 클라우드를 정의한다.

terraform {
  cloud {
    organization = "kane-org"         # 생성한 ORG 이름 지정
    hostname     = "app.terraform.io" # default

    workspaces {
      name = "terraform-stduy" # 없으면 생성됨
    }
  }
}

이후, terraform init 명령어를 실행하면 .terraform 디렉터리가 생성되고 안에 상태파일이 생성된다. 아래는 상태파일 세부내용이다.

{
    "version": 3,
    "serial": 1,
    ...
    "backend": {
        "type": "cloud",
        "config": {
            "hostname": "app.terraform.io",
            "organization": "kane-org",
            "token": null,
            "workspaces": {
                "name": "terraform-stduy",
                "tags": null
            }
        },

이제 init && plan 명령어를 실행하면, 다음과 같이 클라우드에서 동작한다. [terraform cloud local 설정x]

설정을 통해, terraform 작업을 모두 로컬에서 돌리고 state 파일만 업로드할 수 있다.

Plan이 모두 동작하면, 아래와 같이 UI로 배포될 리소스를 알려준다.

확실히 GUI로 보니 깔끔한 것 같다. 특히 리소스가 많아졌을 때 보기편할 것 같다.

도전과제3

각자 사용하기 편리한 리소스를 모듈화 해보고, 해당 모듈을 활용해서 반복 리소스들 배포해보세요!

VPC, Subnet 등 EC2에 필요한 리소스를 모듈화해봤다. 보안그룹의 포트는 SSH, HTTP를 열어놨다.

module/main.tf

  locals {
    additional_tags = {
      Name = var.namespace
    }
  }

  resource "aws_vpc" "vpc" {
    cidr_block = "192.169.0.0/16"
    tags       = local.additional_tags
  }

  data "aws_availability_zones" "available" {
    state = "available"
  }

  resource "aws_subnet" "public_subnet" {
    vpc_id                  = aws_vpc.vpc.id
    cidr_block              = "192.169.1.0/24"
    availability_zone       = data.aws_availability_zones.available.names[0]
    map_public_ip_on_launch = true
    tags                    = local.additional_tags
  }

  resource "aws_internet_gateway" "igw" {
    vpc_id = aws_vpc.vpc.id
    tags   = local.additional_tags
  }
  resource "aws_route_table" "public_route_table" {
    vpc_id = aws_vpc.vpc.id
    route {
      cidr_block = "0.0.0.0/0"
      gateway_id = aws_internet_gateway.igw.id
    }
    tags = local.additional_tags
  }

  resource "aws_route_table_association" "public_rtb_assoc" {

    subnet_id      = aws_subnet.public_subnet.id
    route_table_id = aws_route_table.public_route_table.id
  }

  resource "aws_security_group" "web_sg" {
    name   = var.namespace
    vpc_id = aws_vpc.vpc.id

    ingress {
      from_port   = var.ssh_port
      to_port     = var.ssh_port
      protocol    = "tcp"
      cidr_blocks = ["0.0.0.0/0"]
    }

    ingress {
      from_port   = var.http_port
      to_port     = var.http_port
      protocol    = "tcp"
      cidr_blocks = ["0.0.0.0/0"]
    }

    egress {
      from_port   = 0
      to_port     = 0
      protocol    = "-1"
      cidr_blocks = ["0.0.0.0/0"]
    }

  }
  data "aws_ami" "default" {
    most_recent = true
    owners      = ["amazon"]

    filter {
      name   = "owner-alias"
      values = ["amazon"]
    }

    filter {
      name   = "name"
      values = ["amzn2-ami-hvm*"]
    }
  }

  resource "aws_instance" "app" {
    ami                    = data.aws_ami.default.id
    instance_type          = var.ec2_instance_type
    key_name               = var.key_name
    vpc_security_group_ids = [aws_security_group.web_sg.id]
    subnet_id              = aws_subnet.public_subnet.id
    tags                   = local.additional_tags
  }

module/output.tf

  output "instance_public_ip" {
    value       = aws_instance.app.public_ip
    description = "The public IP address of the App instance"
  }

module/variable.tf

  variable "ssh_port" {
    default     = 22
    type        = number
    description = "SSH port"
  }
  variable "http_port" {
    default     = 80
    type        = number
    description = "HTTP port"
  }
  variable "ec2_instance_type" {
    type        = string
    description = "The type of EC2 instance to launch"
  }
  variable "key_name" {
    type        = string
    description = "The key name to use for an EC2 instance"
  }
  variable "namespace" {
    type        = string
    description = "env namespace"
  }

root/main.tf

  locals {
    env = {
      dev = {
        instance_type = "t3.micro"
        key_name      = "m1"
        namespace     = "dev"
      }
      prod = {
        instance_type = "t3.medium"
        key_name      = "m1"
        namespace     = "prod"
      }
    }
  }

  provider "aws" {
    region = "ap-northeast-2"
  }

  module "ec2_aws_amazone" {
    for_each          = local.env
    source            = "../../module/ec2"
    key_name          = each.value.key_name
    ec2_instance_type = each.value.instance_type
    namespace         = each.value.namespace
  }

  # output.tf
  output "module_output_instance_public_ip" {
    value = [
      for k in module.ec2_aws_amazone : k.instance_public_ip
    ]
  }

이제, 테라폼 명령어를 실행하여 리소스를 배포한다.

$ tf apply -auto-approve
module.ec2_aws_amazone["dev"].data.aws_availability_zones.available: Reading...
module.ec2_aws_amazone["prod"].data.aws_availability_zones.available: Reading...
module.ec2_aws_amazone["prod"].data.aws_ami.default: Reading...
module.ec2_aws_amazone["dev"].data.aws_ami.default: Reading...
module.ec2_aws_amazone["dev"].data.aws_availability_zones.available: Read complete after 1s [id=ap-northeast-2]
module.ec2_aws_amazone["prod"].data.aws_availability_zones.available: Read complete after 1s [id=ap-northeast-2]
module.ec2_aws_amazone["dev"].data.aws_ami.default: Read complete after 1s [id=ami-0ec77cfb1037681eb]
module.ec2_aws_amazone["prod"].data.aws_ami.default: Read complete after 1s [id=ami-0ec77cfb1037681eb]
Apply complete! Resources: 14 added, 0 changed, 0 destroyed.

Outputs:

module_output_instance_public_ip = [
  "3.35.235.54",
  "13.124.205.208",
]

AWS 콘솔에서 배포된 목록을 확인한다.

환경 별로, 배포가 잘 된 모습을 확인할 수 있다.

Terraform Study #3

Wed, 13 Sep 2023 12:41:51 GMT

3주차

💡 ‘테라폼으로 시작하는 IaC’ 책으로 진행하는 Terraform 스터디[T101] 3주차 정리내용입니다.

이번시간은 테라폼 기본사용 마지막 단계(3/3)이다. 이번주차에서는 조건문, 함수, 프로비저너, data block에 대해 배운 뒤 프로바이더를 경험해보고 마무리된다. 개인적으로 null_resource에 대해 잘몰랐다. 많이 사용한 플러그인 중 하나라고 한다..! 이번 기회에 잘 배워두면 좋을 것 같다. (지금은 terraform_data가 같은 기능을 수행한다.)

Conditional(조건문)

조건 문의 경우 C언어의 삼항연산자와 유사하다. 그 외에는 지원하지 않는 모양이다.

형식: condition ? true_val : false_val

실습

main.tf

variable "enable_file" {
  default = true
}

resource "local_file" "foo" {
  count    = var.enable_file ? 1 : 0
  content  = "foo!"
  filename = "${path.module}/foo.bar"
}

output "content" {
  value = var.enable_file ? local_file.foo[0].content : ""
}

위의 코드의 내용은 var.enable_file의 값을 입력하지 않거나, true로 설정하면 foo.bar라는 local file을 생성한다. 반대의 경우라면 리소스를 생성하지 않는다.

false를 지정한 경우

$ export TF_VAR_enable_file**=false**
$ export | grep TF_VAR_enable_file
TF_VAR_enable_file=false
$ terraform init && terraform plan && terraform apply -auto-approve
...
Changes to Outputs:
  + content = ""

You can apply this plan to save these new output values to the Terraform state, without changing any real
infrastructure.

Apply complete! Resources: 0 added, 0 changed, 0 destroyed.

Outputs:

content = ""

true를 지정한경우(=아무것도 입력하지 않음)

# 아무것도 입력하지 않았을 떄
$ terraform init && terraform plan && terraform apply -auto-approve
...
+ content = "foo!"
local_file.foo[0]: Creating...
local_file.foo[0]: Creation complete after 0s [id=4bf3e335199107182c6f7638efaad377acc7f452]

Apply complete! Resources: 1 added, 0 changed, 0 destroyed.

Outputs:
content = "foo!"

$ terraform state list
local_file.foo[0]

$ echo "local_file.foo[0].content" | terraform console
╷
│ Warning: Value for undeclared variable
│ 
│ The root module does not declare a variable named "ec2_instance_type" but a value was found in file
│ "terraform.tfvars". If you meant to use this value, add a "variable" block to the configuration.
│ 
│ To silence these warnings, use TF_VAR_... environment variables to provide certain "global" settings to
│ all configurations in your organization. To reduce the verbosity of these warnings, use the
│ -compact-warnings option.
╵
"foo!"

위의 예시처럼, 조건문이 아주 잘 적용된다.

함수

함수는 내장함수만 사용가능하다. 사용자 정의함수와 같이 직접 만들 수 없다. **공식문서** 에서 확인하면서 확인한 함수를 간단하게 정리해봤다.

toset : 해당 함수는 집합과 같이 중복된 원소를 제거하고, 정렬시킨다.
- toset(["b", "a","b"]) =[”a”, “b”]
Slice : 목록 내에서 일부 연속 요소(elements)를 추출합니다. 시작 인덱스(startindex )는 포함되지만 끝 인덱스(endindex)는 제외
[**length](https://developer.hashicorp.com/terraform/language/functions/length) :** list, map 또는 string의 길이를 계산합니다. 리스트 또는 맵이면 컬렉션(collection)의 요소 수, 문자열이면 문자 수를 반환합니다.
숫자 관련 함수
- min, max, ceil, floor 함수도 존재한다.
- min(-1,2,var.temp) = -1, ceil(10.1) = 11
문자열 관련 함수
- split(",", "ami-xyz,AMI-ABC,ami-efg") = [ "ami-xyz","AMI-ABC","ami-efg" ]
- lower, upper : lower(var.ami)= [ "ami-xyz","ami-abc","ami-efg" ]
- substr(var.ami.0,7) = ami-xyz
- join(”,” , [ "ami-xyz","AMI-ABC","ami-efg" ]) : "ami-xyz,AMI-ABC,ami-efg"
Collection 함수
- length(var.ami) = 3
- index(var.ami, “AMI-ABC”) = 1
- element(var.ami,2) = ami-efg
- contains(var.ami, “AMI-ABC”) = true (요소가 있는 지 없는 지)

MAP 관련 함수 → map 함수는 지원하지 않고, tomap 함수를 지원

  variable "ami" {
    type = map
    default = { 
          "us-east-1" = "ami-xyz",
      "ca-central-1" = "ami-efg",
      "ap-south-1" = "ami-ABC"
      }
      description = "A map of AMI ID's for specific regions" 
  }

lookup (var.ami, "us-east-1") : ami-xyz

프로비저너

프로비저너는 프로바이더로 실행되지 않는 커맨드와 파일 복사 같은 역할을 수행한다.

프로비저너로 실행된 결과는 테라폼의 상태 파일과 동기화되지 않으므로 프로비저닝에 대한 결과가 항상 같다고 보장할 수 없다 ⇒ 선언적 보장 안됨

그렇기에, 프로비저너보단 userdata 등을 사용하는 것이 좋다.

프로비저너는 생성할 때만 실행되고 추후 작업은 없다. 그래서 provisioner가 실패하면 리소스가 잘못되었다고 판단하고 다음 terraform apply 할 때 제거하거나 다시 생성한다. provisioner에서 when = "destroy"를 지정하면 해당 프로비저너는 리소스를 제거하기 전에 실행되고 프로비저너가 실패한다면 다음 terraform apply 할 때 다시 실행하게 된다. 문서에 따르면 이 때문에 제거 프로비저너는 여러 번 실행해도 괜찮도록 작성해야 한다고 한다.

참고 자료

앤서블과 연동해서 쓸거면, 아래의 링크로 진행하면 된다.

https://github.com/ansible/terraform-provider-ansible/tree/main/examples

아래와 같이 원격에 내용을 전달할 수 있지만, 가급적 user_data를 사용하는 것이 좋다.

user_data = base64encode(templatefile("${path.module}/ubuntu_docker.tftpl", {}))

connection: remote-exec와 file 프로비저너를 사용하려면, 원격에 연결할 정보를 명시해야 한다. 주로 SSH/WinRM만 존재한다.

resource "aws_instance" "web" {
    ...
  connection {
    type     = "ssh"
    user     = "root"
    password = var.root_password
    host     = self.public_ip
  }

  provisioner "file" {
    source      = "script.sh"
    destination = "/tmp/script.sh"
  }

  provisioner "remote-exec" {
    inline = [
      "chmod +x /tmp/script.sh",
      "/tmp/script.sh args",
    ]
  }
}

null resource

아무작업도 수행하지 않는 리소스이다.

이런 리소스가 필요한 이유는 테라폼 프로비저닝 동작을 설계하면서 사용자가 의도적으로 프로비저닝하는 동작을 조율해야 하는 상황이 발생하여, 프로바이더가 제공하는 리소스 수명주기 관리만으로는 이를 해결하기 어렵기 때문이다.

주로 사용되는 시나리오

프로비저닝 수행 과정에서 명령어 실행
프로비저너와 함께 사용
모듈, 반복문, 데이터 소스, 로컬 변수와 함께 사용
출력을 위한 데이터 가공

예시 상황

EC2의 인스턴스로 웹서비스를 실행한다. 웹서비스 설정에 고정된 IP(EIP)가 필요하다.

아래와 같이 순환참조 에러가 발생하는 상황에서, null_resource를 추가해 해결할 수 있음

provider "aws" {
  region = "ap-northeast-2"
}

resource "aws_security_group" "instance" {
  name = "t101sg"

  ingress {
    from_port   = 80
    to_port     = 80
    protocol    = "tcp"
    cidr_blocks = ["0.0.0.0/0"]
  }

  ingress {
    from_port   = 22
    to_port     = 22
    protocol    = "tcp"
    cidr_blocks = ["0.0.0.0/0"]
  }

}

resource "aws_instance" "example" {
  ami                    = "ami-0c9c942bd7bf113a2"
  instance_type          = "t2.micro"
  subnet_id              = "subnet-dbc571b0" 
  private_ip             = "172.31.1.100"
  vpc_security_group_ids = [aws_security_group.instance.id]

  user_data = <<-EOF
              #!/bin/bash
              echo "Hello, T101 Study" > index.html
              nohup busybox httpd -f -p 80 &
              EOF

  tags = {
    Name = "Single-WebSrv"
  }
    # (1) 여기에서 eip 리소스에 대한 접근을 하면 순환참조로 에러가 발생함. 
  provisioner "remote-exec" {
    inline = [
      "echo ${aws_eip.myeip.public_ip}"
     ]
  }
}
# (1)번의 내용을 대체할 수 있는 Null_resource
resource "null_resource" "echomyeip" {
  provisioner "remote-exec" {
    connection {
      host = aws_eip.myeip.public_ip
      type = "ssh"
      user = "ubuntu"
      private_key =  file("/home/kaje/kp-kaje.pem") # 각자 자신의 EC2 SSH Keypair 파일 위치 지정
      #password = "qwe123"
    }
    inline = [
      "echo ${aws_eip.myeip.public_ip}"
      ]
  }
}

resource "aws_eip" "myeip" {
  #vpc = true
  instance = aws_instance.example.id
  associate_with_private_ip = "172.31.1.100"
}

output "public_ip" {
  value       = aws_instance.example.public_ip
  description = "The public IP of the Instance"
}

terraform_data

이 리소스 또한, null_resource와 동일한 역할을 하나, 테라폼 자체에 포함된 기본 수명주기 관리자가 제공된다.

triggers_replace: 인스턴스의 상태를 저장하며, 상태가 변경되면 아래의 명령어를 수행한다.

아래의 예시를 통해 확인하면,

resource "terraform_data" "foo" {
  triggers_replace = [
    local_file.foo
  ]
  provisioner "local-exec" {
    command = "echo 'terraform_data test'"
  }
}
output "terraform_data_output" {
  value = terraform_data.foo.output # 출력 결과는 "world"
}

variable "enable_file" {
  default = true
}

resource "local_file" "foo" {
  count    = var.enable_file ? 1 : 0
  content  = "foo!"
  filename = "${path.module}/foo.bar"
}

output "content" {
  value = var.enable_file ? local_file.foo[0].content : ""
}

terraform apply 이후, foo.bar의 내용을 수정했을 때

$ terraform apply -auto-approve
local_file.foo[0]: Refreshing state... [id=4bf3e335199107182c6f7638efaad377acc7f452]
terraform_data.foo: Refreshing state... [id=bdfbfd37-fccc-4f02-6542-08f1bbb3d2a1]
...
terraform_data.foo: Destroying... [id=bdfbfd37-fccc-4f02-6542-08f1bbb3d2a1]
terraform_data.foo: Destruction complete after 0s
local_file.foo[0]: Creating...
local_file.foo[0]: Creation complete after 0s [id=4bf3e335199107182c6f7638efaad377acc7f452]
terraform_data.foo: Creating...
terraform_data.foo: Provisioning with 'local-exec'...
terraform_data.foo (local-exec): Executing: ["/bin/sh" "-c" "echo 'terraform_data test'"]
terraform_data.foo (local-exec): terraform_data test
terraform_data.foo: Creation complete after 0s [id=4301eef8-bbc6-58f0-6948-a6f6ac176b6c]

Apply complete! Resources: 2 added, 0 changed, 1 destroyed.

Outputs:

content = "foo!"

(triggers_replace를 주석으로 제거한 뒤)terraform apply 이후, foo.bar의 내용을 수정했을 때

$ terraform apply
terraform_data.foo: Refreshing state... [id=3396b6e8-ffca-dac3-f0d5-c41455864c42]
local_file.foo[0]: Refreshing state... [id=4bf3e335199107182c6f7638efaad377acc7f452]

Terraform used the selected providers to generate the following execution plan. Resource actions are
indicated with the following symbols:
  + create

Terraform will perform the following actions:

  # local_file.foo[0] will be created
  + resource "local_file" "foo" {
      + content              = "foo!"
      + content_base64sha256 = (known after apply)
      + content_base64sha512 = (known after apply)
      + content_md5          = (known after apply)
      + content_sha1         = (known after apply)
      + content_sha256       = (known after apply)
      + content_sha512       = (known after apply)
      + directory_permission = "0777"
      + file_permission      = "0777"
      + filename             = "./foo.bar"
      + id                   = (known after apply)
    }

Plan: 1 to add, 0 to change, 0 to destroy.

Do you want to perform these actions?
  Terraform will perform the actions described above.
  Only 'yes' will be accepted to approve.

  Enter a value: yes

local_file.foo[0]: Creating...
local_file.foo[0]: Creation complete after 0s [id=4bf3e335199107182c6f7638efaad377acc7f452]

Apply complete! Resources: 1 added, 0 changed, 0 destroyed.

Outputs:

content = "foo!"

moved

state에 기록되는 리소스의 이름이 변경되면 기존 리소스 삭제 후 재생성한다. 이름은 변경하지만, 인프라를 유지하고 싶을 때 moved block을 사용한다.

원본

resource "local_file" "a" {
  content  = "foo!"
  filename = "${path.module}/foo.bar"
}

output "file_content" {
  value = local_file.a.content
}

이름 수정 후

resource "local_file" "b" {
  content  = "foo!"
  filename = "${path.module}/foo.bar"
}

moved {
  from = local_file.a
  to   = local_file.b
}

output "file_content" {
  value = local_file.b.content
}

이와 같이 moved block을 사용하면, 인프라를 유지할 수 있다.

프로바이더

프로바이더란 인프라 리소스를 제공하는 업체라고 생각하면 된다. Terraform은 플러그인을 사용하여 프로바이더라고 불리는 클라우드, SaaS, 다른 API와 상호작용한다.

Terraform 이 어떤 공급자와 사용할 지 표현하기 위해, provider.tf 에 별도로 정의한다.

프로바이더는 terraform init 명령어를 통해, 필요한 플러그인을 검색 및 다운로드하며 lock.hcl 파일에 프로바이더를 명시하여 앞으로의 코드 수행에서 사용되는 플러그인을 제한한다. (예상하지 못한, 동작을 방지하는 역할을 한다.) terraform init 명령어는 백엔드 설정 혹은 프로젝트 시작시 수행하기에 여러 작업이 일어난다. 프로바이더만 업그레이드하고 싶으면, terraform init -upgrade 를 수행한다.

아래의 그림으로 한번에 이해할 수 있다.

출처:https://malwareanalysis.tistory.com/619

아래와 같이, 파트너사 혹은 플러그인을 제공하는 업체라면 테라폼을 통해 리소스를 정의할 수 있다. Terraform과 파트너 목록은 아래의 이미지 참고

kubernetes 환경 인프라 구축하기

provider.tf

  terraform {
    required_providers {
      kubernetes = {
        source = "hashicorp/kubernetes"
      }
    }
  }

  provider "kubernetes" {
    config_path    = "~/.kube/config"
  }

kubernetes.tf

  resource "kubernetes_deployment" "nginx" {
    metadata {
      name = "nginx-example"
      labels = {
        App = "t101-nginx"
      }
    }
    spec {
      replicas = 2
      selector {
        match_labels = {
          App = "t101-nginx"
        }
      }
      template {
        metadata {
          labels = {
            App = "t101-nginx"
          }
        }
        spec {
          container {
            image = "nginx:1.7.8"
            name  = "example"

            port {
              container_port = 80
            }
          }
        }
      }
    }
  }

  resource "kubernetes_service" "nginx" {
    metadata {
      name = "nginx-example"
    }
    spec {
      selector = {
        App = kubernetes_deployment.nginx.spec.0.template.0.metadata[0].labels.App
      }
      port {
        node_port   = 30080
        port        = 80
        target_port = 80
      }

      type = "NodePort"
    }
  }

실행결과(미니큐브로 테스트)

$ terraform init && terraform plan && terraform apply -auto-approve
...
Plan: 2 to add, 0 to change, 0 to destroy.
kubernetes_deployment.nginx: Creating...
kubernetes_deployment.nginx: Still creating... [10s elapsed]
kubernetes_deployment.nginx: Creation complete after 16s [id=default/nginx-example]
kubernetes_service.nginx: Creating...
kubernetes_service.nginx: Creation complete after 0s [id=default/nginx-example]

Apply complete! Resources: 2 added, 0 changed, 0 destroyed.
kubernetes_deployment.nginx
kubernetes_service.nginx

Every 1.0s: kubectl get pods,svc                                 MacBook-Pro.local: Wed Sep 13 21:30:54 2023

NAME                                 READY   STATUS    RESTARTS   AGE
pod/nginx-example-868fbd6dcc-8r9bv   1/1     Running   0          89s
pod/nginx-example-868fbd6dcc-xp4rg   1/1     Running   0          89s

NAME                    TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)        AGE
service/kubernetes      ClusterIP   10.96.0.1                443/TCP        114d
service/nginx-example   NodePort    10.103.116.226           80:30080/TCP   74s

이처럼 정상적으로 테스트된 것을 확인할 수 있다.

Terraform Study #2

Sun, 03 Sep 2023 16:21:31 GMT

데이터 소스

데이터 소스(data)는 외부의 리소스 혹은 저장된 정보를 내부로 가져올 때 사용한다.

기본 사용법은 2기 스터디원 Ssoon님이 블로그에 잘 정리해주셨다.

아래와 같이 AMI나 AZ를 조회할 때 유용하다.

ubuntu AMI 조회

data "aws_ami" "ubuntu" {
  most_recent = true

  owners = ["099720109477"] 

  filter {
    name   = "name"
    values = ["ubuntu/images/hvm-ssd/ubuntu-focal-20.04-amd64-server-*"]
  }

  filter {
    name   = "architecture"
    values = ["x86_64"]
  }

  filter {
    name   = "root-device-type"
    values = ["ebs"]
  }

  filter {
    name   = "state"
    values = ["available"]
  }

  filter {
    name   = "virtualization-type"
    values = ["hvm"]
  }
}

AZ 검색

data "aws_availability_zones" "available" {
    group_names = [
        "ap-northeast-2",
    ]
    id          = "ap-northeast-2"
    names       = [
        "ap-northeast-2a",
        "ap-northeast-2b",
        "ap-northeast-2c",
        "ap-northeast-2d",
    ]
    state       = "available"
    zone_ids    = [
        "apne2-az1",
        "apne2-az2",
        "apne2-az3",
        "apne2-az4",
    ]
}

입력 변수

변수는 Terrraform 코드를 동적으로 구성할 수 있게 한다. 테라폼에서는 이것을 입력 변수 Input Variables 로 정의한다.

선언 예시

  variable "<이름>" {
   <인수> = <값>
  }

  variable "image_id" {
   type = string
  }

위와 같이 변수를 정의할 때 다양한 메타인수를 넣을 수 있다. 관련 정보는 아래와 같다.

우선순위

1번 부터 변수를 대입하며, 후 순위가 전 순위를 덮어쓰기 합니다. 결론적으로 아래에 있는 옵션이 우선순위가 높습니다.

Order	Option
1	Environment Variables
2	terraform.tfvars
3	terraform.tfvars.json
4	*.auto.tfvars (alphabetical order)
5	-var or –var-file (command-line flags)

Local

local은 외부에서 입력되지 않고, 코드 내에서만 가공되어 동작하는 값이다. 외부에서 입력되진 않지만 Local 선언 자체에 일반 변수를 넣을 수 있다. (아래의 예시 참고)

local은 회사내의 클라우드 서비스를 이용할 때, 리소스에 태그를 걸어야한다. ex) Owner, Purpose 등

이 때 Local 변수를 사용하면 아래와 같이 편하게 리소스에 태그를 걸 수 있다.

locals {
  additional_tags = {
    Purpose     = var.purpose
    Owner       = var.owner
  }
}
...
resource "aws_instance" "app" {
...
  tags = merge(
    {
      Name = "web-app"
    },
    local.additional_tags
  )

}

실습

도전과제2 : 위 3개 코드 파일 내용에 리소스의 이름(myvpc, mysubnet1 등)을 반드시! 꼭! 자신의 닉네임으로 변경해서 배포 실습해보세요!

VPC DNS 옵션 활성화

resource "aws_vpc" "myvpc" {
  cidr_block           = "10.10.0.0/16"
  enable_dns_support   = true
  enable_dns_hostnames = true

  tags = {
    Name = "t101-study"
  }
}

[도전과제1] 리전 내에서 사용 가능한 가용영역 목록 가져오기를 사용한 VPC 리소스 생성 실습 진행
아래와 같이, data 소스를 이용하여 AZ를 가져온다.

resource "aws_subnet" "mysubnet1" {
  vpc_id     = aws_vpc.myvpc.id
  cidr_block = "10.10.1.0/24"

  availability_zone = data.aws_availability_zones.available.names[2]

  tags = {
    Name = "t101-subnet1"
  }
}

resource "aws_subnet" "mysubnet2" {
  vpc_id     = aws_vpc.myvpc.id
  cidr_block = "10.10.2.0/24"

  availability_zone = "ap-northeast-2c"

  tags = {
    Name = "t101-subnet2"
  }
}

ec2 생성 콘솔에서 확인

Graph

Vscode 에서 추출한 그림인데, 리소스가 많아 보기 조금 불편하다.

EC2 접속하기

$ MYIP=$(terraform output -raw kane_ec2_public_ip)
$ echo $MYIP                   
3.35.173.67
$ while true; do curl --connect-timeout 1  http://$MYIP/ ; echo "------------------------------"; date; sleep 1; done
RegionAz(apne2-az1) : Instance ID(i-0ca40805a20604dbe) : Private IP(10.10.1.34) : Web Server
------------------------------
Mon Sep  4 00:50:56 KST 2023
RegionAz(apne2-az1) : Instance ID(i-0ca40805a20604dbe) : Private IP(10.10.1.34) : Web Server
------------------------------
Mon Sep  4 00:50:57 KST 2023
RegionAz(apne2-az1) : Instance ID(i-0ca40805a20604dbe) : Private IP(10.10.1.34) : Web Server
------------------------------
Mon Sep  4 00:50:58 KST 2023

Output

terraform apply 이후 파일에 적힌 출력값을 콘솔에 출력해준다. 주로 Ec2의 퍼블릭 ip같이 꼭 확인해야 하는 것들을 주로 출력한다. 생성 후의 정보를 출력하기에 당연한 이야기지만 오로지, apply를 적용할 때만 출력한다. 또한 이런 값들은 추후 파이프라인 구성, shell script 혹은 ansible 에 사용할 수도 있다.

기본 예시

output "instance_ip_addr" {
  value       = aws_instance.server.private_ip
  description = "The private IP address of the main server instance."
}

조건 검사 진행

output "api_base_url" {
  value = "https://${aws_instance.example.private_dns}:8433/"

  # The EC2 instance must have an encrypted root volume.
  precondition {
    condition     = data.aws_ebs_volume.example.encrypted
    error_message = "The server's root volume is not encrypted."
  }
}

Option
- sensitive : CLI 에서 출력되지 않게 할 수 있다.
- **depends_on : 선수관계를 정할 수 있다.(먼저, 출력되는 것을 결정할 수 있다.)

output "instance_ip_addr" {
  value       = aws_instance.server.private_ip
  description = "The private IP address of the main server instance."

  depends_on = [
    # Security group rule must be created before this IP address could
    # actually be used, otherwise the services will be unreachable.
    aws_security_group_rule.local_access,
  ]
}

반복문

count : 반복문, 정수 값만큼 리소스나 모듈을 생성함. 인스턴스가 거의 동일한 경우 Count가 적절(For each 보다), count, count.index 로 접근

  variable "subnet_ids" {
    type = list(string)
  }

  resource "aws_instance" "server" {
    # Create one instance for each subnet
    count = length(var.subnet_ids)
      ...
    subnet_id     = var.subnet_ids[count.index]

    tags = {
      Name = "Server ${count.index}"
    }
  }

for_each : 반복문, 선언된 key 값 개수만큼 리소스를 생성

  resource "aws_instance" "example" {
    # One VPC for each element of var.vpcs
    for_each = var.instances

    # each.value here is a value from var.vpcs
    name = each.key
      ami = each.value.ami
  }

for

만약 [ ]으로 되어있으면 tuple 형식으로 컨테이너를 반환하고, {}이면 오브젝트로 반환하는 반복문이다.

또한 for 뒤에 If 를 통해 필터링 기능도 가능하다.(if 인 값만 사용)
```
  [for s in var.list : upper(s) if s != ""]
  [for i, v in var.list : "${i} is ${v}"]
  # object 형식일때
  [for k, v in var.map : length(k) + length(v)]
```

Dynamic Block

특수한 목적의 Dynamic Block을 통해 동적으로 만들어지는 변수에 대해 반복 가능한 블럭을 만들 수 있다. 기존의 for_each, count 등 반복문은 리소스 block 등 자신의 바깥 블럭을 반복해서 찍어내는 것에 비해 dynamic block은 block자체를 정의하며 반복적으로 찍어낸다. (resource와 같은 단일블락이 아닌 내부 블락으로만 사용된다.) 사용방법은 Argument를 확인하면 된다.

찾아보니, 다음과 같은 안내사항도 있었다.
- 과도한 사용을 피한다. (동적 블록을 과도하게 사용하면 구성을 읽고 유지하기 어려울 수 있다.)
- 재사용 가능한 모듈을 위한 깨끗한 사용자 인터페이스를 구축하기 위해 세부 정보를 숨겨야 할 때 사용합니다
- 가능한 경우 항상 중첩된 블록을 문자 그대로 써라.

resource "aws_security_group" "backend-sg" {
  name        = "backend-sg"
  vpc_id      = aws_vpc.backend-vpc.id
    dynamic "ingress" {
        for_each = var.ingress_ports
        content {
          from_port = ingress.value
                to_port = ingress.value
                protocol = "tcp"
                cidr_blocks = ["0.0.0.0/0"]
        }
    }
}
# 아래와 같이 하기 싫어서 위처럼 진행
resource "aws_security_group" "backend-sg" {
  name        = "backend-sg"
  vpc_id      = aws_vpc.backend-vpc.id
    ingress {
          from_port = 22
                to_port = 22
                protocol = "tcp"
                cidr_blocks = ["0.0.0.0/0"]
    }
    ingress {
          from_port = 8080
                to_port = 8080
                protocol = "tcp"
                cidr_blocks = ["0.0.0.0/0"]
    }
}

도전과제3

도전과제3 : 입력변수를 활용해서 리소스(어떤 리소스든지 상관없음)를 배포해보고, 해당 코드를 정리해주세요!

위에서 진행한 EC2 배포 코드를 이용한다. 변수를 통해 인스턴스의 타입을 동적으로 구성한다.

EC2 구성

resource "aws_instance" "kane_ec2" {

  depends_on = [
    aws_internet_gateway.kane_igw
  ]

  ami                         = data.aws_ami.amazonlinux2.id
  associate_public_ip_address = true
    // 아래의 내용을 수정!
  instance_type               = var.ec2_instance_type
  vpc_security_group_ids      = ["${aws_security_group.kane_sg.id}"]
  subnet_id                   = aws_subnet.kane_subnet1.id
...

variable.tf 파일을 생성한 뒤, 아래의 내용 추가

variable "ec2_instance_type" {
  type        = string
  description = "The type of EC2 instance to launch"
}

terraform.tfvars 파일을 생성한 뒤 아래의 내용을 추가한다.
- 해당 파일이 존재하면, 테라폼은 자동으로 변수의 값을 가져간다. 우선순위에 따라 덮어써질 수 있긴 하다. 하지만 여기선 변수 입력을 해당 파일로만 하니 상관없다.

ec2_instance_type = "t2.small"

이제 Terraform apply 명령어를 통해 인프라를 구축한다.

기존과는 다르게 t2.micro 가 아닌 t2.small 이 생성된 것을 확인할 수 있다.

도전과제4

도전과제4 : local를 활용해서 리소스(어떤 리소스든지 상관없음)를 배포해보고, 해당 코드를 정리해주세요!

local을 통해, EC2에 태깅 작업을 진행한다.

local 선언

locals {
  additional_tags = {
    Environment = "Dev"
    Purpose     = "Test"
    Owner       = "Kane"
  }
}

EC2에 추가

resource "aws_instance" "kane_ec2" {

  depends_on = [
    aws_internet_gateway.kane_igw
  ]

    ...

  tags = merge({
    Name = "t101-kane_ec2"
    }
  , local.additional_tags)
}

terraform apply를 실행한다.

이제 AWS 콘솔에 들어가 EC2 > Tags 페이지를 확인하면 다음과 같이 태깅이 올바르게 된 것을 확인할 수 있다.

Terraform Study #1

Mon, 28 Aug 2023 10:15:18 GMT

1주차

평소에 테라폼에 관심이 많아, 자격증도 취득하고 공부를 했다. 공부를 했지만, 아직 이것저것 헷갈리는 게 많다. 이를 구체화시키고, 실무에 대한 조언을 들을 겸 스터디에 참가하게 되었다. 나중에는 Golang 연습할 겸 코드도 뜯어보고 싶다. 스터디는 CloudNet에서 주관하고 유형욱님과 윤서율님이 진행해주신다.

1주차에서는 테라폼에 대해 알아보고, 실행 환경을 세팅한다. 이후 EC2를 배포해보면서 기본 문법과 명령어에 대해 학습한다.

테라폼 제공유형

On-premise : Terraform이라 불리는 형태로, 사용자의 컴퓨팅 환경에 오픈소스 바이너리툴인 테라폼을 통해 사용

라이선스를 변경되어서, 오픈소스 → 커뮤니티 에디션으로 변경된다.
Hosted SaaS : Terraform Cloud로 불리는 SaaS로 제공되는 구성 환경으로 하시코프가 관리하는 서버 환경이 제공
Private Install : Terraform Enterprise로 불리는 서버 설치형 구성 환경으로, 기업의 사내 정책에 따라 프로비저닝 관리가 외부 네트워크와 격리 - 링크

2,3 번은 기본적으로 GUI가 제공되며 Terraform Cloud는 Free 티어가 있다.

테라폼 클라우드 가격정책 비교

Free : 리소스 500개 까지 무료 → 커뮤니티 버전
Standard : Free + 워크플로우 기능 추가 + 동시실행(Concurrency 개수 3개)

AWS 옵션(실습 환경 구성)

AWS_PAGER 옵션 제거

하나의 페이지처럼, 작동함 → 나갈려면 :q 옵션을 입력해야 하고, 기타 옵션도 쓸 수 있는 듯?

페이저를 비활성화하는 이유는 여러 가지가 있을 수 있습니다.

Scripting and Automation: AWS CLI 명령어의 출력을 스크립트나 다른 프로그램에서 파싱해야 할 경우, 페이저가 불필요한 중간 단계를 추가할 수 있습니다.
Non-Interactive Environments: CI/CD 파이프라인이나 배치 작업과 같은 비대화형(non-interactive) 환경에서는 페이저가 문제를 일으킬 수 있습니다.

export AWS_PAGER=""

적용하면, 페이저가 없이 값만 출력된다.

AWS 계정 선택

여러 AWS 계정을 쓰는 경우, Profile을 환경변수로 선택할 수 있다.

export AWS_PROFILE="study"

Terraform에서도 별도의 provider block에서 세팅해줘야한다.

provider "aws" {
  profile = "eks"
  region  = "ap-northeast-2"
}

추가) vscode aws toolkit 설정으로, 현재의 profile을 확인할 수 있다. 여러 AWS 계정을 쓸 경우, 편리하다.

HCL

HCL은 JSON을 본따 만든 언어이며, JSON보다 사람 친화적인 언어이다.

인프라가 코드로 표현되고, 이 코드는 곧 인프라이기 때문에 선언적(declarative) 특성을 갖게 되고 튜링 완전한 Turing-complete 언어적 특성을 갖는다. [참고: 튜링완전]
즉, 일반적인 프로그래밍 언어의 조건문 처리 같은 동작이 가능하다. 자동화와 더불어, 쉽게 버저닝해 히스토리를 관리하고 함께 작업 할 수 있는 기반을 제공. → 확실한 차이점

Terraform Command 옵션

validate
- -no-color : 대부분의 명령과 함께 사용 가능, 로컬이 아닌 외부 실행 환경(젠킨스, Terraform Cloud, Github Action 등)을 사용하는 경우, 색상 표기 문자 ←[0m←[1m 가 표기 될 수 있다. 이 경우 -no-color 옵션으로 색상 표기 문자 없이 출력함. [참고]
plan
- -detailed-exitcode : plan 추가 옵션으로, 파이프라인 설계에서 활용 가능, exitcode가 환경 변수로 구성됨
apply or destroy
- -auto-approve: 자동 승인 기능 부여 옵션

EC2 배포

우선, 해당 실습에서는 default VPC를 사용한다. 만약 사용하는 리전의 default VPC가 없다면 아래의 명령어를 실행하여 생성한다.

$ aws ec2 create-default-vpc
{
    "Vpc": {
        "CidrBlock": "172.31.0.0/16",
        ...
        ],
        "IsDefault": true,
        "Tags": []
    }
}

EC2를 프로비저닝하는 기본적인 코드이다. 해당 코드를 실행하면, EC2를 생성할 수 있으며 접속할 public IP를 받을 수 있다.

provider "aws" {
  region = "ap-northeast-2"
}

resource "aws_instance" "example" {
  ami                    = "*ami-0c9c942bd7bf113a2*"
  instance_type          = "t2.micro"
  **vpc_security_group_ids = [aws_security_group.instance.id]**

  user_data = <<-EOF
              #!/bin/bash
              echo "Hello, T101 Study" > index.html
              nohup busybox httpd -f -p **8080** &
              EOF

  tags = {
    Name = "Single-WebSrv"
  }
}

resource "**aws_security_group"** "instance" {
  name = **var**.security_group_name

  **ingress** {
    from_port   = 8080
    to_port     = 8080
    protocol    = "tcp"
    cidr_blocks = ["0.0.0.0/0"]
  }
}

**variable** "security_group_name" {
  description = "The name of the security group"
  type        = string
  default     = "terraform-example-instance"
}

**output** "public_ip" {
  value       = aws_instance.example.public_ip
  description = "The public IP of the Instance"
}

$ tf apply
...
Apply complete! Resources: 2 added, 0 changed, 0 destroyed.

Outputs:

public_ip = "54.180.106.217"

→ user_data_replace_on_change = false 옵션을 추가한다!

코드를 아래와 같이 변경한다.

resource "aws_instance" "example" {
  ami                    = "ami-0c9c942bd7bf113a2"
    ...

  user_data_replace_on_change = false
  tags = {
    Name = "Single-WebSrv"
  }
}
...
resource "aws_security_group" "instance" {
  name = var.security_group_name
    ...
    # lifecycle을 추가하면 다운타임을 줄일 수 있다.
    lifecycle {
    create_before_destroy = true
  }
}

변경하기 이전과 이후에 생성과정을 보면 다른 것을 알 수 있다. 이전처럼 파괴하고 재생성이 아닌, 변경된 값을 업데이트한다.

# 이전
aws_security_group.instance: Destroying... [id=sg-03c90b3d559abb123]
aws_security_group.instance: Destruction complete after 1s
aws_security_group.instance: Creating...
aws_security_group.instance: Creation complete after 1s [id=sg-0de633908986b76ad]
# 라이프사이클 적용 후
...
aws_security_group.instance: Modifying... [id=sg-0de633908986b76ad]
aws_security_group.instance: Modifications complete after 1s [id=sg-0de633908986b76ad]

이 설정은 user_data가 변경될 때 EC2 인스턴스를 새로 생성할 것인지, 아니면 기존 인스턴스를 유지할 것인지를 결정한다. false는 인스턴스를 유지하는 옵션이며, 인스턴스를 유지한다.

# 적용 전
aws_instance.example: Destroying... [id=i-0794bd9bb343a948b]
...
aws_instance.example: Creating...

# "user_data_replace_on_change = false" 적용 후
aws_instance.example: Modifying... [id=i-0568341d533d4ca58]
aws_instance.example: Still modifying... [id=i-0568341d533d4ca58, 10s elapsed]
aws_instance.example: Still modifying... [id=i-0568341d533d4ca58, 20s elapsed]

테라폼 문법 설명

Terraform 블록, 아래와 같이 내용을 잘 정리해주셨다.

오늘 실행하던, 3년 후에 실행하던 동일한 결과를 얻을 수 있어야 한다! (Desired State + Immutable)

terraform {
  required_version = "~> 1.3.0" # 테라폼 버전

  required_providers { # 프로바이더 버전을 나열
    random = {
      version = ">= 3.0.0, < 3.1.0"
    }
    aws = {
      version = "4.2.0"
    }
  }

  cloud { # Cloud/Enterprise 같은 원격 실행을 위한 정보 [참고: Docs]
    organization = ""
    workspaces {
      name = "my-first-workspace"
    }
  }

  backend "local" { # state를 보관하는 위치를 지정 [참고: Docs, local, remote, s3]
    path = "relative/path/to/terraform.tfstate"
  }
}

테라폼 0.13 버전 이전에는 provider 블록에 함께 버전을 명시했지만 해당 버전 이후 프로바이더 버전은 terraform 블록에서 required_providers에 정의

terraform {
  cloud {
    hostname = "[app.terraform.io](http://app.terraform.io/)"
    organization = "my-org"
    workspades = {
       name = "my-app-prod"
    }
  }
}

Backend

협업을 위해서는 s3 등 원격으로 저장해서 관리함, 기본적으로 lock을 지원한다. 로컬에서 간단하게 테스트할 수 있는 데, 로컬에서 apply 명령어를 실행하고, 승인을 기다릴 때 ls -al 명령어로 작업 디렉터리의 파일을 확인하면 .terraform.tfstate.lock.info 파일이 생성된 것을 확인할 수 있다.

cat .terraform.tfstate.lock.info | jq .
{
  "ID": "b4dbfee6-a28f-04da-d235-5591414dbcbc",
  "Operation": "OperationTypeApply",
  "Info": "",
  "Who": "kane@kanes-MacBook-Pro.local",
  "Version": "1.5.6",
  "Created": "2023-08-27T14:07:14.110318Z",
  "Path": "terraform.tfstate"
}

추가 옵션1 (이전 구성 유지) : -migrate-state는 terraform.tfstate의 이전 구성에서 최신의 state 스냅샷을 읽고 기록된 정보를 새 구성으로 전환한다.
추가 옵션2 (새로 초기화) : -reconfigure는 init을 실행하기 전에 terraform.tfstate 파일을 삭제해 테라폼을 처음 사용할 때처럼 이 작업 공간(디렉터리)을 초기화 하는 동작이다.

.tfstate

도전과제1 (EC2 웹 서버 배포)

위의 EC2 실습에서 user_data 부분만 변경했다.

user_data = <<-EOF
              #!/bin/bash
              echo "T101 Study Kane" > index.html
              nohup busybox httpd -f -p 8080 &
              EOF

도전과제2 (Backend)

AWS S3/DynamoDB 백엔드

아래는 관련 코드이다.

provider "aws" {
  profile = "eks"
  region  = "ap-northeast-2"
}

resource "aws_s3_bucket" "mys3bucket" {
  bucket = "kane-t101study-tfstate"
}

# Enable versioning so you can see the full revision history of your state files
resource "aws_s3_bucket_versioning" "mys3bucket_versioning" {
  bucket = aws_s3_bucket.mys3bucket.id
  versioning_configuration {
    status = "Enabled"
  }
}

resource "aws_dynamodb_table" "mydynamodbtable" {
  name         = "terraform-locks"
  billing_mode = "PAY_PER_REQUEST"
  hash_key     = "LockID"

  attribute {
    name = "LockID"
    type = "S"
  }
}

output "s3_bucket_arn" {
  value       = aws_s3_bucket.mys3bucket.arn
  description = "The ARN of the S3 bucket"
}

output "dynamodb_table_name" {
  value       = aws_dynamodb_table.mydynamodbtable.name
  description = "The name of the DynamoDB table"
}

EC2를 배포하는 코드에 아래와 같은 원격 backend를 설정한다.

terraform {
  backend "s3" {
    bucket = "kane-t101study-tfstate"
    key    = "dev/terraform.tfstate"
    region = "ap-northeast-2"
    dynamodb_table = "terraform-locks"
    # encrypt        = true
  }
}

배포한 후, AWS 콘솔에 접속하면 아래와 같이 table을 확인할 수 있다.

이제, s3를 모니터링하며 Terraform을 배포하여 state 파일이 정상적으로 변경되는 지 확인한다.

while true; do aws s3 ls s3://$NICKNAME-t101study-tfstate --recursive --human-readable --summarize ; echo "------------------------------"; date; sleep 1; done

Total Objects: 0
   Total Size: 0 Bytes
------------------------------
Mon Aug 28 00:50:18 KST 2023

Total Objects: 0
   Total Size: 0 Bytes
------------------------------
...
# 리소스 생성
------------------------------
Mon Aug 28 00:53:16 KST 2023
2023-08-28 00:50:56   21.1 KiB dev/terraform.tfstate

Total Objects: 1
   Total Size: 21.1 KiB
------------------------------
Mon Aug 28 00:53:17 KST 2023
2023-08-28 00:53:18   22.4 KiB dev/terraform.tfstate
------------------------------
...
# 리소스 업데이트
------------------------------
Total Objects: 1
   Total Size: 22.4 KiB
------------------------------
# 리소스 삭제
...
------------------------------
Mon Aug 28 00:56:04 KST 2023
2023-08-28 00:56:03  180 Bytes dev/terraform.tfstate

Total Objects: 1
   Total Size: 180 Bytes
------------------------------
Mon Aug 28 00:56:05 KST 2023

아래와 같이 콘솔에서도 확인할 수 있다. 생성 순서는 아래에서부터 위 방향이다.

EKS 스터디 7주차

Thu, 08 Jun 2023 14:57:58 GMT

요약

먼저, 이번 과제를 마지막으로 EKS 스터디는 끝이났다. 스터디 완주와 귀여운 Go 캐릭터들이 모여 기쁘다. 스터디를 하면서 많은 일들이 있었다. (실수로 AWS 토큰을 노출해서, 메일도 날라오고..) EKS 실무 관련 경험이 없었는 데, 정말 많은 이론을 배우고, 따라하며 익힐 수 있었다. 앞으로 복습을 하며 추후 예정으로 미뤄뒀던 실습과 이론을 진행하면서 내용을 세부화해서 포스팅할 예정이다.

그동안 스터디를 준비해주신 가시다님과 CloudNet 팀 덕분에 많이 배울 수 있었다. 정말 감사합니다 ㅎㅎ!! 스터디에 관심있으신 분은 CloudNet에서 확인할 수 있습니다!

이번 주차의 주제는 Automation이다. ACK와 Flux에 대해 실습을 진행하고, 아주 간단히 ArgoCD를 진행한다.

AWS Controller for Kubernetes (ACK)

AWS에서 제작한 오픈소스 툴이며, 클라우드를 잘 모르는 개발자?에게 좋을 듯하다. 하지만 아직 정식으로 오픈한 서비스가 많아보이진 않는다. 자세한 내용은 공식문서 참고!

ACK : aws 서비스 리소스를 k8s 에서 직접 정의하고 사용 할 수 있음

S3 실습 진행

우선, ACK S3 controller를 받는다.


$export SERVICE=s3
$export RELEASE_VERSION=$(curl -sL https://api.github.com/repos/aws-controllers-k8s/$SERVICE-controller/releases/latest | grep '"tag_name":' | cut -d'"' -f4 | cut -c 2-)
$helm pull oci://public.ecr.aws/aws-controllers-k8s/$SERVICE-chart --version=$RELEASE_VERSION
Pulled: public.ecr.aws/aws-controllers-k8s/s3-chart:1.0.4
Digest: sha256:9cd8574c78c7f226a2520a423a447afd02366a3ec87b5d1ba910992da3e264b8
$tar xzvf $SERVICE-chart-$RELEASE_VERSION.tgz
s3-chart/Chart.yaml
s3-chart/values.yaml
s3-chart/values.schema.json
s3-chart/templates/NOTES.txt
s3-chart/templates/_helpers.tpl
s3-chart/templates/cluster-role-binding.yaml
s3-chart/templates/cluster-role-controller.yaml
s3-chart/templates/deployment.yaml
s3-chart/templates/metrics-service.yaml
s3-chart/templates/role-reader.yaml
s3-chart/templates/role-writer.yaml
s3-chart/templates/service-account.yaml
s3-chart/crds/s3.services.k8s.aws_buckets.yaml
s3-chart/crds/services.k8s.aws_adoptedresources.yaml
s3-chart/crds/services.k8s.aws_fieldexports.yaml

$tree ~/$SERVICE-chart
/root/s3-chart
├── Chart.yaml
├── crds
│   ├── s3.services.k8s.aws_buckets.yaml
│   ├── services.k8s.aws_adoptedresources.yaml
│   └── services.k8s.aws_fieldexports.yaml
├── templates
│   ├── cluster-role-binding.yaml
│   ├── cluster-role-controller.yaml
│   ├── deployment.yaml
│   ├── _helpers.tpl
│   ├── metrics-service.yaml
│   ├── NOTES.txt
│   ├── role-reader.yaml
│   ├── role-writer.yaml
│   └── service-account.yaml
├── values.schema.json
└── values.yaml

2 directories, 15 files

받은 helm 차트를 배포!

$export ACK_SYSTEM_NAMESPACE=ack-system
$export AWS_REGION=ap-northeast-2
$
$helm install --create-namespace -n $ACK_SYSTEM_NAMESPACE ack-$SERVICE-controller --set aws.region="$AWS_REGION" ~/$SERVICE-chart
NAME: ack-s3-controller
LAST DEPLOYED: Tue Jun  6 15:41:29 2023
NAMESPACE: ack-system
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
s3-chart has been installed.
This chart deploys "public.ecr.aws/aws-controllers-k8s/s3-controller:1.0.4".

Check its status by running:
  kubectl --namespace ack-system get pods -l "app.kubernetes.io/instance=ack-s3-controller"

You are now able to create Amazon Simple Storage Service (S3) resources!

The controller is running in "cluster" mode.
The controller is configured to manage AWS resources in region: "ap-northeast-2"

Visit https://aws-controllers-k8s.github.io/community/reference/ for an API
reference of all the resources that can be created using this controller.

For more information on the AWS Controllers for Kubernetes (ACK) project, visit:
https://aws-controllers-k8s.github.io/community/

이제, 배포를 확인한다.

$helm list --namespace $ACK_SYSTEM_NAMESPACE
NAME                 NAMESPACE     REVISION    UPDATED                                    STATUS      CHART             APP VERSION
ack-s3-controller    ack-system    1           2023-06-06 15:41:29.434398105 +0900 KST    deployed    s3-chart-1.0.4    1.0.4
$kubectl -n ack-system get pods
NAME                                          READY   STATUS              RESTARTS   AGE
ack-s3-controller-s3-chart-7c55c6657d-2dl4x   0/1     ContainerCreating   0          8s

$kubectl get crd | grep $SERVICE
buckets.s3.services.k8s.aws                  2023-06-06T06:41:27Z

$kubectl get all -n ack-system
NAME                                              READY   STATUS    RESTARTS   AGE
pod/ack-s3-controller-s3-chart-7c55c6657d-2dl4x   1/1     Running   0          15s

NAME                                         READY   UP-TO-DATE   AVAILABLE   AGE
deployment.apps/ack-s3-controller-s3-chart   1/1     1            1           15s

NAME                                                    DESIRED   CURRENT   READY   AGE
replicaset.apps/ack-s3-controller-s3-chart-7c55c6657d   1         1         1       15s
$kubectl describe sa -n ack-system ack-s3-controller
Name:                ack-s3-controller
Namespace:           ack-system
Labels:              app.kubernetes.io/instance=ack-s3-controller
                     app.kubernetes.io/managed-by=Helm
                     app.kubernetes.io/name=s3-chart
                     app.kubernetes.io/version=1.0.4
                     helm.sh/chart=s3-chart-1.0.4
                     k8s-app=s3-chart
Annotations:         meta.helm.sh/release-name: ack-s3-controller
                     meta.helm.sh/release-namespace: ack-system
Image pull secrets:  
Mountable secrets:   
Tokens:              
Events:              
$echo $ACK_SYSTEM_NAMESPACE
ack-system
$echo $RELEASE_VERSION
1.0.4

IRSA 설정 - S3 Full Access

파드에 권한이 없다면, AWS S3에 접근할 수 없다. eksctl를 통해 ack-s3-controller 서비스 어카운트에 정책을 붙인다.

$eksctl create iamserviceaccount \
>   --name ack-$SERVICE-controller \
>   --namespace ack-system \
>   --cluster $CLUSTER_NAME \
>   --attach-policy-arn $(aws iam list-policies --query 'Policies[?PolicyName==`AmazonS3FullAccess`].Arn' --output text) \
>   --override-existing-serviceaccounts --approve

2023-06-06 15:42:36 [ℹ]  1 existing iamserviceaccount(s) (kube-system/aws-load-balancer-controller) will be excluded
2023-06-06 15:42:36 [ℹ]  1 iamserviceaccount (ack-system/ack-s3-controller) was included (based on the include/exclude rules)
2023-06-06 15:42:36 [!]  metadata of serviceaccounts that exist in Kubernetes will be updated, as --override-existing-serviceaccounts was set
2023-06-06 15:42:36 [ℹ]  1 task: {
    2 sequential sub-tasks: {
        create IAM role for serviceaccount "ack-system/ack-s3-controller",
        create serviceaccount "ack-system/ack-s3-controller",
    } }2023-06-06 15:42:36 [ℹ]  building iamserviceaccount stack "eksctl-myeks-addon-iamserviceaccount-ack-system-ack-s3-controller"
2023-06-06 15:42:36 [ℹ]  deploying stack "eksctl-myeks-addon-iamserviceaccount-ack-system-ack-s3-controller"
2023-06-06 15:42:36 [ℹ]  waiting for CloudFormation stack "eksctl-myeks-addon-iamserviceaccount-ack-system-ack-s3-controller"
2023-06-06 15:43:06 [ℹ]  waiting for CloudFormation stack "eksctl-myeks-addon-iamserviceaccount-ack-system-ack-s3-controller"
2023-06-06 15:43:59 [ℹ]  waiting for CloudFormation stack "eksctl-myeks-addon-iamserviceaccount-ack-system-ack-s3-controller"
2023-06-06 15:43:59 [ℹ]  serviceaccount "ack-system/ack-s3-controller" already exists
2023-06-06 15:43:59 [ℹ]  updated serviceaccount "ack-system/ack-s3-controller"

웹 콘솔에서도 IAM 서비스어카운트가 생성된 것을 확인할 수 있다.

터미널에서 자세한 내용 확인

# 생성 확인
$eksctl get iamserviceaccount --cluster $CLUSTER_NAME
NAMESPACE    NAME                ROLE ARN
ack-system    ack-s3-controller        arn:aws:iam::011116120544:role/eksctl-myeks-addon-iamserviceaccount-ack-sys-Role1-CGT73XW0JNSS
kube-system    aws-load-balancer-controller    arn:aws:iam::011116120544:role/eksctl-myeks-addon-iamserviceaccount-kube-sy-Role1-1OBUCIYN8PY2F

$k get sa -n ack-system
NAME                SECRETS   AGE
ack-s3-controller   0         3m39s
default             0         3m39s

$eksctl get iamserviceaccount --cluster $CLUSTER_NAME
NAMESPACE    NAME                ROLE ARN
ack-system    ack-s3-controller        arn:aws:iam::011116120544:role/eksctl-myeks-addon-iamserviceaccount-ack-sys-Role1-CGT73XW0JNSS
kube-system    aws-load-balancer-controller    arn:aws:iam::011116120544:role/eksctl-myeks-addon-iamserviceaccount-kube-sy-Role1-1OBUCIYN8PY2F
$kubectl get sa -n ack-system

NAME                SECRETS   AGE
ack-s3-controller   0         4m12s
default             0         4m12s
$
$kubectl describe sa ack-$SERVICE-controller -n ack-system
Name:                ack-s3-controller
Namespace:           ack-system
Labels:              app.kubernetes.io/instance=ack-s3-controller
                     app.kubernetes.io/managed-by=eksctl
                     app.kubernetes.io/name=s3-chart
                     app.kubernetes.io/version=1.0.4
                     helm.sh/chart=s3-chart-1.0.4
                     k8s-app=s3-chart
Annotations:         eks.amazonaws.com/role-arn: arn:aws:iam::011116120544:role/eksctl-myeks-addon-iamserviceaccount-ack-sys-Role1-CGT73XW0JNSS
                     meta.helm.sh/release-name: ack-s3-controller
                     meta.helm.sh/release-namespace: ack-system
Image pull secrets:  
Mountable secrets:   
Tokens:              
Events:              
$kubectl -n ack-system rollout restart deploy ack-$SERVICE-controller-$SERVICE-chart
deployment.apps/ack-s3-controller-s3-chart restarted
$kubectl describe pod -n ack-system -l k8s-app=$SERVICE-chart
Name:             ack-s3-controller-s3-chart-5d5bd5d57c-sfbb5
Namespace:        ack-system
Priority:         0
Service Account:  ack-s3-controller
Node:             ip-192-168-2-99.ap-northeast-2.compute.internal/192.168.2.99
Start Time:       Tue, 06 Jun 2023 15:46:23 +0900
Labels:           app.kubernetes.io/instance=ack-s3-controller
                  app.kubernetes.io/managed-by=Helm
                  app.kubernetes.io/name=s3-chart
                  k8s-app=s3-chart
                  pod-template-hash=5d5bd5d57c
Annotations:      kubectl.kubernetes.io/restartedAt: 2023-06-06T15:46:23+09:00
                  kubernetes.io/psp: eks.privileged
                  seccomp.security.alpha.kubernetes.io/pod: runtime/default
Status:           Running
SeccompProfile:   RuntimeDefault
IP:               192.168.2.89
IPs:
  IP:           192.168.2.89
Controlled By:  ReplicaSet/ack-s3-controller-s3-chart-5d5bd5d57c
Containers:
  controller:
    Container ID:  containerd://1af33fc46028ce439b7b7dc809267b3bbf84f22ba2e7681f6929ddc0b68063b8
    Image:         public.ecr.aws/aws-controllers-k8s/s3-controller:1.0.4
    Image ID:      public.ecr.aws/aws-controllers-k8s/s3-controller@sha256:c103185184be38ec4d113d99c06889d4facd4025cd5238f141ebbcc0bad8b155
    Port:          8080/TCP
    Host Port:     0/TCP
    Command:
      ./bin/controller
    Args:
      --aws-region
      $(AWS_REGION)
      --aws-endpoint-url
      $(AWS_ENDPOINT_URL)
      --enable-development-logging
      $(ACK_ENABLE_DEVELOPMENT_LOGGING)
      --log-level
      $(ACK_LOG_LEVEL)
      --resource-tags
      $(ACK_RESOURCE_TAGS)
      --watch-namespace
      $(ACK_WATCH_NAMESPACE)
      --deletion-policy
      $(DELETION_POLICY)
    State:          Running
      Started:      Tue, 06 Jun 2023 15:46:28 +0900
    Ready:          True
    Restart Count:  0
    Limits:
      cpu:     100m
      memory:  128Mi
    Requests:
      cpu:     50m
      memory:  64Mi
    Environment:
      ACK_SYSTEM_NAMESPACE:            ack-system (v1:metadata.namespace)
      AWS_REGION:                      ap-northeast-2
      AWS_ENDPOINT_URL:
      ACK_WATCH_NAMESPACE:
      DELETION_POLICY:                 delete
      ACK_ENABLE_DEVELOPMENT_LOGGING:  false
      ACK_LOG_LEVEL:                   info
      ACK_RESOURCE_TAGS:               services.k8s.aws/controller-version=%CONTROLLER_SERVICE%-%CONTROLLER_VERSION%,services.k8s.aws/namespace=%K8S_NAMESPACE%
      AWS_STS_REGIONAL_ENDPOINTS:      regional
      AWS_ROLE_ARN:                    arn:aws:iam::011116120544:role/eksctl-myeks-addon-iamserviceaccount-ack-sys-Role1-CGT73XW0JNSS
      AWS_WEB_IDENTITY_TOKEN_FILE:     /var/run/secrets/eks.amazonaws.com/serviceaccount/token
    Mounts:
      /var/run/secrets/eks.amazonaws.com/serviceaccount from aws-iam-token (ro)
      /var/run/secrets/kubernetes.io/serviceaccount from kube-api-access-kpfz4 (ro)
Conditions:
  Type              Status
  Initialized       True
  Ready             True
  ContainersReady   True
  PodScheduled      True
Volumes:
  aws-iam-token:
    Type:                    Projected (a volume that contains injected data from multiple sources)
    TokenExpirationSeconds:  86400
  kube-api-access-kpfz4:
    Type:                    Projected (a volume that contains injected data from multiple sources)
    TokenExpirationSeconds:  3607
    ConfigMapName:           kube-root-ca.crt
    ConfigMapOptional:       
    DownwardAPI:             true
QoS Class:                   Burstable
Node-Selectors:              kubernetes.io/os=linux
Tolerations:                 node.kubernetes.io/not-ready:NoExecute op=Exists for 300s
                             node.kubernetes.io/unreachable:NoExecute op=Exists for 300s
Events:
  Type    Reason     Age   From               Message
  ----    ------     ----  ----               -------
  Normal  Scheduled  8s    default-scheduler  Successfully assigned ack-system/ack-s3-controller-s3-chart-5d5bd5d57c-sfbb5 to ip-192-168-2-99.ap-northeast-2.compute.internal
  Normal  Pulled     5s    kubelet            Container image "public.ecr.aws/aws-controllers-k8s/s3-controller:1.0.4" already present on machine
  Normal  Created    5s    kubelet            Created container controller
  Normal  Started    3s    kubelet            Started container controller

이제, S3 관련 테스트를 진행한다.

Bucket 생성

$export AWS_ACCOUNT_ID=$(aws sts get-caller-identity --query "Account" --output text)
$export BUCKET_NAME=my-ack-s3-bucket-$AWS_ACCOUNT_ID
$read -r -d '' BUCKET_MANIFEST < apiVersion: s3.services.k8s.aws/v1alpha1
> kind: Bucket
> metadata:
>   name: $BUCKET_NAME
> spec:
>   name: $BUCKET_NAME
> EOF
$echo "${BUCKET_MANIFEST}" > bucket.yaml
$cat bucket.yaml | yh
apiVersion: s3.services.k8s.aws/v1alpha1
kind: Bucket
metadata:
  name: my-ack-s3-bucket-011116120544
spec:
  name: my-ack-s3-bucket-011116120544

$aws s3 ls

$kubectl create -f bucket.yaml
bucket.s3.services.k8s.aws/my-ack-s3-bucket-011116120544 created

# 생성 확인
$aws s3 ls
2023-06-06 15:48:02 my-ack-s3-bucket-011116120544
$kubectl get buckets
NAME                            AGE
my-ack-s3-bucket-011116120544   10s
$kubectl describe bucket/$BUCKET_NAME | head -6
Name:         my-ack-s3-bucket-011116120544
Namespace:    default
Labels:       
Annotations:  
API Version:  s3.services.k8s.aws/v1alpha1
Kind:         Bucket

$aws s3 ls | grep $BUCKET_NAME
2023-06-06 15:48:02 my-ack-s3-bucket-011116120544

S3 버킷 업데이트 : 태그 정보 입력

$read -r -d '' BUCKET_MANIFEST < apiVersion: s3.services.k8s.aws/v1alpha1
> kind: Bucket
> metadata:
>   name: $BUCKET_NAME
> spec:
>   name: $BUCKET_NAME
>   tagging:
>     tagSet:
>     - key: myTagKey
>       value: myTagValue
> EOF
$echo "${BUCKET_MANIFEST}" > bucket.yaml

#S3 버킷 설정 업데이트 실행 : 필요 주석 자동 업뎃 내용이니 무시해도됨!
$kubectl apply -f bucket.yaml
Warning: resource buckets/my-ack-s3-bucket-011116120544 is missing the kubectl.kubernetes.io/last-applied-configuration annotation which is required by kubectl apply. kubectl apply should only be used on resources created declaratively by either kubectl create --save-config or kubectl apply. The missing annotation will be patched automatically.
bucket.s3.services.k8s.aws/my-ack-s3-bucket-011116120544 configured

S3 버킷 업데이트 결과를 확인한다.

$kubectl describe bucket/$BUCKET_NAME | grep Spec: -A5
Spec:
  Name:  my-ack-s3-bucket-011116120544
  Tagging:
    Tag Set:
      Key:    myTagKey
      Value:  myTagValue

$kubectl describe bucket/$BUCKET_NAME | grep Spec: -A5
Spec:
  Name:  my-ack-s3-bucket-011116120544
  Tagging:
    Tag Set:
      Key:    myTagKey
      Value:  myTagValue

콘솔에서도 값 변경 확인

이제 실습을 종료하고, 자원을 삭제한다.

$kubectl delete -f bucket.yaml
bucket.s3.services.k8s.aws "my-ack-s3-bucket-011116120544" deleted
$kubectl get bucket/$BUCKET_NAME
Error from server (NotFound): buckets.s3.services.k8s.aws "my-ack-s3-bucket-011116120544" not found
$export SERVICE=s3
$helm uninstall -n $ACK_SYSTEM_NAMESPACE ack-$SERVICE-controller
release "ack-s3-controller" uninstalled
$kubectl delete -f ~/$SERVICE-chart/crds
customresourcedefinition.apiextensions.k8s.io "buckets.s3.services.k8s.aws" deleted
customresourcedefinition.apiextensions.k8s.io "adoptedresources.services.k8s.aws" deleted
customresourcedefinition.apiextensions.k8s.io "fieldexports.services.k8s.aws" deleted
$eksctl delete iamserviceaccount --cluster myeks --name ack-$SERVICE-controller --namespace ack-system
2023-06-06 15:50:31 [ℹ]  1 iamserviceaccount (ack-system/ack-s3-controller) was included (based on the include/exclude rules)
2023-06-06 15:50:31 [ℹ]  1 task: {
    2 sequential sub-tasks: {
        delete IAM role for serviceaccount "ack-system/ack-s3-controller" [async],
        delete serviceaccount "ack-system/ack-s3-controller",
    } }2023-06-06 15:50:31 [ℹ]  will delete stack "eksctl-myeks-addon-iamserviceaccount-ack-system-ack-s3-controller"
2023-06-06 15:50:31 [ℹ]  serviceaccount "ack-system/ack-s3-controller" was already deleted
$

Flux

argocd와 유사한 gitops 툴이다. kustomize에 특화된 도구이며, 테라폼 코드를 실행하는 기능이 있다고 한다.

하지만, helm or kustomize에 의존적이다.

자세한 내용은 악분님 블로그 참고 Blog

Flux 설치한다.

$curl -s https://fluxcd.io/install.sh | sudo bash
[INFO]  Downloading metadata https://api.github.com/repos/fluxcd/flux2/releases/latest
[INFO]  Using 2.0.0-rc.5 as release
[INFO]  Downloading hash https://github.com/fluxcd/flux2/releases/download/v2.0.0-rc.5/flux_2.0.0-rc.5_checksums.txt
[INFO]  Downloading binary https://github.com/fluxcd/flux2/releases/download/v2.0.0-rc.5/flux_2.0.0-rc.5_linux_amd64.tar.gz
[INFO]  Verifying binary download
which: no shasum in (/sbin:/bin:/usr/sbin:/usr/bin)
[INFO]  Installing flux to /usr/local/bin/flux
$. <(flux completion bash)

# 설치 확인
$flux --version
flux version 2.0.0-rc.5

이제 깃허브와 연동한다. 깃허브 토큰을 발급받아서 진행한다.

# 깃허브 토큰 등록 
$export GITHUB_TOKEN=ghp_mawAkDy...
$export GITHUB_USER=han-03..

# flux 연결
$flux bootstrap github \
>   --owner=$GITHUB_USER \
>   --repository=fleet-infra \
>   --branch=main \
>   --path=./clusters/my-cluster \
>   --personal
► connecting to github.com
✔ repository "https://github.com/han/fleet-infra" created
► cloning branch "main" from Git repository "https://github.com/han/fleet-infra.git"
✔ cloned repository
► generating component manifests
# Warning: 'patchesJson6902' is deprecated. Please use 'patches' instead. Run 'kustomize edit fix' to update your Kustomization automatically.
✔ generated component manifests
✔ committed sync manifests to "main" ("061daf49d8f729dba1dd4bc38023e891df92d225")
► pushing component manifests to "https://github.com/han/fleet-infra.git"
► installing components in "flux-system" namespace
✔ installed components
✔ reconciled components
► determining if source secret "flux-system/flux-system" exists
► generating source secret
✔ public key: ecdsa-sha2-nistp384 AAAAE2VjZHNhLXNoYTItbmlzdHAzOD...
✔ configured deploy key "flux-system-main-flux-system-./clusters/my-cluster" for "https://github.com/han/fleet-infra"
► applying source secret "flux-system/flux-system"
✔ reconciled source secret
► generating sync manifests
✔ generated sync manifests
✔ committed sync manifests to "main" ("cb4137dd69c7891da32982d5991deb9ebd901278")
► pushing sync manifests to "https://github.com/han/fleet-infra.git"
► applying sync manifests
✔ reconciled sync configuration
◎ waiting for Kustomization "flux-system/flux-system" to be reconciled
✔ Kustomization reconciled successfully
► confirming components are healthy
✔ helm-controller: deployment ready
✔ kustomize-controller: deployment ready
✔ notification-controller: deployment ready
✔ source-controller: deployment ready
✔ all components are healthy

#설치 확인
$kubectl get pods -n flux-system
NAME                                       READY   STATUS    RESTARTS   AGE
helm-controller-fbdd59577-dgm6p            1/1     Running   0          24s
kustomize-controller-6b67b54cf8-xvjz4      1/1     Running   0          24s
notification-controller-78f4869c94-8dc52   1/1     Running   0          24s
source-controller-75db64d9f7-jhxmk         1/1     Running   0          24s

$kubectl get-all -n flux-system
NAME                                                               NAMESPACE    AGE
configmap/kube-root-ca.crt                                         flux-system  29s
endpoints/notification-controller                                  flux-system  26s
endpoints/source-controller                                        flux-system  26s
endpoints/webhook-receiver                                         flux-system  26s
...
$kubectl get crd | grep fluxc
alerts.notification.toolkit.fluxcd.io        2023-06-06T06:58:28Z
buckets.source.toolkit.fluxcd.io             2023-06-06T06:58:28Z
gitrepositories.source.toolkit.fluxcd.io     2023-06-06T06:58:28Z
helmcharts.source.toolkit.fluxcd.io          2023-06-06T06:58:28Z
helmreleases.helm.toolkit.fluxcd.io          2023-06-06T06:58:28Z
helmrepositories.source.toolkit.fluxcd.io    2023-06-06T06:58:28Z
kustomizations.kustomize.toolkit.fluxcd.io   2023-06-06T06:58:28Z
ocirepositories.source.toolkit.fluxcd.io     2023-06-06T06:58:29Z
providers.notification.toolkit.fluxcd.io     2023-06-06T06:58:29Z
receivers.notification.toolkit.fluxcd.io     2023-06-06T06:58:29Z

# 리포지토리 확인
$kubectl get gitrepository -n flux-system
NAME          URL                                         AGE   READY   STATUS
flux-system   ssh://git@github.com/han/fleet-infra   25s   True    stored artifact for revision 'main@sha1:cb4137dd69c7891da32982d5991deb9ebd901278'

Gitops 도구를 설치한다.

$curl --silent --location "https://github.com/weaveworks/weave-gitops/releases/download/v0.24.0/gitops-$(uname)-$(uname -m).tar.gz" | tar xz -C /tmp
$sudo mv /tmp/gitops /usr/local/bin

$gitops version
To improve our product, we would like to collect analytics data. You can read more about what data we collect here: https://docs.gitops.weave.works/docs/feedback-and-telemetry/
Would you like to turn on analytics to help us improve our product: Y
Current Version: 0.24.0
GitCommit: cc1d0e680c55e0aaf5bfa0592a0a454fb2064bc1
BuildTime: 2023-05-24T16:29:14Z
Branch: releases/v0.24.0
$PASSWORD="password"

$gitops create dashboard ww-gitops --password=$PASSWORD
✚ Generating GitOps Dashboard manifests ...
► Creating GitOps Dashboard objects ...
✚ Generating GitOps Dashboard manifests ...
✔ Generated GitOps Dashboard manifests
► Checking for a cluster in the kube config ...
► Checking if Flux is already installed ...
► Getting Flux version ...
✔ Flux &{v2.0.0-rc.5  flux-system} is already installed
► Applying GitOps Dashboard manifests
► Installing the GitOps Dashboard ...
✔ GitOps Dashboard has been installed
► Request reconciliation of dashboard (timeout 3m0s) ...
◎ Waiting for GitOps Dashboard reconciliation
✔ GitOps Dashboard ww-gitops is ready
✔ Installed GitOps Dashboard

$flux -n flux-system get helmrelease
NAME         REVISION    SUSPENDED    READY    MESSAGE
ww-gitops    4.0.22      False        True     Release reconciliation succeeded

$kubectl -n flux-system get pod,svc
NAME                                           READY   STATUS    RESTARTS   AGE
pod/helm-controller-fbdd59577-dgm6p            1/1     Running   0          2m15s
pod/kustomize-controller-6b67b54cf8-xvjz4      1/1     Running   0          2m15s
pod/notification-controller-78f4869c94-8dc52   1/1     Running   0          2m15s
pod/source-controller-75db64d9f7-jhxmk         1/1     Running   0          2m15s
pod/ww-gitops-weave-gitops-66dc44989f-wmmd9    1/1     Running   0          46s

NAME                              TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)    AGE
service/notification-controller   ClusterIP   10.100.0.14              80/TCP     2m15s
service/source-controller         ClusterIP   10.100.20.46             80/TCP     2m15s
service/webhook-receiver          ClusterIP   10.100.76.241            80/TCP     2m15s
service/ww-gitops-weave-gitops    ClusterIP   10.100.101.129           9001/TCP   46s

# External DNS 연결을 위한 ingress 설정
$CERT_ARN=`aws acm list-certificates --query 'CertificateSummaryList[].CertificateArn[]' --output text`
$echo $CERT_ARN
arn:aws:acm:ap-northeast-2:011116120544:certificate/836b6dfa-0955-4401-a721-ecd8689b6025

$cat < gitops-ingress.yaml
> apiVersion: networking.k8s.io/v1
> kind: Ingress
> metadata:
>   name: gitops-ingress
>   annotations:
>     alb.ingress.kubernetes.io/certificate-arn: $CERT_ARN
>     alb.ingress.kubernetes.io/group.name: study
>     alb.ingress.kubernetes.io/listen-ports: '[{"HTTPS":443}, {"HTTP":80}]'
>     alb.ingress.kubernetes.io/load-balancer-name: myeks-ingress-alb
>     alb.ingress.kubernetes.io/scheme: internet-facing
>     alb.ingress.kubernetes.io/ssl-redirect: "443"
>     alb.ingress.kubernetes.io/success-codes: 200-399
>     alb.ingress.kubernetes.io/target-type: ip
> spec:
>   ingressClassName: alb
>   rules:
>   - host: gitops.$MyDomain
>     http:
>       paths:
>       - backend:
>           service:
>             name: ww-gitops-weave-gitops
>             port:
>               number: 9001
>         path: /
>         pathType: Prefix
> EOT

$kubectl apply -f gitops-ingress.yaml -n flux-system
ingress.networking.k8s.io/gitops-ingress created

$kubectl get ingress -n flux-system
NAME             CLASS   HOSTS                 ADDRESS                                                         PORTS   AGE
gitops-ingress   alb     gitops.dongmin.link   myeks-ingress-alb-1372943946.ap-northeast-2.elb.amazonaws.com   80      3s

#GitOps 접속 정보 확인 >> 웹 접속 후 정보 확인
$echo -e "GitOps Web https://gitops.$MyDomain"
GitOps Web https://gitops.dongmin.link

웹 UI 모습

소스 생성 방식

소스 생성 : 유형 - git, helm, oci, bucket flux create source {소스 유형}

테스트 진행

#악분(최성욱)님이 준비한 repo로 git 소스 생성
$GITURL="https://github.com/sungwook-practice/fluxcd-test.git"
$flux create source git nginx-example1 --url=$GITURL --branch=main --interval=30s
✚ generating GitRepository source
► applying GitRepository source
✔ GitRepository source created
◎ waiting for GitRepository source reconciliation
✔ GitRepository source reconciliation completed
✔ fetched revision: main@sha1:4478b54cb7a8eaf1ee2665e2b3dd5bcfd55e9da9

$flux get sources git
NAME              REVISION              SUSPENDED    READY    MESSAGE
flux-system       main@sha1:cb4137dd    False        True     stored artifact for revision 'main@sha1:cb4137dd'
nginx-example1    main@sha1:4478b54c    False        True     stored artifact for revision 'main@sha1:4478b54c'

# 악분님 repo와 연결된 것을 확인할 수 있음
$kubectl -n flux-system get gitrepositories
NAME             URL                                                    AGE   READY   STATUS
flux-system      ssh://git@github.com/han../fleet-infra              40m   True    stored artifact for revision 'main@sha1:cb4137dd69c7891da32982d5991deb9ebd901278'
nginx-example1   https://github.com/sungwook-practice/fluxcd-test.git   37s   True    stored artifact for revision 'main@sha1:4478b54cb7a8eaf1ee2665e2b3dd5bcfd55e9da9'

# 배포
$flux create kustomization nginx-example1 --target-namespace=default --interval=1m --source=nginx-example1 --path="./nginx" --health-check-timeout=2m
✚ generating Kustomization
► applying Kustomization
✔ Kustomization created
◎ waiting for Kustomization reconciliation
✔ Kustomization nginx-example1 is ready
✔ applied revision main@sha1:4478b54cb7a8eaf1ee2665e2b3dd5bcfd55e9da9

# 배포 확인
$flux get kustomizations
NAME              REVISION              SUSPENDED    READY    MESSAGE
flux-system       main@sha1:cb4137dd    False        True     Applied revision: main@sha1:cb4137dd
nginx-example1    main@sha1:4478b54c    False        True     Applied revision: main@sha1:4478b54c

이제 Repo를 삭제한다. 처음 애플리케이션을 생성할 때 prune 옵션에 따라 리소스 삭제 유무가 달라진다.

$flux delete kustomization nginx-example1
Are you sure you want to delete this kustomization: y
► deleting kustomization nginx-example1 in flux-system namespace
✔ kustomization deleted

# flux kustomizations만 삭제되고, EKS 리소스가 삭제가 되지 않음
$flux get kustomizations
NAME           REVISION              SUSPENDED    READY    MESSAGE
flux-system    main@sha1:cb4137dd    False        True     Applied revision: main@sha1:cb4137dd

$kubectl get pod,svc nginx-example1
NAME                 READY   STATUS    RESTARTS   AGE
pod/nginx-example1   1/1     Running   0          98s
NAME                     TYPE        CLUSTER-IP    EXTERNAL-IP   PORT(S)   AGE
service/nginx-example1   ClusterIP   10.100.61.6           80/TCP    98s

# 옵션변경
# flux 애플리케이션 다시 생성 :  --prune 옵션 true
$flux create kustomization nginx-example1 \
>   --target-namespace=default \
>   --prune=true \
>   --interval=1m \
>   --source=nginx-example1 \
>   --path="./nginx" \
>   --health-check-timeout=2m
✚ generating Kustomization
► applying Kustomization
✔ Kustomization created
◎ waiting for Kustomization reconciliation
✔ Kustomization nginx-example1 is ready
✔ applied revision main@sha1:4478b54cb7a8eaf1ee2665e2b3dd5bcfd55e9da9

$flux get kustomizations
NAME              REVISION              SUSPENDED    READY    MESSAGE
flux-system       main@sha1:cb4137dd    False        True     Applied revision: main@sha1:cb4137dd
nginx-example1    main@sha1:4478b54c    False        True     Applied revision: main@sha1:4478b54c

# 리소스까지 삭제되는 모습
$flux delete kustomization nginx-example1
Are you sure you want to delete this kustomization: y
► deleting kustomization nginx-example1 in flux-system namespace
✔ kustomization deleted

$flux get kustomizations
NAME           REVISION              SUSPENDED    READY    MESSAGE
flux-system    main@sha1:cb4137dd    False        True     Applied revision: main@sha1:cb4137dd
$kubectl get pod,svc nginx-example1
Error from server (NotFound): pods "nginx-example1" not found
Error from server (NotFound): services "nginx-example1" not found

테스트를 마무리 하고 자원을 삭제한다.

$flux delete source git nginx-example1
Are you sure you want to delete this source git: y
? Are you sure you want to delete this source git? [y/N] y█
✔ source git deleted
$flux get sources git
NAME           REVISION              SUSPENDED    READY    MESSAGE
flux-system    main@sha1:cb4137dd    False        True     stored artifact for revision 'main@sha1:cb4137dd'
$
$kubectl -n flux-system get gitrepositories
NAME          URL                                         AGE   READY   STATUS
flux-system   ssh://git@github.com/han/fleet-infra   44m   True    stored artifact for revision 'main@sha1:cb4137dd69c7891da32982d5991deb9ebd901278'

ArgoCD

쿠버네티스 GitOps 환경에서 지속적인 배포를 위한 오픈소스 도구이다. CNCF 프로젝트 중 하나이다.

자세한 내용은 GitHub 참고

여기서는 간단하게 ArgoCD를 배포하고, 로그인만 진행합니다.

# argo CD 생성
$kubectl create namespace argocd
$kubectl apply -n argocd -f https://raw.githubusercontent.com/argoproj/argo-cd/stable/manifests/ha/install.yaml

$curl -sSL -o argocd-linux-amd64 https://github.com/argoproj/argo-cd/releases/latest/download/argocd-linux-amd64
$sudo install -m 555 argocd-linux-amd64 /usr/local/bin/argocd
$rm argocd-linux-amd64

$kubectl patch svc argocd-server -n argocd -p '{"spec": {"type": "LoadBalancer"}}'

$kubectl -n argocd get secret argocd-initial-admin-secret -o jsonpath="{.data.password}" | base64 -d; echo
4IVTqkP2MhiTdIZo

$kubectl get svc argocd-server -n argocd
NAME            TYPE           CLUSTER-IP      EXTERNAL-IP                                                                   PORT(S)                      AGE
argocd-server   LoadBalancer   10.100.98.251   a677d8882cdab494ebfee894df436abc-367513095.ap-northeast-2.elb.amazonaws.com   80:31331/TCP,443:30926/TCP   29m

EKS 스터디 6주차

Sat, 03 Jun 2023 09:15:38 GMT

이번 주차에는 EKS 보안에 대해 배웠다. 먼저, 쿠버네티스의 인증 인가 체계에 대해 배우고, EKS는 어떻게 다른 지 학습한다. 이후 IRSA에 대한 실습을 마지막으로 이번주차가 종료된다.

환경세팅

이번의 EKS 배포환경은 이전 주차와 크게 다르지 않다. EKS 인증/인가 테스트를 위해 작업용 EC2가 하나 추가되었다. 가시다님이 제공해주신 CloudFormation을 통해 배포를 실시한다.

K8S 인증/인가

쿠버네티스의 인증 인가 체계를 살펴보면 아래의 그림과 같다.

인증 단계를 거친다. 인증이 완료되면 인가 단계를 거친다. 인가 단계를 통해 명령이 리소스에 대한 권한이 있는 지 확인한 후, Admission control 을 통해서 etcd에 접근한다.

실습환경은 다음과 같다.

2개의 네임 스페이스가 존재하고 각 네임스페이스에는 서비스어카운트와 파드를 둔다. 서비스어카운트에 롤을 바인딩해보며 인증인가 체계를 확인한다.

kubeconfig 파일 확인

우선 kubeconfig 파일을 확인하여 현재의 쿠버네티스 접속 상태를 확인한다.

clusters : kubectl 이 사용할 쿠버네티스 API 서버의 접속 정보 목록. 원격의 쿠버네티스 API 서버의 주소를 추가해 사용 가능 users : 쿠버네티스의 API 서버에 접속하기 위한 사용자 인증 정보 목록. (서비스 어카운트의 토큰, 혹은 인증서의 데이터 등) contexts : cluster 항목과 users 항목에 정의된 값을 조합해 최종적으로 사용할 쿠버네티스 클러스터의 정보(컨텍스트)를 설정. 예를 들어 clusters 항목에 클러스터 A,B 가 정의돼 있고, users 항목에 사용자 a,b 가 정의돼 있다면 cluster A + user a 를 조합해, 'cluster A 에 user a 로 인증해 쿠버네티스를 사용한다' 라는 새로운 컨텍스트를 정의할 수 있습니다.

$cat .kube/config
apiVersion: v1
clusters:
- cluster:
    certificate-authority-data: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0tLS0tCk1JSUMvakNDQWVhZ0F3SUJBZ0lCQURBTkJ..
    server: https://BF69CC8DDDFB36E86FE01E52B6F5641B.gr7.ap-northeast-2.eks.amazonaws.com
  name: myeks.ap-northeast-2.eksctl.io
contexts:
- context:
    cluster: myeks.ap-northeast-2.eksctl.io
    user: EKS-study@myeks.ap-northeast-2.eksctl.io
  name: kane
current-context: kane
kind: Config
preferences: {}
users:
- name: EKS-study@myeks.ap-northeast-2.eksctl.io
  user:
    exec:
      apiVersion: client.authentication.k8s.io/v1beta1
      args:
      - eks
      - get-token
      - --output
      - json
      - --cluster-name
      - myeks
      - --region
      - ap-northeast-2
      command: aws
      env:
      - name: AWS_STS_REGIONAL_ENDPOINTS
        value: regional
      interactiveMode: IfAvailable
      provideClusterInfo: false

위의 실습 환경과 같이 네임스페이스와 파드, 서비스 어카운트를 생성합니다.

$kubectl create namespace dev-team
namespace/dev-team created
$k create ns infra-team
namespace/infra-team created
# 네임스페이스 생성 확인
$k get ns
NAME              STATUS   AGE
default           Active   34m
dev-team          Active   12s #<--
infra-team        Active   3s  #<--
kube-node-lease   Active   34m
kube-public       Active   34m
kube-system       Active   34m
monitoring        Active   7m55s
$k create sa dev-k8s -n dev-team
serviceaccount/dev-k8s created
$k create sa infra-k8s -n infra-team
serviceaccount/infra-k8s created
$k get sa -n infra-team
NAME        SECRETS   AGE
default     0         37s
infra-k8s   0         7s

아래는 서비스 어카운트의 정보를 확인한다. 토큰 값이 없는 것을 확인할 수 있다.

1.24 버전으로 업데이트 되며, 서비스 계정을 생성하면 토큰이 자동으로 생성되는 방식에서 수동으 로 생성해야 하는 방식으로 변경됨.

# 서비스 어카운트 정보확인
# 
$k get sa -n infra-team infra-k8s -o yaml | yh
apiVersion: v1
kind: ServiceAccount
metadata:
  creationTimestamp: "2023-05-31T11:28:28Z"
  name: infra-k8s
  namespace: infra-team
  resourceVersion: "7932"
  uid: f5371b71-860f-48b2-9927-0b3d4e60052a

“dev-k8s 서비스어카운트의 토큰 정보 확인” 부분은 추후 수동으로 토큰을 생성한 뒤 진행

서비스 어카운트를 지정하여 파드 생성 후 권한 테스트


$cat < apiVersion: v1
> kind: Pod
> metadata:
>   name: dev-kubectl
>   namespace: dev-team
> spec:
>   serviceAccountName: dev-k8s
>   containers:
>   - name: kubectl-pod
>     image: bitnami/kubectl:1.24.10
>     command: ["tail"]
>     args: ["-f", "/dev/null"]
>   terminationGracePeriodSeconds: 0
> EOF
pod/dev-kubectl created

$cat < apiVersion: v1
> kind: Pod
> metadata:
>   name: infra-kubectl
>   namespace: infra-team
> spec:
>   serviceAccountName: infra-k8s
>   containers:
>   - name: kubectl-pod
>     image: bitnami/kubectl:1.24.10
>     command: ["tail"]
>     args: ["-f", "/dev/null"]
>   terminationGracePeriodSeconds: 0
> EOF
pod/infra-kubectl created

#확인
$kubectl get pod -A
NAMESPACE     NAME                                                        READY   STATUS              RESTARTS   AGE
dev-team      dev-kubectl                                                 0/1     ContainerCreating   0          12s
infra-team    infra-kubectl                                               0/1     ContainerCreating   0          10s
kube-system   aws-load-balancer-controller-5f99d5f58f-lqj8f               1/1     Running             0          19m
kube-system   aws-load-balancer-controller-5f99d5f58f-mpmtr               1/1     Running             0          19m
...
monitoring    kube-prometheus-stack-prometheus-node-exporter-zv249        1/1     Running             0          18m
monitoring    prometheus-kube-prometheus-stack-prometheus-0               2/2     Running             0          18m

# 서비스 어카운트와 파드 확인
$kubectl get pod -o dev-kubectl -n dev-team -o yaml
apiVersion: v1
...
    securityContext: {}
    serviceAccount: dev-k8s
    serviceAccountName: dev-k8s
    terminationGracePeriodSeconds: 0
...
$kubectl get pod -o infra-kubectl -n infra-team -o yaml
apiVersion: v1
...
    serviceAccount: infra-k8s
    serviceAccountName: infra-k8s
...

# 서비스 어카운트 정보 확인
$kubectl exec -it dev-kubectl -n dev-team -- ls /run/secrets/kubernetes.io/serviceaccount
ca.crt    namespace  token
$kubectl exec -it dev-kubectl -n dev-team -- cat /run/secrets/kubernetes.io/serviceaccount/token
eyJhbGciOiJSUzI1NiIsImtpZCI6ImMwMTM4ZDQ5OGUyYjk0OGE3MzA5M2VkOTI3ZGFiODNjNTE2NGUzZjgifQ.eyJhdWQiOlsiaHR0cHM6Ly9rdWJlcm5ldGVzLmRlZmF1bHQuc3ZjIl0sImV4cCI6M...

alias k1='kubectl exec -it dev-kubectl -n dev-team -- kubectl'
alias k2='kubectl exec -it infra-kubectl -n infra-team -- kubectl'

# 권한 테스트
$k1 get pods 
Error from server (Forbidden): pods is forbidden: User "system:serviceaccount:dev-team:dev-k8s" cannot list resource "pods" in API group "" in the namespace "dev-team"
command terminated with exit code 1
$k1 run nginx --image nginx:1.20-alpine
Error from server (Forbidden): pods is forbidden: User "system:serviceaccount:dev-team:dev-k8s" cannot create resource "pods" in API group "" in the namespace "dev-team"
command terminated with exit code 1
$k2 get pods # kubectl exec -it infra-kubectl -n infra-team -- kubectl get pods 와 동일한 실행 명령이다!
Error from server (Forbidden): pods is forbidden: User "system:serviceaccount:infra-team:infra-k8s" cannot list resource "pods" in API group "" in the namespace "infra-team"
command terminated with exit code 1
$k2 run nginx --image nginx:1.20-alpine
Error from server (Forbidden): pods is forbidden: User "system:serviceaccount:infra-team:infra-k8s" cannot create resource "pods" in API group "" in the namespace "infra-team"
command terminated with exit code 1

# 권한이 없는 것을 확인할 수 있음.
$k1 auth can-i get pods
no
command terminated with exit code 1
$k2 get pods -n kube-system
Error from server (Forbidden): pods is forbidden: User "system:serviceaccount:infra-team:infra-k8s" cannot list resource "pods" in API group "" in the namespace "kube-system"
command terminated with exit code 1

Role을 부여한 뒤 서비스 어카운트에 바인딩 진행한다.

#각각 네임스페이스에 롤(Role)를 생성 후 서비스 어카운트 바인딩
# 모든 권한 부여(*)
$cat < apiVersion: rbac.authorization.k8s.io/v1
> kind: Role
> metadata:
>   name: role-dev-team
>   namespace: dev-team
> rules:
> - apiGroups: ["*"]
>   resources: ["*"]
>   verbs: ["*"]
> EOF
role.rbac.authorization.k8s.io/role-dev-team created

$cat < apiVersion: rbac.authorization.k8s.io/v1
> kind: Role
> metadata:
>   name: role-infra-team
>   namespace: infra-team
> rules:
> - apiGroups: ["*"]
>   resources: ["*"]
>   verbs: ["*"]
> EOF
role.rbac.authorization.k8s.io/role-infra-team created

$kubectl get roles -n dev-team
NAME            CREATED AT
role-dev-team   2023-05-31T11:40:56Z
$kubectl get roles -n infra-team
NAME              CREATED AT
role-infra-team   2023-05-31T11:41:11Z
$kubectl get roles -n dev-team -o yaml
apiVersion: v1
items:
- apiVersion: rbac.authorization.k8s.io/v1
  kind: Role
  metadata:
    creationTimestamp: "2023-05-31T11:40:56Z"
    name: role-dev-team
    namespace: dev-team
    resourceVersion: "11069"
    uid: 02cc4672-f543-4fb6-a770-4352d37f7a7e
  rules:
  - apiGroups:
    - '*'
    resources:
    - '*'
    verbs:
    - '*'
kind: List
metadata:
  resourceVersion: ""
$kubectl describe roles role-dev-team -n dev-team
Name:         role-dev-team
Labels:       
Annotations:  
PolicyRule:
  Resources  Non-Resource URLs  Resource Names  Verbs
  ---------  -----------------  --------------  -----
  *.*        []                 []              [*]

# 롤 바인딩
$cat < apiVersion: rbac.authorization.k8s.io/v1
> kind: RoleBinding
> metadata:
>   name: roleB-dev-team
>   namespace: dev-team
> roleRef:
>   apiGroup: rbac.authorization.k8s.io
>   kind: Role
>   name: role-dev-team
> subjects:
> - kind: ServiceAccount
>   name: dev-k8s
>   namespace: dev-team
> EOF
rolebinding.rbac.authorization.k8s.io/roleB-dev-team created

$cat < apiVersion: rbac.authorization.k8s.io/v1
> kind: RoleBinding
> metadata:
>   name: roleB-infra-team
>   namespace: infra-team
> roleRef:
>   apiGroup: rbac.authorization.k8s.io
>   kind: Role
>   name: role-infra-team
> subjects:
> - kind: ServiceAccount
>   name: infra-k8s
>   namespace: infra-team
> EOF
rolebinding.rbac.authorization.k8s.io/roleB-infra-team created
$kubectl get rolebindings -n dev-team
NAME             ROLE                 AGE
roleB-dev-team   Role/role-dev-team   7s
$kubectl get rolebindings -n infra-team
NAME               ROLE                   AGE
roleB-infra-team   Role/role-infra-team   7s
$kubectl get rolebindings -n dev-team -o yaml
apiVersion: v1
items:
- apiVersion: rbac.authorization.k8s.io/v1
  kind: RoleBinding
  metadata:
    creationTimestamp: "2023-05-31T11:41:34Z"
    name: roleB-dev-team
    namespace: dev-team
    resourceVersion: "11233"
    uid: b6b8aa7c-637d-4ec9-a95b-1d7af10fb427
  roleRef:
    apiGroup: rbac.authorization.k8s.io
    kind: Role
    name: role-dev-team
  subjects:
  - kind: ServiceAccount
    name: dev-k8s
    namespace: dev-team
kind: List
metadata:
  resourceVersion: ""
$kubectl describe rolebindings roleB-dev-team -n dev-team
Name:         roleB-dev-team
Labels:       
Annotations:  
Role:
  Kind:  Role
  Name:  role-dev-team
Subjects:
  Kind            Name     Namespace
  ----            ----     ---------
  ServiceAccount  dev-k8s  dev-team

# 테스트 진행!
alias k1='kubectl exec -it dev-kubectl -n dev-team -- kubectl'
alias k2='kubectl exec -it infra-kubectl -n infra-team -- kubectl'

# (옵션) kubectl auth can-i 로 kubectl 실행 사용자가 특정 권한을 가졌는지 확인
k1 auth can-i get podsNAME          READY   STATUS    RESTARTS   AGE
dev-kubectl   1/1     Running   0          3m24s

$k1 get pods
NAME          READY   STATUS    RESTARTS   AGE
dev-kubectl   1/1     Running   0          3m39s
$k1 run nginx --image nginx:1.20-alpine
pod/nginx created
$k1 get pods
NAME          READY   STATUS              RESTARTS   AGE
dev-kubectl   1/1     Running             0          3m46s
nginx         0/1     ContainerCreating   0          3s
$k1 delete pods nginx
pod "nginx" deleted
$k1 get pods -n kube-system
Error from server (Forbidden): pods is forbidden: User "system:serviceaccount:dev-team:dev-k8s" cannot list resource "pods" in API group "" in the namespace "kube-system"
command terminated with exit code 1
$k1 get nodes
Error from server (Forbidden): nodes is forbidden: User "system:serviceaccount:dev-team:dev-k8s" cannot list resource "nodes" in API group "" at the cluster scope
command terminated with exit code 1
$k2 get pods
NAME            READY   STATUS    RESTARTS   AGE
infra-kubectl   1/1     Running   0          4m2s
$k2 run nginx --image nginx:1.20-alpine
pod/nginx created
$k2 get pods
NAME            READY   STATUS    RESTARTS   AGE
infra-kubectl   1/1     Running   0          4m8s
nginx           1/1     Running   0          2s
$k2 delete pods nginx
pod "nginx" deleted
$k2 get pods -n kube-system
Error from server (Forbidden): pods is forbidden: User "system:serviceaccount:infra-team:infra-k8s" cannot list resource "pods" in API group "" in the namespace "kube-system"
command terminated with exit code 1
$k2 get nodes
Error from server (Forbidden): nodes is forbidden: User "system:serviceaccount:infra-team:infra-k8s" cannot list resource "nodes" in API group "" at the cluster scope
command terminated with exit code 1

# 파드에 대한 권한은 있지만, 노드에 대한 권한은 없는 모습
# 노드는 클러스터 롤 범위에 있기 때문이다.!
$k1 auth can-i get pods
yes
$k1 auth can-i get nodes
Warning: resource 'nodes' is not namespace scoped
yes
$k1 auth can-i get no
Warning: resource 'nodes' is not namespace scoped
yes

# 리소스 삭제
$kubectl delete ns dev-team infra-team
namespace "dev-team" deleted
namespace "infra-team" deleted

EKS 인증/인가

이론

이제, EKS 의 인증/인가 단계에 대해 실습합니다. 아래의 그림과 설명은 유튜브 영상에서 확인할 수 있습니다.

https://youtu.be/bksogA-WXv8?t=669

EKS는 Webhook, OIDC, Service Account을 지원한다.

아래는 RBAC에 대한 설명이다.

이제 EKS의 인증 인가 체계에 대해 알아본다.

핵심은 인증 인가 단계를 AWS IAM 을 통해 진행한다.! 어떻게 진행할 수 있는 지 확인해보면 다음과 같다.

먼저, EKS의 작업용 PC에서 쿠버네티스 명령을 날리면, 자동으로 .kubeconfig 에 입력되어 있는 eks get-token 명령을 실행된다. .

#!/bin/bash
# AWS에서 제공해준 EKS config 파일이다. 
read -r -d '' KUBECONFIG < ~/.kube/config

해당 명령은 EKS service endpoint로 간다. 요청에 대한 응답으로 토큰값이 전달된다.

토큰값을 디코딩해보면, aws sts get-caller-identity 를 호출하는 pre-signed URL이다

이제 URL을 가지고 아래와 같은 구조로 인증 인가 단계가 진행된다.

쿠버네티스는 CA, bearer token, authenticating proxy 방법을 통해 API 요청을 허용한다. 여기서 EKS는 Bearer Token을 사용하는 것이다.

이후 토큰을 통해 아까 살펴봤던 쿠버네티스 인증단계의 webhook 인증을 선택한다. URL은 sts get-caller-identity 를 호출하고, 이는 AWS IAM에게 인증을 받아 아래와 같은 유저 아이디 혹은 Role에 대한 ARN을 반환받는다.

{
    "UserId": "AIDASAMPLEUSERID",
    "Account": "123456789012",
    "Arn": "arn:aws:iam::123456789012:role/k8s-admin"
}

위의 정보를 aws-auth 를 보낸다. aws-auth 는 쿠버네티스 내의 User, Group으로 맵핑하는 개체로 맵핑된 쿠버네티스 개체를 반환한다. 쿠버네티스 개체를 통해 RBAC 인가 단계를 거친 후 etcd에 접근한다.

요약 (박준환님이 정리해주셨다.)

핵심 : 인증은 AWS IAM, 인가는 K8S RBAC에서 처리

실습

먼저, RBAC 관련 krew 플러그인을 설치합니다.

$**kubectl krew install access-matrix rbac-tool rbac-view rolesum**

플러그인 확인하기

$kubectl rbac-tool lookup system:masters

W0531 20:47:56.354831    9284 warnings.go:67] policy/v1beta1 PodSecurityPolicy is deprecated in v1.21+, unavailable in v1.25+
  SUBJECT        | SUBJECT TYPE | SCOPE       | NAMESPACE | ROLE
+----------------+--------------+-------------+-----------+---------------+
  system:masters | Group        | ClusterRole |           | cluster-admin

$kubectl rbac-tool lookup system:nodes # eks:node-bootstrapper
W0531 20:47:58.478713    9379 warnings.go:67] policy/v1beta1 PodSecurityPolicy is deprecated in v1.21+, unavailable in v1.25+
  SUBJECT      | SUBJECT TYPE | SCOPE       | NAMESPACE | ROLE
+--------------+--------------+-------------+-----------+-----------------------+
  system:nodes | Group        | ClusterRole |           | eks:node-bootstrapper
$kubectl rbac-tool lookup system:bootstrappers # eks:node-bootstrapper
W0531 20:48:02.171737    9432 warnings.go:67] policy/v1beta1 PodSecurityPolicy is deprecated in v1.21+, unavailable in v1.25+
  SUBJECT              | SUBJECT TYPE | SCOPE       | NAMESPACE | ROLE
+----------------------+--------------+-------------+-----------+-----------------------+
  system:bootstrappers | Group        | ClusterRole |           | eks:node-bootstrapper
$kubectl describe ClusterRole eks:node-bootstrapper
Name:         eks:node-bootstrapper
Labels:       eks.amazonaws.com/component=node
Annotations:  
PolicyRule:
  Resources                                                      Non-Resource URLs  Resource Names  Verbs
  ---------                                                      -----------------  --------------  -----
  certificatesigningrequests.certificates.k8s.io/selfnodeserver  []                 []              [create]
$kubectl rbac-tool whoami
{Username: "kubernetes-admin",
 UID:      "aws-iam-authenticator:871103481195:AIDA4VUOQIVV5CHOU2JOK",
 Groups:   ["system:masters",
            "system:authenticated"],
 Extra:    {accessKeyId:  ["AKIA4VUOQIVV2CPMGKLE"],
            arn:          ["arn:aws:iam::871103481195:user/EKS-study"],
            canonicalArn: ["arn:aws:iam::871103481195:user/EKS-study"],
            principalId:  ["AIDA4VUOQIVV5CHOU2JOK"],
            sessionName:  [""]}}
$kubectl rolesum aws-node -n kube-system

ServiceAccount: kube-system/aws-node
Secrets:

Policies:

• [CRB] */aws-node ⟶  [CR] */aws-node
  Resource                          Name  Exclude  Verbs  G L W C U P D DC
  *.extensions                      [*]     [-]     [-]   ✖ ✔ ✔ ✖ ✖ ✖ ✖ ✖
  eniconfigs.crd.k8s.amazonaws.com  [*]     [-]     [-]   ✔ ✔ ✔ ✖ ✖ ✖ ✖ ✖
  events.[,events.k8s.io]           [*]     [-]     [-]   ✖ ✔ ✖ ✔ ✖ ✔ ✖ ✖
  namespaces                        [*]     [-]     [-]   ✔ ✔ ✔ ✖ ✖ ✖ ✖ ✖
  nodes                             [*]     [-]     [-]   ✔ ✔ ✔ ✖ ✔ ✖ ✖ ✖
  pods                              [*]     [-]     [-]   ✔ ✔ ✔ ✖ ✖ ✖ ✖ ✖

$kubectl rolesum -k User system:kube-proxy
User: system:kube-proxy

Policies:
• [CRB] */system:node-proxier ⟶  [CR] */system:node-proxier
  Resource                         Name  Exclude  Verbs  G L W C U P D DC
  endpoints                        [*]     [-]     [-]   ✖ ✔ ✔ ✖ ✖ ✖ ✖ ✖
  endpointslices.discovery.k8s.io  [*]     [-]     [-]   ✖ ✔ ✔ ✖ ✖ ✖ ✖ ✖
  events.[,events.k8s.io]          [*]     [-]     [-]   ✖ ✖ ✖ ✔ ✔ ✔ ✖ ✖
  nodes                            [*]     [-]     [-]   ✔ ✔ ✔ ✖ ✖ ✖ ✖ ✖
  services                         [*]     [-]     [-]   ✖ ✔ ✔ ✖ ✖ ✖ ✖ ✖

$kubectl rolesum -k Group system:masters
Group: system:masters

Policies:
• [CRB] */cluster-admin ⟶  [CR] */cluster-admin
  Resource  Name  Exclude  Verbs  G L W C U P D DC
  *.*       [*]     [-]     [-]   ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

rbac-view 실행

$kubectl rbac-view
...
INFO[0060] Built Matrix for ClusterRoles
INFO[0064] Built Matrix for Roles
INFO[0064] Matrix for json built
$echo -e "RBAC View Web http://$(curl -s ipinfo.io/ip):8800"
RBAC View Web http://3.36.103.16:8800

위의 출력된 URL에 접속하면 아래와 같이 UI를 통해 RBAC를 확인할 수 있다.

인증/인가 완벽 분석 해보기

아래에서는 위에서 설명한 EKS의 인증 인가체계를 코드를 통해 상세하게 분석합니다.

kubectl 명령 → aws eks get-token → EKS Service endpoint(STS)에 토큰 요청 ⇒ 응답값 디코드(Pre-Signed URL 이며 GetCallerIdentity..)

$aws sts get-caller-identity --query Arn
"arn:aws:iam::871103481195:user/EKS-study"
$cat ~/.kube/config | yh
apiVersion: v1
clusters:
- cluster:
    certificate-authority-data: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0tLS0tCk1JSUMvakNDQWVhZ0F3SUJBZ0lCQURBTkJna3Foa2lHOXcwQkFRc0ZBREFWTVJNd0VRWURWUVFERXdwcmRXSmwKY201bGRHVnpNQjRYRFRJek1EVXpN...
    server: https://BF69CC8DDDFB36E86FE01E52B6F5641B.gr7.ap-northeast-2.eks.amazonaws.com
  name: myeks.ap-northeast-2.eksctl.io
contexts:
- context:
    cluster: myeks.ap-northeast-2.eksctl.io
GET-TOKEN()                                                        GET-TOKEN()
    user: EKS-study@myeks.ap-northeast-2.eksctl.io
  name: kane
current-context: kane
kind: Config
preferences: {}
users:
- name: EKS-study@myeks.ap-northeast-2.eksctl.io
  user:
    exec:
      apiVersion: client.authentication.k8s.io/v1beta1
      args:
      - eks
      - get-token
      - --output
      - json
      - --cluster-name
      - myeks
      - --region
      - ap-northeast-2
      command: aws
      env:
      - name: AWS_STS_REGIONAL_ENDPOINTS
        value: regional
      interactiveMode: IfAvailable
      provideClusterInfo: false
$aws eks get-token --cluster-name $CLUSTER_NAME | jq
{
  "kind": "ExecCredential",
  "apiVersion": "client.authentication.k8s.io/v1beta1",
  "spec": {},
  "status": {
    "expirationTimestamp": "2023-05-31T12:04:36Z",
    "token": "k8s-aws-v1.aHR0cHM6Ly9zdHMuYXAtbm9ydGhlYXN0LTIuYW1hem9uYXdzLmNvbS8_QWN0aW9uPUdldENhb..."
  }
}
$aws eks get-token --cluster-name $CLUSTER_NAME | jq -r '.status.token'
k8s-aws-v1.aHR0cHM6Ly9zdHMuYXAtbm9ydGhlYXN0LTIuYW1hem9uYXdzLmNvbS8_QWN0aW9uPUdldENhbGxlcklkZW50aXR5JlZlcnNpb249MjAxMS0wNi0xNSZYLUFtei1BbGdvcml0aG09QVdTNC1ITUFDL...

토큰을 변환한 모습

EKS API는 Token Review 를 Webhook token authenticator에 요청 ⇒ (STS GetCallerIdentity 호출) AWS IAM 해당 호출 인증 완료 후 User/Role에 대한 ARN 반환

$kubectl api-resources | grep authentication
tokenreviews                                   authentication.k8s.io/v1               false        TokenReview

$kubectl explain tokenreviews
KIND:     TokenReview
VERSION:  authentication.k8s.io/v1

DESCRIPTION:
     TokenReview attempts to authenticate a token to a known user. Note:
     TokenReview requests may be cached by the webhook token authenticator
     plugin in the kube-apiserver.

...

이제 쿠버네티스 RBAC 인가를 처리합니다. 개인적인 생각이지만 플랫폼간 인증 이외에 인가까지 처리 통합은 쉽지 않은 것 같습니다

$kubectl api-resources | grep Webhook
mutatingwebhookconfigurations                  admissionregistration.k8s.io/v1        false        MutatingWebhookConfiguration
validatingwebhookconfigurations                admissionregistration.k8s.io/v1        false        ValidatingWebhookConfiguration
$kubectl get validatingwebhookconfigurations
NAME                                        WEBHOOKS   AGE
aws-load-balancer-webhook                   3          46m
eks-aws-auth-configmap-validation-webhook   1          72m
kube-prometheus-stack-admission             1          45m
vpc-resource-validating-webhook             2          72m
$kubectl get validatingwebhookconfigurations eks-aws-auth-configmap-validation-webhook -o yaml | kubectl neat | yh
apiVersion: admissionregistration.k8s.io/v1
kind: ValidatingWebhookConfiguration
metadata:
  name: eks-aws-auth-configmap-validation-webhook
webhooks:
- admissionReviewVersions:
  - v1
  clientConfig:
    caBundle: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0tLS0tCk1JSUMvakNDQWVhZ0F3SUJBZ0lCQURBTkJna3Foa2lHOXcwQkFRc0ZBREFWTVJNd0VRWURWUVFERXdwcmRXSmwKY201bGRHVnpNQjRYRFRJek1EVXpN..
    url: https://127.0.0.1:21375/validate
  failurePolicy: Ignore
  matchPolicy: Equivalent
  name: eks-aws-auth-configmap-validation-webhook.amazonaws.com
  namespaceSelector:
    matchLabels:
      kubernetes.io/metadata.name: kube-system
  rules:
  - apiGroups:
    - ""
    apiVersions:
    - v1
    operations:
    - UPDATE
    resources:
    - configmaps
    scope: '*'
  sideEffects: None
  timeoutSeconds: 5
$kubectl get cm -n kube-system aws-auth -o yaml | kubectl neat | yh
apiVersion: v1
data:
  mapRoles: |
    - groups:
      - system:bootstrappers
      - system:nodes
      rolearn: arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-QR6CCYVFGKRS
      username: system:node:{{EC2PrivateDNSName}}
kind: ConfigMap
metadata:
  name: aws-auth
  namespace: kube-system
$kubectl rbac-tool whoami
{Username: "kubernetes-admin",
 UID:      "aws-iam-authenticator:871103481195:AIDA4VUOQIVV5CHOU2JOK",
 Groups:   ["system:masters",
            "system:authenticated"],
 Extra:    {accessKeyId:  ["AKIA4VUOQIVV2CPMGKLE"],
            arn:          ["arn:aws:iam::871103481195:user/EKS-study"],
            canonicalArn: ["arn:aws:iam::871103481195:user/EKS-study"],
            principalId:  ["AIDA4VUOQIVV5CHOU2JOK"],
            sessionName:  [""]}}
#system:masters , system:authenticated 그룹의 정보 확인
$kubectl rbac-tool lookup system:masters
W0531 21:06:13.318205   11330 warnings.go:67] policy/v1beta1 PodSecurityPolicy is deprecated in v1.21+, unavailable in v1.25+
  SUBJECT        | SUBJECT TYPE | SCOPE       | NAMESPACE | ROLE
+----------------+--------------+-------------+-----------+---------------+
  system:masters | Group        | ClusterRole |           | cluster-admin
$kubectl rbac-tool lookup system:authenticated
W0531 21:06:14.357002   11384 warnings.go:67] policy/v1beta1 PodSecurityPolicy is deprecated in v1.21+, unavailable in v1.25+
  SUBJECT              | SUBJECT TYPE | SCOPE       | NAMESPACE | ROLE
+----------------------+--------------+-------------+-----------+----------------------------------+
  system:authenticated | Group        | ClusterRole |           | eks:podsecuritypolicy:privileged
  system:authenticated | Group        | ClusterRole |           | system:discovery
  system:authenticated | Group        | ClusterRole |           | system:public-info-viewer
  system:authenticated | Group        | ClusterRole |           | system:basic-user
$kubectl rolesum -k Group system:masters
Group: system:masters

Policies:
• [CRB] */cluster-admin ⟶  [CR] */cluster-admin
  Resource  Name  Exclude  Verbs  G L W C U P D DC
  *.*       [*]     [-]     [-]   ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

$kubectl rolesum -k Group system:authenticated
W0531 21:06:16.145547   11491 warnings.go:70] policy/v1beta1 PodSecurityPolicy is deprecated in v1.21+, unavailable in v1.25+
Group: system:authenticated

Policies:
• [CRB] */eks:podsecuritypolicy:authenticated ⟶  [CR] */eks:podsecuritypolicy:privileged

  Name            PRIV  RO-RootFS  Volumes  Caps  SELinux   RunAsUser  FSgroup   SUPgroup
  eks.privileged  True    False      [*]    [*]   RunAsAny  RunAsAny   RunAsAny  RunAsAny

• [CRB] */system:basic-user ⟶  [CR] */system:basic-user
  Resource                                       Name  Exclude  Verbs  G L W C U P D DC
  selfsubjectaccessreviews.authorization.k8s.io  [*]     [-]     [-]   ✖ ✖ ✖ ✔ ✖ ✖ ✖ ✖
  selfsubjectrulesreviews.authorization.k8s.io   [*]     [-]     [-]   ✖ ✖ ✖ ✔ ✖ ✖ ✖ ✖

• [CRB] */system:discovery ⟶  [CR] */system:discovery

• [CRB] */system:public-info-viewer ⟶  [CR] */system:public-info-viewer

#system:masters 그룹이 사용 가능한 클러스터 롤 확인 : cluster-admin
$kubectl describe clusterrolebindings.rbac.authorization.k8s.io cluster-admin
Name:         cluster-admin
Labels:       kubernetes.io/bootstrapping=rbac-defaults
Annotations:  rbac.authorization.kubernetes.io/autoupdate: true
Role:
  Kind:  ClusterRole
  Name:  cluster-admin
Subjects:
  Kind   Name            Namespace
  ----   ----            ---------
  Group  system:masters
$kubectl describe clusterrole cluster-admin
Name:         cluster-admin
Labels:       kubernetes.io/bootstrapping=rbac-defaults
Annotations:  rbac.authorization.kubernetes.io/autoupdate: true
PolicyRule:
  Resources  Non-Resource URLs  Resource Names  Verbs
  ---------  -----------------  --------------  -----
  *.*        []                 []              [*]
             [*]                []              [*]
$kubectl describe ClusterRole system:discovery
Name:         system:discovery
Labels:       kubernetes.io/bootstrapping=rbac-defaults
Annotations:  rbac.authorization.kubernetes.io/autoupdate: true
PolicyRule:
  Resources  Non-Resource URLs  Resource Names  Verbs
  ---------  -----------------  --------------  -----
             [/api/*]           []              [get]
             [/api]             []              [get]
             [/apis/*]          []              [get]
             [/apis]            []              [get]
             [/healthz]         []              [get]
             [/livez]           []              [get]
             [/openapi/*]       []              [get]
             [/openapi]         []              [get]
             [/readyz]          []              [get]
             [/version/]        []              [get]
             [/version]         []              [get]
$kubectl describe ClusterRole system:public-info-viewer
Name:         system:public-info-viewer
Labels:       kubernetes.io/bootstrapping=rbac-defaults
Annotations:  rbac.authorization.kubernetes.io/autoupdate: true
PolicyRule:
  Resources  Non-Resource URLs  Resource Names  Verbs
  ---------  -----------------  --------------  -----
             [/healthz]         []              [get]
             [/livez]           []              [get]
             [/readyz]          []              [get]
             [/version/]        []              [get]
             [/version]         []              [get]
$kubectl describe ClusterRole system:basic-user
Name:         system:basic-user
Labels:       kubernetes.io/bootstrapping=rbac-defaults
Annotations:  rbac.authorization.kubernetes.io/autoupdate: true
PolicyRule:
  Resources                                      Non-Resource URLs  Resource Names  Verbs
  ---------                                      -----------------  --------------  -----
  selfsubjectaccessreviews.authorization.k8s.io  []                 []              [create]
  selfsubjectrulesreviews.authorization.k8s.io   []                 []              [create]
$kubectl describe ClusterRole eks:podsecuritypolicy:privileged
Name:         eks:podsecuritypolicy:privileged
Labels:       eks.amazonaws.com/component=pod-security-policy
              kubernetes.io/cluster-service=true
Annotations:  
PolicyRule:
  Resources                   Non-Resource URLs  Resource Names    Verbs
  ---------                   -----------------  --------------    -----
  podsecuritypolicies.policy  []                 [eks.privileged]  [use]

데브온스 신입 사원을 위한 myeks-bastion-2에 설정해보기

[main bastion] IAM 사용자 생성

$aws iam create-user --user-name testuser
{
    "User": {
        "Path": "/",
        "UserName": "testuser",
        "UserId": "AIDA4VUOQIVVX254SX7ZZ",
        "Arn": "arn:aws:iam::871103481195:user/testuser",
        "CreateDate": "2023-05-31T12:07:09+00:00"
    }
}
#사용자에게 프로그래밍 방식 액세스 권한 부여
$aws iam create-access-key --user-name testuser
{
    "AccessKey": {
        "UserName": "testuser",
        "AccessKeyId": "AKIA4VUOQIVV2DMRFWMX",
        "Status": "Active",
        "SecretAccessKey": "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",
        "CreateDate": "2023-05-31T12:07:16+00:00"
    }
}
$aws iam attach-user-policy --policy-arn arn:aws:iam::aws:policy/AdministratorAccess --user-name testuser
$aws sts get-caller-identity --query Arn
"arn:aws:iam::871103481195:user/EKS-study"
$aws ec2 describe-instances --query "Reservations[*].Instances[*].{PublicIPAdd:PublicIpAddress,PrivateIPAdd:PrivateIpAddress,InstanceName:Tags[?Key=='Name']|[0].Value,Status:State.Name}" --filters Name=instance-state-name,Values=running --output table
-----------------------------------------------------------------------
|                          DescribeInstances                          |
+----------------------+----------------+------------------+----------+
|     InstanceName     | PrivateIPAdd   |   PublicIPAdd    | Status   |
+----------------------+----------------+------------------+----------+
|  myeks-ng1-Node      |  192.168.3.81  |  43.200.177.234  |  running |
|  myeks-ng1-Node      |  192.168.2.117 |  3.38.186.134    |  running |
|  myeks-bastion-EC2-2 |  192.168.1.200 |  3.38.105.241    |  running |
|  myeks-bastion-EC2   |  192.168.1.100 |  3.36.103.16     |  running |
|  myeks-ng1-Node      |  192.168.1.102 |  43.201.254.218  |  running |
+----------------------+----------------+------------------+----------+

이제 bastion2 에 접속하여, 생성한 testuser AWS config 설정을 하고, 권한을 확인한다.

[root@myeks-bastion-2 ~]# bastion 2로 접속
$aws sts get-caller-identity --query Arn
Unable to locate credentials. You can configure credentials by running "aws configure".
$aws configure
AWS Access Key ID [None]: AKIA4VUOQIVV2DMRFWMX
AWS Secret Access Key [None]: 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
Default region name [None]: ap-northeast-2
Default output format [None]: json
$aws sts get-caller-identity --query Arn
"arn:aws:iam::871103481195:user/testuser"

# 접속 실패
$kubectl get node -v6
I0531 21:11:22.552208    1798 round_trippers.go:553] GET http://localhost:8080/api?timeout=32s  in 0 milliseconds
E0531 21:11:22.552311    1798 memcache.go:265] couldn't get current server API group list: Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.552333    1798 cached_discovery.go:120] skipped caching discovery info due to Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.552554    1798 round_trippers.go:553] GET http://localhost:8080/api?timeout=32s  in 0 milliseconds
E0531 21:11:22.552594    1798 memcache.go:265] couldn't get current server API group list: Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.553487    1798 cached_discovery.go:120] skipped caching discovery info due to Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.553511    1798 shortcut.go:100] Error loading discovery information: Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.554197    1798 round_trippers.go:553] GET http://localhost:8080/api?timeout=32s  in 0 milliseconds
E0531 21:11:22.554252    1798 memcache.go:265] couldn't get current server API group list: Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.555354    1798 cached_discovery.go:120] skipped caching discovery info due to Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.555575    1798 round_trippers.go:553] GET http://localhost:8080/api?timeout=32s  in 0 milliseconds
E0531 21:11:22.555682    1798 memcache.go:265] couldn't get current server API group list: Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.556788    1798 cached_discovery.go:120] skipped caching discovery info due to Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.556994    1798 round_trippers.go:553] GET http://localhost:8080/api?timeout=32s  in 0 milliseconds
E0531 21:11:22.557035    1798 memcache.go:265] couldn't get current server API group list: Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.558150    1798 cached_discovery.go:120] skipped caching discovery info due to Get "http://localhost:8080/api?timeout=32s": dial tcp 127.0.0.1:8080: connect: connection refused
I0531 21:11:22.558214    1798 helpers.go:264] Connection error: Get http://localhost:8080/api?timeout=32s: dial tcp 127.0.0.1:8080: connect: connection refused
The connection to the server localhost:8080 was refused - did you specify the right host or port?

# kube config 파일이 없음!
$ls ~/.kube
ls: cannot access /root/.kube: No such file or directory

[myeks-bastion] testuser에 system:masters 그룹 부여로 EKS 관리자 수준 권한 설정

# 방안1 : eksctl 사용 >> iamidentitymapping 실행 시 aws-auth 컨피그맵 작성해줌
# tesk 유저 권한부여
## Creates a mapping from IAM role or user to Kubernetes user and groups

$eksctl create iamidentitymapping --cluster $CLUSTER_NAME --username testuser --group system:masters --arn arn:aws:iam::$ACCOUNT_ID:user/testuser
2023-05-31 21:12:06 [ℹ]  checking arn arn:aws:iam::871103481195:user/testuser against entries in the auth ConfigMap
2023-05-31 21:12:06 [ℹ]  adding identity "arn:aws:iam::871103481195:user/testuser" to auth ConfigMap
$kubectl get cm -n kube-system aws-auth -o yaml | kubectl neat | yh
apiVersion: v1
data:
  mapRoles: |
    - groups:
      - system:bootstrappers
      - system:nodes
      rolearn: arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-QR6CCYVFGKRS
      username: system:node:{{EC2PrivateDNSName}}
  mapUsers: |
    - groups:
      - system:masters
      userarn: arn:aws:iam::871103481195:user/testuser
      username: testuser
kind: ConfigMap
metadata:
  name: aws-auth
  namespace: kube-system
$eksctl get iamidentitymapping --cluster $CLUSTER_NAME
ARN                                            USERNAME                GROUPS                    ACCOUNT
arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-QR6CCYVFGKRS    system:node:{{EC2PrivateDNSName}}    system:bootstrappers,system:nodes
arn:aws:iam::871103481195:user/testuser                            testuser                system:masters

이제 bastion2에 접속하여, eks를 업데이트하고 kubeconfig 파일을 비교 확인한다.

[root@myeks-bastion-2 ~]# 
# 업데이트
$aws eks update-kubeconfig --name $CLUSTER_NAME --user-alias testuser
Added new context testuser to /root/.kube/config
# 첫번째 bastic ec2의 config와 비교해보자
$cat ~/.kube/config | yh
apiVersion: v1
clusters:
- cluster:
    certificate-authority-data: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0tLS0tCk1JSUMvakNDQWVhZ0F3SU
    server: https://BF69CC8DDDFB36E86FE01E52B6F5641B.gr7.ap-northeast-2.eks.amazonaws.com
  name: arn:aws:eks:ap-northeast-2:871103481195:cluster/myeks
contexts:
- context:
    cluster: arn:aws:eks:ap-northeast-2:871103481195:cluster/myeks
    user: testuser
  name: testuser
current-context: testuser
kind: Config
preferences: {}
users:
- name: testuser
  user:
    exec:
      apiVersion: client.authentication.k8s.io/v1beta1
      args:
      - --region
      - ap-northeast-2
      - eks
      - get-token
      - --cluster-name
      - myeks
      - --output
      - json
      command: aws

아래는 main bastion 의 kube config 파일이다. 대부분 같은 것을 확인할 수 있다.

#bation 2와 kubeconfig file 확인
$cat ~/.kube/config | yh
apiVersion: v1
clusters:
- cluster:
    certificate-authority-data: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0tLS0tCk1JS..
    server: https://BF69CC8DDDFB36E86FE01E52B6F5641B.gr7.ap-northeast-2.eks.amazonaws.com
  name: myeks.ap-northeast-2.eksctl.io
contexts:
- context:
    cluster: myeks.ap-northeast-2.eksctl.io
    user: EKS-study@myeks.ap-northeast-2.eksctl.io
  name: kane
current-context: kane
kind: Config
preferences: {}
users:
- name: EKS-study@myeks.ap-northeast-2.eksctl.io
  user:
    exec:
      apiVersion: client.authentication.k8s.io/v1beta1
      args:
      - eks
      - get-token
...

#bastion2와 비교
$kubectl rbac-tool whoami
{Username: "kubernetes-admin",
 UID:      "aws-iam-authenticator:871103481195:AIDA4VUOQIVV5CHOU2JOK",
 Groups:   ["system:masters",
            "system:authenticated"],
  mapRoles: |
    - groups:
      - system:bootstrappers
      - system:nodes
      rolearn: arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-QR6CCYVFGKRS
      username: system:node:{{EC2PrivateDNSName}}
  mapUsers: |
    - groups:
      - system:authenticated
      userarn: arn:aws:iam::871103481195:user/testuser
      username: testuser
...

[myeks-bastion] testuser 의 Group 변경(system:masters → system:authenticated)으로 RBAC 동작 확인

데브옵스 신입, config map 수정

  # Please edit the object below. Lines beginning with a '#' will be ignored,
  # and an empty file will abort the edit. If an error occurs while saving this file will be
  # reopened with the relevant failures.
  #
  apiVersion: v1
  data:
    mapRoles: |
      - groups:
        - system:bootstrappers
        - system:nodes
        rolearn: arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-QR6CCYVFGKRS
        username: system:node:{{EC2PrivateDNSName}}
    mapUsers: |
      - groups:
        - system:authenticated
        userarn: arn:aws:iam::871103481195:user/testuser
        username: testuser
  kind: ConfigMap
  metadata:
    creationTimestamp: "2023-05-31T11:03:14Z"
    name: aws-auth
    namespace: kube-system
    resourceVersion: "19809"
    uid: 7e786e3c-cf39-4ade-a86f-ff92a4bcbb39

$kubectl edit cm -n kube-system aws-auth
Edit cancelled, no changes made.
$kubectl edit cm -n kube-system aws-auth
configmap/aws-auth edited
$eksctl get iamidentitymapping --cluster $CLUSTER_NAME
ARN                                            USERNAME                GROUPS                    ACCOUNT
arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-QR6CCYVFGKRS    system:node:{{EC2PrivateDNSName}}    system:bootstrappers,system:nodes
arn:aws:iam::871103481195:user/testuser                            testuser                system:authenticated
$eksctl get iamidentitymapping --cluster $CLUSTER_NAME
ARN                                            USERNAME                GROUPS                    ACCOUNT
arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-QR6CCYVFGKRS    system:node:{{EC2PrivateDNSName}}    system:bootstrappers,system:nodes
arn:aws:iam::871103481195:user/testuser                            testuser                system:authenticated
$kubectl edit cm -n kube-system aws-auth
Edit cancelled, no changes made.
$kubectl edit cm -n kube-system aws-auth
Edit cancelled, no changes made.
$kubectl get node -v6
I0531 21:18:20.686745   13429 loader.go:374] Config loaded from file:  /root/.kube/config
I0531 21:18:21.481898   13429 round_trippers.go:553] GET https://BF69CC8DDDFB36E86FE01E52B6F5641B.gr7.ap-northeast-2.eks.amazonaws.com/api/v1/nodes?limit=500 200 OK in 773 milliseconds
NAME                                               STATUS   ROLES    AGE   VERSION
ip-192-168-1-102.ap-northeast-2.compute.internal   Ready       74m   v1.24.13-eks-0a21954
ip-192-168-2-117.ap-northeast-2.compute.internal   Ready       74m   v1.24.13-eks-0a21954
ip-192-168-3-81.ap-northeast-2.compute.internal    Ready       74m   v1.24.13-eks-0a21954

$kubectl api-resources -v5
NAME                              SHORTNAMES   APIVERSION                             NAMESPACED   KIND
bindings                                       v1                                     true         Binding
componentstatuses                 cs           v1                                     false        ComponentStatus
configmaps                        cm           v1                                     true         ConfigMap
endpoints                         ep           v1                                     true         Endpoints
...
securitygrouppolicies             sgp          vpcresources.k8s.aws/v1beta1           true         SecurityGroupPolicy

$eksctl get iamidentitymapping --cluster $CLUSTER_NAME
ARN                                            USERNAME                GROUPS                    ACCOUNT
arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-QR6CCYVFGKRS    system:node:{{EC2PrivateDNSName}}    system:bootstrappers,system:nodes
arn:aws:iam::871103481195:user/testuser                            testuser                system:authenticated

bastion 2 kubectl 사용 확인

$kubectl ns default

Context "testuser" modified.
Active namespace is "default".
(testuser:default) [root@myeks-bastion-2 ~]#
$kubectl get node -v6
I0531 21:13:59.725066    2078 loader.go:373] Config loaded from file:  /root/.kube/config
I0531 21:14:00.542215    2078 round_trippers.go:553] GET https://BF69CC8DDDFB36E86FE01E52B6F5641B.gr7.ap-northeast-2.eks.amazonaws.com/api/v1/nodes?limit=500 200 OK in 809 milliseconds
NAME                                               STATUS   ROLES    AGE   VERSION
ip-192-168-1-102.ap-northeast-2.compute.internal   Ready       70m   v1.24.13-eks-0a21954
ip-192-168-2-117.ap-northeast-2.compute.internal   Ready       70m   v1.24.13-eks-0a21954
ip-192-168-3-81.ap-northeast-2.compute.internal    Ready       70m   v1.24.13-eks-0a21954
$kubectl krew install rbac-tool && kubectl rbac-tool whoami
Updated the local copy of plugin index.
Installing plugin: rbac-tool
Installed plugin: rbac-tool
\
 | Use this plugin:
 |     kubectl rbac-tool
 | Documentation:
 |     https://github.com/alcideio/rbac-tool
/
WARNING: You installed plugin "rbac-tool" from the krew-index plugin repository.
   These plugins are not audited for security by the Krew maintainers.
   Run them at your own risk.
{Username: "testuser",
 UID:      "aws-iam-authenticator:871103481195:AIDA4VUOQIVVX254SX7ZZ",
 Groups:   ["system:masters",
            "system:authenticated"],
 Extra:    {accessKeyId:  ["AKIA4VUOQIVV2DMRFWMX"],
            arn:          ["arn:aws:iam::871103481195:user/testuser"],
            canonicalArn: ["arn:aws:iam::871103481195:user/testuser"],
            principalId:  ["AIDA4VUOQIVVX254SX7ZZ"],
            sessionName:  [""]}}
# 노드에 대한 권한은 클러스터 롤이기에, 차단된 모습이다. 
$kubectl get node -v6
I0531 21:16:11.465425    2208 loader.go:373] Config loaded from file:  /root/.kube/config
I0531 21:16:12.269649    2208 round_trippers.go:553] GET https://BF69CC8DDDFB36E86FE01E52B6F5641B.gr7.ap-northeast-2.eks.amazonaws.com/api/v1/nodes?limit=500 403 Forbidden in 782 milliseconds
I0531 21:16:12.269935    2208 helpers.go:246] server response object: [{
  "kind": "Status",
  "apiVersion": "v1",
  "metadata": {},
  "status": "Failure",
  "message": "nodes is forbidden: User \"testuser\" cannot list resource \"nodes\" in API group \"\" at the cluster scope",
  "reason": "Forbidden",
  "details": {
    "kind": "nodes"
  },
  "code": 403
}]
Error from server (Forbidden): nodes is forbidden: User "testuser" cannot list resource "nodes" in API group "" at the cluster scope

$kubectl api-resources -v5
NAME                              SHORTNAMES   APIVERSION                             NAMESPACED   KIND
bindings                                       v1                                     true         Binding
componentstatuses                 cs           v1                                     false        ComponentStatus
configmaps                        cm           v1                                     true         ConfigMap
endpoints                         ep           v1                                     true         Endpoints
events                            ev           v1                                     true         Event
...

[myeks-bastion]에서 testuser IAM 맵핑 삭제

$eksctl delete iamidentitymapping --cluster $CLUSTER_NAME --arn  arn:aws:iam::$ACCOUNT_ID:user/testuser
2023-05-31 21:21:05 [ℹ]  removing identity "arn:aws:iam::871103481195:user/testuser" from auth ConfigMap (username = "testuser", groups = ["system:authenticated"])
$eksctl get iamidentitymapping --cluster $CLUSTER_NAME
ARN                                            USERNAME                GROUPS                    ACCOUNT
arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-QR6CCYVFGKRS    system:node:{{EC2PrivateDNSName}}    system:bootstrappers,system:nodes
$kubectl get cm -n kube-system aws-auth -o yaml | yh
apiVersion: v1
data:
  mapRoles: |
    - groups:
      - system:bootstrappers
      - system:nodes
      rolearn: arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-QR6CCYVFGKRS
      username: system:node:{{EC2PrivateDNSName}}
  mapUsers: |
    []
kind: ConfigMap
metadata:
  creationTimestamp: "2023-05-31T11:03:14Z"
  name: aws-auth
  namespace: kube-system
  resourceVersion: "21204"
  uid: 7e786e3c-cf39-4ade-a86f-ff92a4bcbb39

IRSA

IAM Role for Service Account의 약자로 각 파드 당 권한을 IAM 권한을 별도로 부여하는 방법이다.

운영하다보면 사용자가 아닌 하나의 서비스가 AWS에 접근해야 하는 일이 생긴다. ex) RDS or S3 스냅샷을 남기는 파드, 이때 EC2 Instance Profile을 사용하여 노드의 권한을 모든 파드가 공유하면 최소 권한 원칙에 위배된다. 파드마다 역할이 다르니 권한 부여 단위를 파드로 두는 것이다. 파드가 특정 IAM 역할로 Assume 할때 토큰을 AWS에 전송하고, AWS는 토큰과 EKS IdP를 통해 해당 IAM 역할을 사용할 수 있는지 검증한다.

EC2 instance Profile

설정예시를 참고해서 추후 진행

# 설정 예시 1 : eksctl 사용 시
**eksctl create** cluster --name $CLUSTER_NAME ... **--external-dns-access --full-ecr-access --asg-access**

# 설정 예시 2 : eksctl로 yaml 파일로 노드 생성 시
**cat myeks.yaml | yh**
...
managedNodeGroups:
- amiFamily: AmazonLinux2
  iam:
    withAddonPolicies:
      albIngress: false
      appMesh: false
      appMeshPreview: false
      **autoScaler: true**
      awsLoadBalancerController: false
      **certManager: true**
      **cloudWatch: true**
      ebs: false
      efs: false
      **externalDNS: true**
      fsx: false
      **imageBuilder: true**
      xRay: false
...

# 설정 예시 3 : 테라폼
...

IRSA

AWS 자원에 접근하는 파드 생성해보기

s3 ls 명령어를 사용하는 파드 생성

 $cat <
Annotations:      kubernetes.io/psp: eks.privileged
Status:           Pending
IP:
IPs:              
Containers:
  my-aws-cli:
    Container ID:
    Image:         amazon/aws-cli:latest
    Image ID:
    Port:          
    Host Port:     
    Args:
      s3
      ls
    State:          Waiting
      Reason:       ContainerCreating
    Ready:          False
    Restart Count:  0
    Environment:    
    Mounts:         
...

#로그 확인
$kubectl logs eks-iam-test1
Error from server (BadRequest): container "my-aws-cli" in pod "eks-iam-test1" is waiting to start: ContainerCreating

#파드1 삭제
$kubectl logs eks-iam-test1
An error occurred (AccessDenied) when calling the ListBuckets operation: Access Denied

S3(ListBuckets)로그확인(접속하려하지만, 권한이 없어 접근에 실패한 것을 확인할 수 있다.)

{
    "eventVersion": "1.08",
    "userIdentity": {
        "type": "AssumedRole",
        "principalId": "AROASUCZUNGONCRSO3PBP:access-analyzer",
        "arn": "arn:aws:sts::180576610716:assumed-role/AWSServiceRoleForAccessAnalyzer/access-analyzer",
        "accountId": "180576610716",
        "accessKeyId": "ASIASUCZUNGOFEM7DDEV",
        "sessionContext": {
            "sessionIssuer": {
                "type": "Role",
                "principalId": "AROASUCZUNGONCRSO3PBP",
                "arn": "arn:aws:iam::180576610716:role/aws-service-role/access-analyzer.amazonaws.com/AWSServiceRoleForAccessAnalyzer",
                "accountId": "180576610716",
                "userName": "AWSServiceRoleForAccessAnalyzer"
            },
            "webIdFederationData": {},
            "attributes": {
                "creationDate": "2023-05-31T07:03:36Z",
                "mfaAuthenticated": "false"
            }
        },
        "invokedBy": "access-analyzer.amazonaws.com"
    },
    "eventTime": "2023-05-31T07:03:37Z",
    "eventSource": "s3.amazonaws.com",
    "eventName": "ListBuckets",
    "awsRegion": "ap-northeast-2",
    "sourceIPAddress": "access-analyzer.amazonaws.com",
    "userAgent": "access-analyzer.amazonaws.com",
    "requestParameters": {
        "Host": "s3.ap-northeast-2.amazonaws.com"
    },
    "responseElements": null,
    "additionalEventData": {
        "SignatureVersion": "SigV4",
        "CipherSuite": "ECDHE-RSA-AES128-GCM-SHA256",
        "bytesTransferredIn": 0,
        "AuthenticationMethod": "AuthHeader",
        "x-amz-id-2": "3euU4IpaPy9deQh..=",
        "bytesTransferredOut": 661
    },
    "requestID": "CGKW0AV31SR85514",
    "eventID": "5afa53c5-31e4-4e22-88d3-324625cccdd0",
    "readOnly": true,
    "eventType": "AwsApiCall",
    "managementEvent": true,
    "recipientAccountId": "180576610716",
    "eventCategory": "Management"
}

이제 서비스 어카운트를 기반으로 접근 권한을 부여해서 진행해본다.

위와 같이 S3에 접근하는 파드 생성


$cat < apiVersion: v1
> kind: Pod
> metadata:
>   name: eks-iam-test2
> spec:
>   containers:
>     - name: my-aws-cli
>       image: amazon/aws-cli:latest
>       command: ['sleep', '36000']
>   restartPolicy: Never
> EOF
pod/eks-iam-test2 created

$kubectl get pod
NAME            READY   STATUS    RESTARTS   AGE
eks-iam-test2   1/1     Running   0          6s

$kubectl describe pod
Name:             eks-iam-test2
Namespace:        default
...
Containers:
  my-aws-cli:
      Image:         amazon/aws-cli:latest
    Image ID:      docker.io/amazon/aws-cli@sha256:21e6273f0025755abfc842ca39e8ef4fed3d9d2ce61d93bb16ce86a6c1668ae5
    Port:          
    Host Port:     
    Command:
      sleep
      36000
    State:          Running
      Started:      Wed, 31 May 2023 21:30:32 +0900
    Ready:          True
    Restart Count:  0
    Environment:    
    Mounts:
      /var/run/secrets/kubernetes.io/serviceaccount from kube-api-access-4x9qc (ro)
...

# 접근 실패
$kubectl exec -it eks-iam-test2 -- aws s3 ls

# 서비스 어카운트 토큰 확인
SA_TOKEN=$(kubectl exec -it eks-iam-test2 -- cat /var/run/secrets/kubernetes.io/serviceaccount/token)
echo $SA_TOKEN
An error occurred (AccessDenied) when calling the ListBuckets operation: Access Denied
command terminated with exit code 254

IAM 서비스 어카운트 생성


$eksctl create iamserviceaccount \
>   --name my-sa \
>   --namespace default \
>   --cluster $CLUSTER_NAME \
>   --approve \
>   --attach-policy-arn $(aws iam list-policies --query 'Policies[?PolicyName==`AmazonS3ReadOnlyAccess`].Arn' --output text)

2023-05-31 21:40:06 [ℹ]  1 existing iamserviceaccount(s) (kube-system/aws-load-balancer-controller) will be excluded
2023-05-31 21:40:06 [ℹ]  1 iamserviceaccount (default/my-sa) was included (based on the include/exclude rules)
2023-05-31 21:40:06 [!]  serviceaccounts that exist in Kubernetes will be excluded, use --override-existing-serviceaccounts to override
2023-05-31 21:40:06 [ℹ]  1 task: {
    2 sequential sub-tasks: {
        create IAM role for serviceaccount "default/my-sa",
        create serviceaccount "default/my-sa",
    } }2023-05-31 21:40:06 [ℹ]  building iamserviceaccount stack "eksctl-myeks-addon-iamserviceaccount-default-my-sa"
2023-05-31 21:40:07 [ℹ]  deploying stack "eksctl-myeks-addon-iamserviceaccount-default-my-sa"
2023-05-31 21:40:08 [ℹ]  waiting for CloudFormation stack "eksctl-myeks-addon-iamserviceaccount-default-my-sa"
2023-05-31 21:40:38 [ℹ]  waiting for CloudFormation stack "eksctl-myeks-addon-iamserviceaccount-default-my-sa"
2023-05-31 21:40:38 [ℹ]  created serviceaccount "default/my-sa"

$eksctl get iamserviceaccount --cluster $CLUSTER_NAME
NAMESPACE    NAME                ROLE ARN
default        my-sa                arn:aws:iam::871103481195:role/eksctl-myeks-addon-iamserviceaccount-default-Role1-193TXMP0QLZSN
kube-system    aws-load-balancer-controller    arn:aws:iam::871103481195:role/eksctl-myeks-addon-iamserviceaccount-kube-sy-Role1-M4DYRCMI95LR
$kubectl get sa
NAME      SECRETS   AGE
default   0         107m
my-sa     0         32s
$kubectl describe sa my-sa

Name:                my-sa
Namespace:           default
Labels:              app.kubernetes.io/managed-by=eksctl
Annotations:         eks.amazonaws.com/role-arn: arn:aws:iam::871103481195:role/eksctl-myeks-addon-iamserviceaccount-default-Role1-193TXMP0QLZSN
Image pull secrets:  
Mountable secrets:   
Tokens:              
Events:

콘솔에서 정보 확인

만든 service account

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Federated": "arn:aws:iam::871103481195:oidc-provider/oidc.eks.ap-northeast-2.amazonaws.com/id/BF69CC8DDDFB36E86FE01E52B6F5641B"
            },
            "Action": "sts:AssumeRoleWithWebIdentity",
            "Condition": {
                "StringEquals": {
                    "oidc.eks.ap-northeast-2.amazonaws.com/id/BF69CC8DDDFB36E86FE01E52B6F5641B:sub": "system:serviceaccount:default:my-sa",
                    "oidc.eks.ap-northeast-2.amazonaws.com/id/BF69CC8DDDFB36E86FE01E52B6F5641B:aud": "sts.amazonaws.com"
                }
            }
        }
    ]
}

테스트를 위해 위와 같이 파드 생성

→ S3 에 접근되는 것을 확인할 수 있다.

$cat < apiVersion: v1
> kind: Pod
> metadata:
>   name: eks-iam-test3
> spec:
>   serviceAccountName: **my-sa**
>   containers:
>     - name: my-aws-cli
>       image: amazon/aws-cli:latest
>       command: ['sleep', '36000']
>   restartPolicy: Never
> EOF
pod/eks-iam-test3 created

$kubectl get mutatingwebhookconfigurations pod-identity-webhook -o yaml | kubectl neat | yh
apiVersion: admissionregistration.k8s.io/v1
kind: MutatingWebhookConfiguration
metadata:
  name: pod-identity-webhook
webhooks:
- admissionReviewVersions:
  - v1beta1
  clientConfig:
    caBundle: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0tLS0tCk1JSUMvakN...
    url: https://127.0.0.1:23443/mutate
  failurePolicy: Ignore
  matchPolicy: Equivalent
  name: iam-for-pods.amazonaws.com
  reinvocationPolicy: IfNeeded
  rules:
  - apiGroups:
    - ""
    apiVersions:
    - v1
    operations:
    - CREATE
    resources:
    - pods
    scope: '*'
  sideEffects: None
  timeoutSeconds: 10

# 파드 확인
$kubectl get pod eks-iam-test3
NAME            READY   STATUS    RESTARTS   AGE
eks-iam-test3   1/1     Running   0          9s

# **Pod Identity Webhook**은 **mutating** webhook을 통해 아래 **Env 내용**과 **1개의 볼륨**을 추가함
$kubectl describe pod eks-iam-test3
Name:             eks-iam-test3
Namespace:        default
Priority:         0
**Service Account:  my-sa**
...
Containers:
  my-aws-cli:
    Container ID:  containerd://37b52c6ca91475c8b42f194fc21e32ad905ae8a982110443cbff910152be9264
    Image:         amazon/aws-cli:latest
    Image ID:      docker.io/amazon/aws-cli@sha256:21e6273f0025755abfc842ca39e8ef4fed3d9d2ce61d93bb16ce86a6c1668ae5
...
    **Environment:
      AWS_STS_REGIONAL_ENDPOINTS:   regional
      AWS_DEFAULT_REGION:           ap-northeast-2
      AWS_REGION:                   ap-northeast-2
      AWS_ROLE_ARN:                 arn:aws:iam::...:role/eksctl-myeks-addon-iamserviceaccount-default-Role1-193..
      AWS_WEB_IDENTITY_TOKEN_FILE:  /var/run/secrets/eks.amazonaws.com/serviceaccount/token**
    Mounts:
      /var/run/secrets/eks.amazonaws.com/serviceaccount from aws-iam-token (ro)
      /var/run/secrets/kubernetes.io/serviceaccount from kube-api-access-2gvz2 (ro)
...
**Volumes:**
  **aws-iam-token:
    Type:                    Projected (a volume that contains injected data from multiple sources)
    TokenExpirationSeconds:  86400**
  kube-api-access-2gvz2:
    Type:                    Projected (a volume that contains injected data from multiple sources)
    TokenExpirationSeconds:  3607
    ConfigMapName:           kube-root-ca.crt
    ConfigMapOptional:       
    DownwardAPI:             true
...

$eksctl get iamserviceaccount --cluster $CLUSTER_NAME
NAMESPACE    NAME                ROLE ARN
default        my-sa                arn:aws:iam::871103481195:role/eksctl-myeks-addon-iamserviceaccount-default-Role1-193TXMP0QLZSN
kube-system    aws-load-balancer-controller    arn:aws:iam::871103481195:role/eksctl-myeks-addon-iamserviceaccount-kube-sy-Role1-M4DYRCMI95LR

테스트 진행

$kubectl exec -it eks-iam-test3 -- aws sts get-caller-identity --query Arn
"arn:aws:sts::871103481195:assumed-role/eksctl-myeks-addon-iamserviceaccount-default-Role1-193TXMP0QLZSN/botocore-session-1685537063"

# S3 접근 가능
$kubectl exec -it eks-iam-test3 -- aws s3 ls
2023-05-31 12:35:31 cf-templates-1pjjg014ag81h-ap-northeast-2

# 정책에서 S3 권한만 부여했으니,당연히 나머지 리소스는 접근하지 못한다. 
# ec2 접근 불가
$kubectl exec -it eks-iam-test3 -- aws ec2 describe-instances --region ap-northeast-2
An error occurred (UnauthorizedOperation) when calling the DescribeInstances operation: You are not authorized to perform this operation.
command terminated with exit code 254
# vpc 접근 불가 
$kubectl exec -it eks-iam-test3 -- aws ec2 describe-vpcs --region ap-northeast-2
An error occurred (UnauthorizedOperation) when calling the DescribeVpcs operation: You are not authorized to perform this operation.
command terminated with exit code 254

AWS CloudTrail 로그를 통해 접근한 것을 확인할 수 있다.

OWASP Kubernetes Top Ten

OWASP 에서 발표한 2022 쿠버네티스 환경 취약점 Top10 중 2가지에 대해 실습을 진행한다. 실습의 대부분은 악분님의 블로그를 참고한다.

https://malwareanalysis.tistory.com/607

https://malwareanalysis.tistory.com/606

Amazon EKS Best Practices Guide for Security

https://aws.github.io/aws-eks-best-practices/security/docs/

Securing Secrets

경험발표에서 공유해주신 하시코프에 Valut 시스템이다. 쿠버네티스의 보안을 지원한다.

Valut Secret Operator on K8s - Youtube 개요 설치 실습 비교 GitHub
- VSO 실습 코드(Dynamic,PKI,Static) : https://github.com/hashicorp/vault-secrets-operator/tree/main/demo/infra/app
- VSO 실습 코드(Static) : https://github.com/hashicorp-education/learn-vault-secrets-operator/tree/main/vault
- Vault Static Secret 샘플 : https://developer.hashicorp.com/vault/tutorials/kubernetes/vault-secrets-operator
- VSO API Reference : https://developer.hashicorp.com/vault/docs/platform/k8s/vso/api-reference

파드/컨테이너 보안 컨텍스트

https://kubernetes.io/docs/tasks/configure-pod-container/security-context/

참고링크

OAuth 제 3자의 서비스에게 계정에 대한 정보를 줄 때, 계정이 아닌 Access Token 을 줌으로 알맞는 권한만 제공하는 방법
참고 링크
1. AWS
  1. [Youtube] Amazon EKS 마이그레이션 요점정리(강인호) - 링크
  2. AWS EKS 마이그레이션 요점 정리로, EKS 관련 핵심 사항을 설명해준다. YouTube
  3. EKS 환경을 더 효율적으로, 더 안전하게 - 신은수 시큐리티 스페셜리스트 솔루션즈 아키텍트, AWS :: AWS Summit Korea 2022 - 링크 PDF
2. [용찬호님] - EKS에서 쿠버네티스 포드의 IAM 권한 제어하기 - 링크 / AWS IAM Authenticator - 링크 / OIDC 인증 - 링크
3. [커피고래님] - 인증 시리즈 X.509 HTTP인증 OpenID Connect Webhook Proxy인증 , Admisstion Control
  - AWS Cross-Accounts IRSA 적용기 - 링크
  - OpenID(OIDC) 개념과 동작원리 - 링크
4. [Youtube] 생활코딩 OAuth 2.0 - 링크
5. [learnk8s] User and workload identities in Kubernetes - 링크
  - Limiting access to Kubernetes resources with RBAC - 링크
  - Implementing a custom Kubernetes authentication method - 링크
  - Authentication between microservices using Kubernetes identities - 링크
6. [Youtube] 쿠버네티스 해킹과 방어 (데모 포함)
  - The Hacker's Guide to Kubernetes - Patrycja Wegrzynowicz, Form3 - 링크
  - Hacking & Defending Kubernetes Clusters - 링크
7. [Youtube] Kubecon 2023 Europe
  - Keycloak: The Open-Source IAM for Modern Application - 링크
  - Kyverno Introduction and Deep Dive - 링크
  - Open Policy Agent. (OPA) Intro & Deep Dive - 링크
8. AWS Blog
  - Amazon EKS 환경에서 Pod Security Standard 구현하기 - 링크
  - Validating Amazon EKS optimized Bottlerocket AMI against the CIS Benchmark - 링크
  - Managing access to Amazon Elastic Kubernetes Service clusters with X.509 certificates - 링크
  - Managing Pod Security on Amazon EKS with Kyverno - 링크
    - Implementing Pod Security Standards in Amazon EKS - 링크
  - Preventing Kubernetes misconfigurations using Datree - 링크
  - Building Amazon Linux 2 CIS Benchmark AMIs for Amazon EKS - 링크
  - Secure Bottlerocket deployments on Amazon EKS with KubeArmor - 링크
  - Diving into IAM Roles for Service Accounts - 링크
  - Leverage AWS secrets stores from EKS Fargate with External Secrets Operator - 링크
  - Building STIG-compliant AMIs for Amazon EKS - 링크
9. (참고) Valut Operator - Youtube 개요 설치 실습
10. (참고) OWASP Kubernetes Top Ten - 링크
11. (참고) Amazon Linux 2 Security Advisories - 링크

EKS 스터디 5주차

Tue, 23 May 2023 11:15:02 GMT

요약

이번 주차에는 오토스케일링에 대해 진행했다. 파드의 오토스케일링으로 HPA, VPA 그리고 노드에 비례해서 파드 개수를 조정하는 CPA까지 있다. 노드를 스케줄링하는 KEDA, CA, Karpenter 까지 진행하면서 이번주차는 끝난다.

파드의 스케줄링은 파드의 리소스 사용량을 기준으로 진행한다. 파드의 개수를 늘리는 것은 부하분산이 없다면 의미없는 일이지만, selector 를 통한 부하분산을 지원하기에 효과적이다. 또한, VPA는 리소스를 늘리나 재실행이 필요하다는 단점이 있다. [앞으로 재실행없이 리소스 변경이 가능할지도 모른다. (Docs)], HPA -VPA 모두 쿠버네티스에서 지원해줘, 플러그인 설치 없이 진행가능하다.

노드를 스케줄링하는 CA, KEDA, Karpenter가 있다. CA는 파드를 통해 모니터링하고, 리소스 메트릭을 통해 스케일링한다. KEDA는 CA와는 다르게 리소스 메트릭이 아닌 이벤트 기반으로 스케일여부를 결정한다. 마지막으로 Karpenter는 다른 오토스케일링과 다르게 초 단위로 컴퓨팅 리소스를 제공한다.

Karpenter를 마지막으로 실습은 종료된다. 주제가 오토스케일링이다보니 끝나고 나서 자원을 꼭 삭제해줘야한다.

용어설명

스케일 아웃, 스케일 인

스케일 아웃은 기존의 인프라이외에 새로운 인프라를 추가해서 확장하는 방식이다. ‘스케일인’은 반대

스케일 업, 스케일 다운

스케일 업은 기존의 인프라를 확장하는 것이다. ‘스케일 다운’은 반대! ex) CPU 변경, RAM추가

배포환경

기존의 배포환경과 동일하게, kube-ops-view, 프로메테우스, 그라파나까지 설치한다. 관련된 배포는 이전주차를 참고하면 된다.

이번 주차에서는 노드의 오토스케일링을 확인하기 위해 EKS Node Viewer를 설치하여 각 노드들의 CPU 사용량을 모니터링한다.

EKS Node Viewer 설치 : 노드 할당 가능 용량과 요청 request 리소스 표시, 실제 파드 리소스 사용량 X

# Go 설치
$yum install -y go
Loaded plugins: extras_suggestions, langpacks, priorities, update-motd
...
# EKS Node Viewer 설치
$go install github.com/awslabs/eks-node-viewer/cmd/eks-node-viewer@latest

$tree ~/go/bin
/root/go/bin
└── eks-node-viewer

설치를 마무리 하고, 디렉토리에 들어가 ./eks-node-viewer 를 실행하면 아래와 같이 노드를 모니터링화면이 나온다.

Pod AutuScaling

해당 파트에서는 파드의 오토스케일링에 대해 실습한다. 아래의 그림에서 알 수 있듯이 같은 스펙의 파드를 증가시키는 HPA와 파드의 리소스를 증가시키는 VPA가 있다.

HPA - Horizontal Pod Autoscaler

HPA는 리소스 메트릭을 통해 파드의 리소스를 파악하여 스케일링한다. 아래의 아키텍처를 통해서 자세한 원리를 알 수 있다. HPA로 진행되는 파드는 로드밸런싱 설정을 진행해야 한다. 로드밸런싱을 통해 하나의 파드만 부하를 받는 것이 아닌 새로운 파드까지 부하를 분담한다.(selector) 그렇기에 효율적으로 리소스를 관리할 수 있다.

그림 출처 - (🧝🏻‍♂️)김태민 기술 블로그 - 링크

테스트 애플리케이션 배포

$curl -s -O https://raw.githubusercontent.com/kubernetes/website/main/content/en/examples/application/php-apache.yaml
$cat php-apache.yaml | yh
apiVersion: apps/v1
kind: Deployment
metadata:
  name: php-apache
spec:
  selector:
    matchLabels:
      run: php-apache
  template:
    metadata:
      labels:
        run: php-apache
    spec:
      containers:
      - name: php-apache
        image: registry.k8s.io/hpa-example
        ports:
        - containerPort: 80
        resources:
          limits:
            cpu: 500m
          **requests:
            cpu: 200m**
---
apiVersion: v1
kind: Service
metadata:
  name: php-apache
  labels:
    run: php-apache
spec:
  ports:
  - port: 80
  selector:
    run: php-apache

# 테스트 용 php-apache server 배포
$k apply -f php-apache.yaml
deployment.apps/php-apache created
service/php-apache created

# 확인, 연산의 복잡도를 주었다.
$kubectl exec -it deploy/php-apache -- cat /var/www/html/index.php


$PODIP=$(kubectl get pod -l run=php-apache -o jsonpath={.items[0].status.podIP})
# 위와 같이 커리를 날리면 위의 연산 후 트래픽이 날아온다.
$curl -s $PODIP; echo
OK!

HPA 설정 및 확인

# cpu 사용량을 기준으로 HPA
$kubectl autoscale deployment php-apache --cpu-percent=50 --min=1 --max=10
horizontalpodautoscaler.autoscaling/php-apache autoscaled
# 확인 가능
$kubectl describe hpa
Warning: autoscaling/v2beta2 HorizontalPodAutoscaler is deprecated in v1.23+, unavailable in v1.26+; use autoscaling/v2 HorizontalPodAutoscaler
Name:                                                  php-apache
Namespace:                                             default
Labels:                                                
Annotations:                                           
CreationTimestamp:                                     Sun, 21 May 2023 22:33:48 +0900
Reference:                                             Deployment/php-apache
Metrics:                                               ( current / target )
  resource cpu on pods  (as a percentage of request):  0% (1m) / 50%
Min replicas:                                          1
Max replicas:                                          10
Deployment pods:                                       1 current / 1 desired
Conditions:
  Type            Status  Reason               Message
  ----            ------  ------               -------
  AbleToScale     True    ScaleDownStabilized  recent recommendations were higher than current one, applying the highest recent recommendation
  ScalingActive   True    ValidMetricFound     the HPA was able to successfully calculate a replica count from cpu resource utilization (percentage of request)
  ScalingLimited  False   DesiredWithinRange   the desired count is within the acceptable range
Events:

매니페스트에서 상태값은 버리고, 정리해주는 툴인 neat 플러그인을 설치한다.

$kubectl krew install neat
...
# 상태값까지 출력되어 보기 불편하다.
$kubectl get hpa php-apache -o yaml
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  creationTimestamp: "2023-05-21T13:33:48Z"
  name: php-apache
  namespace: default
  resourceVersion: "6344"
  uid: cae373a4-fb84-4ff3-9945-d19984fe811c
spec:
  maxReplicas: 10
  metrics:
  - resource:
      name: cpu
      target:
        averageUtilization: 50
        type: Utilization
    type: Resource
  minReplicas: 1
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: php-apache
status:
  conditions:
  - lastTransitionTime: "2023-05-21T13:34:03Z"
    message: recent recommendations were higher than current one, applying the highest
      recent recommendation
    reason: ScaleDownStabilized
    status: "True"
    type: AbleToScale
  - lastTransitionTime: "2023-05-21T13:34:03Z"
    message: the HPA was able to successfully calculate a replica count from cpu resource
      utilization (percentage of request)
    reason: ValidMetricFound
    status: "True"
    type: ScalingActive
  - lastTransitionTime: "2023-05-21T13:34:03Z"
    message: the desired count is within the acceptable range
    reason: DesiredWithinRange
    status: "False"
    type: ScalingLimited
  currentMetrics:
  - resource:
      current:
        averageUtilization: 0
        averageValue: 1m
      name: cpu
    type: Resource
  currentReplicas: 1
  desiredReplicas: 1

# 깔끔하게 출력되는 모습
# 아래의 내용을 확인하면 최대 10개이고 기준은 CPU의 평균활용량 50$이다!, 50%를 넘으면 자동으로 새로운 파드가 생성된다.
$kubectl get hpa php-apache -o yaml | kubectl neat | yh
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: php-apache
  namespace: default
spec:
  **maxReplicas: 10**
  metrics:
  - resource:
      **name: cpu**
      target:
        **averageUtilization: 50**
        type: Utilization
    type: Resource
  minReplicas: 1
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: php-apache

부하를 주어 테스트하는 모습, 파드가 증가하는 모습은 아래의 사진을 통해 자세하게 확인할 수 있다!


$while true;do curl -s $PODIP; sleep 0.5; done
OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!^C
$while true;do curl -s $PODIP; sleep 0.3; done
OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!^C
$kubectl run -i --tty load-generator --rm --image=busybox:1.28 --restart=Never -- /bin/sh -c "while sleep 0.01; do wget -q -O- http://php-apache; done"
If you don't see a command prompt, try pressing enter.
OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!
OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!
OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!OK!

$kubectl delete deploy,svc,hpa,pod --all
deployment.apps "php-apache" deleted
service "kubernetes" deleted
service "php-apache" deleted
horizontalpodautoscaler.autoscaling "php-apache" deleted
pod "load-generator" deleted
pod "php-apache-698db99f59-4s7d7" deleted
pod "php-apache-698db99f59-qkd2h" deleted
pod "php-apache-698db99f59-wcxvg" deleted
pod "php-apache-698db99f59-wh62k" deleted
pod "php-apache-698db99f59-x2x5r" deleted
pod "php-apache-698db99f59-zblfs" deleted

파드 하나당 CPU활용량이 50% 미만이되려면 6~7개정도의 파드가 생성되어야 했다. apache 서비스를 통해 지속적으로 트래픽을 날리는 것이므로 selector 에 의해 자동으로 로드밸런싱이 된다. 그렇기에 부하가 분산이 가능해 7개면 50%미만으로 떨어진다.

그라파나 대시보드를 통해 확인한 파드의 개수!

VPA - Vertical Pod Autoscaler

HPA는 동일한 스펙의 파드의 개수를 늘리는 것이었다면, VPA는 현재 실행중인 파드의 리소스를 확장한다. 이 과정에서 재시작이 필요하다는 단점이 있다. 파드를 재시작해야되기에, 실제 운영환경에서는 별로 추천하지 않는다고 한다. 스터디원분이 알려주신 아래의 문서와 같이 재실행없이 리소스 변경이 가능하다면 운영환경에서도 쓸모있을 것 같다.

https://kubernetes.io/blog/2023/05/12/in-place-pod-resize-alpha/

또한, VPA는 메트릭서버를 통해 파드의 로그를 수집하여 리소스 최적값을 추천해준다. 아래의 아키텍처를 통해 작동방식을 파악할 수 있다.

[악분님의 블로그 참고! https://malwareanalysis.tistory.com/603]

그림 출처 : Blog

이제 쿠버네티스에서 제공한 예시를 통해 실습을 진행한다.

# 쿠버네티스 예시 프로젝트 
git clone https://github.com/kubernetes/autoscaler.git
cd ~/autoscaler/vertical-pod-autoscaler/
# openssl 업그레이드, (v1.1.1 이상이어야 한다.)
yum install openssl11 -y
sed -i 's/openssl/openssl11/g' ~/autoscaler/vertical-pod-autoscaler/pkg/admission-controller/gencerts.sh
# 배포!
kubectl apply -f examples/hamster.yaml && kubectl get vpa -w

아래는 배포된 yaml 파일이다. 파일에서 설정된 리소스 cpu 100m, memory 50Mi를 확인할 수 있지만, 추후 VPA에 의해 파드가 재생성되면서 리소스를 변경시킨다.

# 아래의 예시 yaml 파일에서 설정된 리소스 cpu 100m, memory 50Mi
apiVersion: apps/v1
kind: Deployment
metadata:
  name: hamster
spec:
  selector:
    matchLabels:
      app: hamster
  replicas: 2
  template:
    metadata:
      labels:
        app: hamster
    spec:
      securityContext:
        runAsNonRoot: true
        runAsUser: 65534 # nobody
      containers:
        - name: hamster
          image: registry.k8s.io/ubuntu-slim:0.1
          resources:
            requests:
              cpu: 100m
              memory: 50Mi
          command: ["/bin/sh"]
          args:
            - "-c"
            - "while true; do timeout 0.5s yes >/dev/null; sleep 0.5s; done"

아래의 터미널 사진에서 상위를 보면 VPA에 의해 파드가 재생성된 것을 알 수 있고, 하단 오른쪽을 보면 CPU 요청량이 달라진 것을 확인할 수 있다.

KRR

이번에 AWS에서 지원해주는 툴이며, 메트릭을 수집하고 스스로 판단하여 추천을 해준다고 한다. 아래의 그림을 참고하면 자세하게 리소스별 추천을 해주는 것을 확인할 수 있다.

KRR : Prometheus-based Kubernetes Resource Recommendations - 링크 & Youtube - 링크

KEDA - Kubernetes based Event Driven Autoscaler

리소스 메트릭이 아닌 특정 이벤트를 기준으로 노드를 오토스케일링한다.

KEDA는 전용 메트릭서버를 별도로 둔다. 아마 메트릭관련 내용이 조금 달라서 그런 것 같다.!

또한, 그라파나의 공식대시보드에 없어서, Github에서 config파일을 복사하고, import 한다.

배포된 kube-ops-view 사진

# KEDA 설치
$cat < keda-values.yaml
> metricsServer:
>   useHostNetwork: true
>
> prometheus:
>   metricServer:
>     enabled: true
>     port: 9022
>     portName: metrics
>     path: /metrics
>     serviceMonitor:
>       # Enables ServiceMonitor creation for the Prometheus Operator
>       enabled: true
>     podMonitor:
>       # Enables PodMonitor creation for the Prometheus Operator
>       enabled: true
>   operator:
>     enabled: true
>     port: 8080
>     serviceMonitor:
>       # Enables ServiceMonitor creation for the Prometheus Operator
>       enabled: true
>     podMonitor:
>       # Enables PodMonitor creation for the Prometheus Operator
>       enabled: true
>
>   webhooks:
>     enabled: true
>     port: 8080
>     serviceMonitor:
>       # Enables ServiceMonitor creation for the Prometheus webhooks
>       enabled: true
> EOT
# 별도의 네임스페이스 생성
$kubectl create namespace keda
namespace/keda created

$helm repo add kedacore https://kedacore.github.io/charts
"kedacore" has been added to your repositories

# helm을 통한 배포
$helm install keda kedacore/keda --version 2.10.2 --namespace keda -f keda-values.yaml
NAME: keda
LAST DEPLOYED: Sun May 21 22:45:17 2023
NAMESPACE: keda
STATUS: deployed
REVISION: 1
TEST SUITE: None
# KEDA 설치 확인
$kubectl get-all -n keda
W0521 22:45:24.843016   14118 client.go:102] Could not fetch complete list of API resources, results will be incomplete: unable to retrieve the complete list of server APIs: external.metrics.k8s.io/v1beta1: the server is currently unable to handle the request
NAME                                                                  NAMESPACE  AGE
configmap/kube-root-ca.crt                                            keda       26s
endpoints/keda-admission-webhooks                                     keda       5s
endpoints/keda-operator                                               keda       5s
endpoints/keda-operator-metrics-apiserver                             keda       5s
pod/keda-admission-webhooks-68cf687cbf-l6lpx                          keda       5s
pod/keda-operator-656478d687-4m47m                                    keda       5s
pod/keda-operator-metrics-apiserver-7fd585f657-xjltw                  keda       5s
secret/sh.helm.release.v1.keda.v1                                     keda       6s
serviceaccount/default                                                keda       26s
serviceaccount/keda-operator                                          keda       6s
service/keda-admission-webhooks                                       keda       5s
service/keda-operator                                                 keda       5s
service/keda-operator-metrics-apiserver                               keda       5s
deployment.apps/keda-admission-webhooks                               keda       5s
deployment.apps/keda-operator                                         keda       5s
deployment.apps/keda-operator-metrics-apiserver                       keda       5s
replicaset.apps/keda-admission-webhooks-68cf687cbf                    keda       5s
replicaset.apps/keda-operator-656478d687                              keda       5s
replicaset.apps/keda-operator-metrics-apiserver-7fd585f657            keda       5s
endpointslice.discovery.k8s.io/keda-admission-webhooks-jtdd2          keda       5s
endpointslice.discovery.k8s.io/keda-operator-7pdhn                    keda       5s
endpointslice.discovery.k8s.io/keda-operator-metrics-apiserver-9ltmf  keda       5s
podmonitor.monitoring.coreos.com/keda-operator                        keda       5s
podmonitor.monitoring.coreos.com/keda-operator-metrics-apiserver      keda       5s
servicemonitor.monitoring.coreos.com/keda-admission-webhooks          keda       5s
servicemonitor.monitoring.coreos.com/keda-operator                    keda       5s
servicemonitor.monitoring.coreos.com/keda-operator-metrics-apiserver  keda       5s
rolebinding.rbac.authorization.k8s.io/keda-operator                   keda       5s
role.rbac.authorization.k8s.io/keda-operator                          keda       6s
$kubectl get all -n keda
NAME                                                   READY   STATUS              RESTARTS   AGE
pod/keda-admission-webhooks-68cf687cbf-l6lpx           0/1     ContainerCreating   0          6s
pod/keda-operator-656478d687-4m47m                     0/1     ContainerCreating   0          6s
pod/keda-operator-metrics-apiserver-7fd585f657-xjltw   0/1     ContainerCreating   0          6s

NAME                                      TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)                   AGE
service/keda-admission-webhooks           ClusterIP   10.100.253.109           443/TCP,8080/TCP          6s
service/keda-operator                     ClusterIP   10.100.239.105           9666/TCP,8080/TCP         6s
service/keda-operator-metrics-apiserver   ClusterIP   10.100.137.4             443/TCP,80/TCP,9022/TCP   6s

NAME                                              READY   UP-TO-DATE   AVAILABLE   AGE
deployment.apps/keda-admission-webhooks           0/1     1            0           6s
deployment.apps/keda-operator                     0/1     1            0           6s
deployment.apps/keda-operator-metrics-apiserver   0/1     1            0           6s

NAME                                                         DESIRED   CURRENT   READY   AGE
replicaset.apps/keda-admission-webhooks-68cf687cbf           1         1         0       6s
replicaset.apps/keda-operator-656478d687                     1         1         0       6s
replicaset.apps/keda-operator-metrics-apiserver-7fd585f657   1         1         0       6s
$kubectl get crd | grep keda
clustertriggerauthentications.keda.sh        2023-05-21T13:45:20Z
scaledjobs.keda.sh                           2023-05-21T13:45:20Z
scaledobjects.keda.sh                        2023-05-21T13:45:20Z
triggerauthentications.keda.sh               2023-05-21T13:45:20Z

테스트를 위해, 위에서도 사용했던 php-apache 배포

# 테스트용 디플로이 배포
$kubectl apply -f php-apache.yaml -n keda
deployment.apps/php-apache created
service/php-apache created

# php-apache 배포 확인
$kubectl get pod -n keda
NAME                                               READY   STATUS              RESTARTS      AGE
keda-admission-webhooks-68cf687cbf-l6lpx           1/1     Running             0             64s
keda-operator-656478d687-4m47m                     1/1     Running             1 (51s ago)   64s
keda-operator-metrics-apiserver-7fd585f657-xjltw   1/1     Running             0             64s
php-apache-698db99f59-rkqxp                        0/1     ContainerCreating   0             1s

특정시간(0,15,30,45)에 시작하고 (05,20,35,50)종료하는 이벤트 기반 정책 생성

# ScaledObject 정책 생성 : cron
# triggers 부분에서 이벤트기반 정책을 확인할 수 있다.
$cat < keda-cron.yaml
> apiVersion: keda.sh/v1alpha1
> kind: ScaledObject
> metadata:
>   name: php-apache-cron-scaled
> spec:
>   minReplicaCount: 0
>   maxReplicaCount: 2
>   pollingInterval: 30
>   cooldownPeriod: 300
>   scaleTargetRef:
>     apiVersion: apps/v1
>     kind: Deployment
>     name: php-apache
>   triggers:
>   - type: cron
>     metadata:
>       timezone: Asia/Seoul
>       start: 00,15,30,45 * * * *
>       end: 05,20,35,50 * * * *
>       desiredReplicas: "1"
> EOT

$kubectl apply -f keda-cron.yaml -n keda
scaledobject.keda.sh/php-apache-cron-scaled created

$k get ScaledObject -n  keda
NAME                     SCALETARGETKIND      SCALETARGETNAME   MIN   MAX   TRIGGERS   AUTHENTICATION   READY   ACTIVE   FALLBACK   AGE
php-apache-cron-scaled   apps/v1.Deployment   php-apache        0     2     cron                        True    False    Unknown    6m39s

아래의 명령어가 잘 안먹음
# $kubectl get ScaledObject -w

# 확인! 
$kubectl get ScaledObject,hpa,pod -n keda
NAME                                          SCALETARGETKIND      SCALETARGETNAME   MIN   MAX   TRIGGERS   AUTHENTICATION   READY   ACTIVE   FALLBACK   AGE
scaledobject.keda.sh/php-apache-cron-scaled   apps/v1.Deployment   php-apache        0     2     cron                        True    True     Unknown    2m45s

NAME                                                                  REFERENCE               TARGETS             MINPODS   MAXPODS   REPLICAS   AGE
horizontalpodautoscaler.autoscaling/keda-hpa-php-apache-cron-scaled   Deployment/php-apache   /1 (avg)   1         2         1          2m45s

NAME                                                   READY   STATUS    RESTARTS        AGE
pod/keda-admission-webhooks-68cf687cbf-l6lpx           1/1     Running   0               4m12s
pod/keda-operator-656478d687-4m47m                     1/1     Running   1 (3m59s ago)   4m12s
pod/keda-operator-metrics-apiserver-7fd585f657-xjltw   1/1     Running   0               4m12s
pod/php-apache-698db99f59-rkqxp                        1/1     Running   0               3m9s
# 위에서 ACTIVE인 이유는 현재 시각이 45분

$date
Sun May 21 22:50:43 KST 2023

# 50분이 되었으니 다시 명령 실행, 아래의 ACTIVE 속성이 'False'로 바뀜! ㄴ
$kubectl get ScaledObject,hpa,pod -n keda
NAME                                          SCALETARGETKIND      SCALETARGETNAME   MIN   MAX   TRIGGERS   AUTHENTICATION   READY   ACTIVE   FALLBACK   AGE
scaledobject.keda.sh/php-apache-cron-scaled   apps/v1.Deployment   php-apache        0     2     cron                        True    False    Unknown    4m15s

NAME                                                                  REFERENCE               TARGETS             MINPODS   MAXPODS   REPLICAS   AGE
horizontalpodautoscaler.autoscaling/keda-hpa-php-apache-cron-scaled   Deployment/php-apache   /1 (avg)   1         2         1          4m16s

NAME                                                   READY   STATUS    RESTARTS        AGE
pod/keda-admission-webhooks-68cf687cbf-l6lpx           1/1     Running   0               5m43s
pod/keda-operator-656478d687-4m47m                     1/1     Running   1 (5m30s ago)   5m43s
pod/keda-operator-metrics-apiserver-7fd585f657-xjltw   1/1     Running   0               5m43s
pod/php-apache-698db99f59-rkqxp                        1/1     Running   0               4m40s
# false 확인 가능!
$kubectl get ScaledObject,hpa,pod -n keda
NAME                                          SCALETARGETKIND      SCALETARGETNAME   MIN   MAX   TRIGGERS   AUTHENTICATION   READY   ACTIVE   FALLBACK   AGE
scaledobject.keda.sh/php-apache-cron-scaled   apps/v1.Deployment   php-apache        0     2     cron                        True    False    Unknown    4m47s

NAME                                                                  REFERENCE               TARGETS             MINPODS   MAXPODS   REPLICAS   AGE
horizontalpodautoscaler.autoscaling/keda-hpa-php-apache-cron-scaled   Deployment/php-apache   /1 (avg)   1         2         1          4m47s

NAME                                                   READY   STATUS    RESTARTS       AGE
pod/keda-admission-webhooks-68cf687cbf-l6lpx           1/1     Running   0              6m14s
pod/keda-operator-656478d687-4m47m                     1/1     Running   1 (6m1s ago)   6m14s
pod/keda-operator-metrics-apiserver-7fd585f657-xjltw   1/1     Running   0              6m14s
pod/php-apache-698db99f59-rkqxp                        1/1     Running   0              5m11s
$k get ScaledObject
No resources found in default namespace.
$kubectl get pod -n keda
NAME                                               READY   STATUS    RESTARTS        AGE
keda-admission-webhooks-68cf687cbf-l6lpx           1/1     Running   0               8m32s
keda-operator-656478d687-4m47m                     1/1     Running   1 (8m19s ago)   8m32s
keda-operator-metrics-apiserver-7fd585f657-xjltw   1/1     Running   0               8m32s
php-apache-698db99f59-rkqxp                        1/1     Running   0               7m29s

# ScaledObject 확인 가능! 
$kubectl describe -n keda ScaledObject
Name:         php-apache-cron-scaled
Namespace:    keda
Labels:       scaledobject.keda.sh/name=php-apache-cron-scaled
Annotations:  
API Version:  keda.sh/v1alpha1
Kind:         ScaledObject
Metadata:
  Creation Timestamp:  2023-05-21T13:46:48Z
  Finalizers:
    finalizer.keda.sh
  Generation:  1
  Managed Fields:
    API Version:  keda.sh/v1alpha1
    Fields Type:  FieldsV1
    fieldsV1:
      f:metadata:
        f:finalizers:
          .:
          v:"finalizer.keda.sh":
        f:labels:
          .:
          f:scaledobject.keda.sh/name:
    Manager:      keda
    Operation:    Update
    Time:         2023-05-21T13:46:48Z
    API Version:  keda.sh/v1alpha1
    Fields Type:  FieldsV1
    fieldsV1:
      f:status:
        .:
        f:conditions:
        f:externalMetricNames:
        f:hpaName:
        f:lastActiveTime:
        f:originalReplicaCount:
        f:scaleTargetGVKR:
          .:
          f:group:
          f:kind:
          f:resource:
          f:version:
        f:scaleTargetKind:
    Manager:      keda
    Operation:    Update
    Subresource:  status
    Time:         2023-05-21T13:46:48Z
    API Version:  keda.sh/v1alpha1
    Fields Type:  FieldsV1
    fieldsV1:
      f:metadata:
        f:annotations:
          .:
          f:kubectl.kubernetes.io/last-applied-configuration:
      f:spec:
        .:
        f:cooldownPeriod:
        f:maxReplicaCount:
        f:minReplicaCount:
        f:pollingInterval:
        f:scaleTargetRef:
          .:
          f:apiVersion:
          f:kind:
          f:name:
        f:triggers:
    Manager:         kubectl-client-side-apply
    Operation:       Update
    Time:            2023-05-21T13:46:48Z
  Resource Version:  10339
  UID:               ac336308-4464-4c86-87d8-307de28d4df5
Spec:
  Cooldown Period:    300
  Max Replica Count:  2
  Min Replica Count:  0
  Polling Interval:   30
  Scale Target Ref:
    API Version:  apps/v1
    Kind:         Deployment
    Name:         php-apache
  Triggers:
    Metadata:
      Desired Replicas:  1
      End:               05,20,35,50 * * * *
      Start:             00,15,30,45 * * * *
      Timezone:          Asia/Seoul
    Type:                cron
Status:
  Conditions:
    Message:  ScaledObject is defined correctly and is ready for scaling
    Reason:   ScaledObjectReady
    Status:   True
    Type:     Ready
    Message:  Scaler cooling down because triggers are not active
    Reason:   ScalerCooldown
    Status:   False
    Type:     Active
    Status:   Unknown
    Type:     Fallback
  External Metric Names:
    s0-cron-Asia-Seoul-00,15,30,45xxxx-05,20,35,50xxxx
  Hpa Name:                keda-hpa-php-apache-cron-scaled
  Last Active Time:        2023-05-21T13:49:48Z
  Original Replica Count:  1
  Scale Target GVKR:
    Group:            apps
    Kind:             Deployment
    Resource:         deployments
    Version:          v1
  Scale Target Kind:  apps/v1.Deployment
Events:
  Type    Reason              Age    From           Message
  ----    ------              ----   ----           -------
  Normal  KEDAScalersStarted  7m56s  keda-operator  Started scalers watch
  Normal  ScaledObjectReady   7m56s  keda-operator  ScaledObject is ready for scaling
$date
Sun May 21 22:55:17 KST 2023

keda-operator 자세히 확인!


$k -n keda describe pod keda-operator
Name:             keda-operator-656478d687-4m47m
Namespace:        keda
Priority:         0
Service Account:  keda-operator
Node:             ip-192-168-3-10.ap-northeast-2.compute.internal/192.168.3.10
Start Time:       Sun, 21 May 2023 22:45:21 +0900
Labels:           app=keda-operator
                  app.kubernetes.io/component=operator
                  app.kubernetes.io/instance=keda
                  app.kubernetes.io/managed-by=Helm
                  app.kubernetes.io/name=keda-operator
                  app.kubernetes.io/part-of=keda-operator
                  app.kubernetes.io/version=2.10.1
                  helm.sh/chart=keda-2.10.2
                  name=keda-operator
                  pod-template-hash=656478d687
Annotations:      container.seccomp.security.alpha.kubernetes.io/keda-operator: runtime/default
                  kubernetes.io/psp: eks.privileged
Status:           Running
IP:               192.168.3.180
IPs:
  IP:           192.168.3.180
Controlled By:  ReplicaSet/keda-operator-656478d687
Containers:
  keda-operator:
    Container ID:  containerd://e2fc885cb68003dce46ae15bb58f1b2156a4389bb55c6961cde0182fae232697
    Image:         ghcr.io/kedacore/keda:2.10.1
    Image ID:      ghcr.io/kedacore/keda@sha256:1489b706aa959a07765510edb579af34fa72636a26cfb755544c0ef776f3addf
    Port:          8080/TCP
    Host Port:     0/TCP
    Command:
      /keda
    Args:
      --leader-elect
      --zap-log-level=info
      --zap-encoder=console
      --zap-time-encoding=rfc3339
      --cert-dir=/certs
      --enable-cert-rotation=true
      --cert-secret-name=kedaorg-certs
      --operator-service-name=keda-operator
      --metrics-server-service-name=keda-operator-metrics-apiserver
      --webhooks-service-name=keda-admission-webhooks
      --metrics-bind-address=:8080
    State:          Running
      Started:      Sun, 21 May 2023 22:45:36 +0900
    Last State:     Terminated
      Reason:       Completed
      Exit Code:    0
      Started:      Sun, 21 May 2023 22:45:30 +0900
      Finished:     Sun, 21 May 2023 22:45:34 +0900
    Ready:          True
    Restart Count:  1
    Limits:
      cpu:     1
      memory:  1000Mi
    Requests:
      cpu:      100m
      memory:   100Mi
    Liveness:   http-get http://:8081/healthz delay=25s timeout=1s period=10s #success=1 #failure=3
    Readiness:  http-get http://:8081/readyz delay=20s timeout=1s period=10s #success=1 #failure=3
    Environment:
      WATCH_NAMESPACE:
      POD_NAME:                   keda-operator-656478d687-4m47m (v1:metadata.name)
      POD_NAMESPACE:              keda (v1:metadata.namespace)
      OPERATOR_NAME:              keda-operator
      KEDA_HTTP_DEFAULT_TIMEOUT:  3000
      KEDA_HTTP_MIN_TLS_VERSION:  TLS12
    Mounts:
      /certs from certificates (ro)
      /var/run/secrets/kubernetes.io/serviceaccount from kube-api-access-5ktsx (ro)
Conditions:
  Type              Status
  Initialized       True
  Ready             True
  ContainersReady   True
  PodScheduled      True
Volumes:
  certificates:
    Type:        Secret (a volume populated by a Secret)
    SecretName:  kedaorg-certs
    Optional:    true
  kube-api-access-5ktsx:
    Type:                    Projected (a volume that contains injected data from multiple sources)
    TokenExpirationSeconds:  3607
    ConfigMapName:           kube-root-ca.crt
    ConfigMapOptional:       
    DownwardAPI:             true
QoS Class:                   Burstable
Node-Selectors:              kubernetes.io/os=linux
Tolerations:                 node.kubernetes.io/not-ready:NoExecute op=Exists for 300s
                             node.kubernetes.io/unreachable:NoExecute op=Exists for 300s
Events:
  Type     Reason       Age                From               Message
  ----     ------       ----               ----               -------
  Normal   Scheduled    10m                default-scheduler  Successfully assigned keda/keda-operator-656478d687-4m47m to ip-192-168-3-10.ap-northeast-2.compute.internal
  Warning  FailedMount  10m                kubelet            MountVolume.SetUp failed for volume "certificates" : failed to sync secret cache: timed out waiting for the condition
  Normal   Pulled       10m                kubelet            Successfully pulled image "ghcr.io/kedacore/keda:2.10.1" in 6.362549579s
  Normal   Pulling      10m (x2 over 10m)  kubelet            Pulling image "ghcr.io/kedacore/keda:2.10.1"
  Normal   Created      10m (x2 over 10m)  kubelet            Created container keda-operator
  Normal   Started      10m (x2 over 10m)  kubelet            Started container keda-operator
  Normal   Pulled       10m                kubelet            Successfully pulled image "ghcr.io/kedacore/keda:2.10.1" in 699.131003ms

Name:             keda-operator-metrics-apiserver-7fd585f657-xjltw
Namespace:        keda
Priority:         0
Service Account:  keda-operator
Node:             ip-192-168-3-10.ap-northeast-2.compute.internal/192.168.3.10
Start Time:       Sun, 21 May 2023 22:45:21 +0900
Labels:           app=keda-operator-metrics-apiserver
                  app.kubernetes.io/component=operator
                  app.kubernetes.io/instance=keda
                  app.kubernetes.io/managed-by=Helm
                  app.kubernetes.io/name=keda-operator-metrics-apiserver
                  app.kubernetes.io/part-of=keda-operator
                  app.kubernetes.io/version=2.10.1
                  helm.sh/chart=keda-2.10.2
                  pod-template-hash=7fd585f657
Annotations:      container.seccomp.security.alpha.kubernetes.io/keda-operator-metrics-apiserver: runtime/default
                  kubernetes.io/psp: eks.privileged
Status:           Running
IP:               192.168.3.10
IPs:
  IP:           192.168.3.10
Controlled By:  ReplicaSet/keda-operator-metrics-apiserver-7fd585f657
Containers:
  keda-operator-metrics-apiserver:
    Container ID:  containerd://8eca27ff65b4e907ece4d4fe53b8b85920a1023ca070dc806f0c32be612134df
    Image:         ghcr.io/kedacore/keda-metrics-apiserver:2.10.1
    Image ID:      ghcr.io/kedacore/keda-metrics-apiserver@sha256:d1f1ccc8d14e33ee448ec0c820f65b8a3e01b2dad23d9fa38fa7204a6c0194ca
    Ports:         6443/TCP, 8080/TCP, 9022/TCP
    Host Ports:    6443/TCP, 8080/TCP, 9022/TCP
    Args:
      /usr/local/bin/keda-adapter
      --port=8080
      --secure-port=6443
      --logtostderr=true
      --metrics-service-address=keda-operator.keda.svc.cluster.local:9666
      --client-ca-file=/certs/ca.crt
      --tls-cert-file=/certs/tls.crt
      --tls-private-key-file=/certs/tls.key
      --cert-dir=/certs
      --metrics-port=9022
      --metrics-path=/metrics
      --v=0
    State:          Running
      Started:      Sun, 21 May 2023 22:45:46 +0900
    Ready:          True
    Restart Count:  0
    Limits:
      cpu:     1
      memory:  1000Mi
    Requests:
      cpu:      100m
      memory:   100Mi
    Liveness:   http-get https://:6443/healthz delay=5s timeout=1s period=10s #success=1 #failure=3
    Readiness:  http-get https://:6443/readyz delay=5s timeout=1s period=10s #success=1 #failure=3
    Environment:
      WATCH_NAMESPACE:
      POD_NAMESPACE:              keda (v1:metadata.namespace)
      KEDA_HTTP_DEFAULT_TIMEOUT:  3000
      KEDA_HTTP_MIN_TLS_VERSION:  TLS12
    Mounts:
      /certs from certificates (ro)
      /var/run/secrets/kubernetes.io/serviceaccount from kube-api-access-psqzd (ro)
Conditions:
  Type              Status
  Initialized       True
  Ready             True
  ContainersReady   True
  PodScheduled      True
Volumes:
  certificates:
    Type:        Secret (a volume populated by a Secret)
    SecretName:  kedaorg-certs
    Optional:    false
  kube-api-access-psqzd:
    Type:                    Projected (a volume that contains injected data from multiple sources)
    TokenExpirationSeconds:  3607
    ConfigMapName:           kube-root-ca.crt
    ConfigMapOptional:       
    DownwardAPI:             true
QoS Class:                   Burstable
Node-Selectors:              kubernetes.io/os=linux
Tolerations:                 node.kubernetes.io/not-ready:NoExecute op=Exists for 300s
                             node.kubernetes.io/unreachable:NoExecute op=Exists for 300s
Events:
  Type     Reason       Age                From               Message
  ----     ------       ----               ----               -------
  Normal   Scheduled    10m                default-scheduler  Successfully assigned keda/keda-operator-metrics-apiserver-7fd585f657-xjltw to ip-192-168-3-10.ap-northeast-2.compute.internal
  Warning  FailedMount  10m                kubelet            MountVolume.SetUp failed for volume "certificates" : failed to sync secret cache: timed out waiting for the condition
  Warning  FailedMount  10m (x4 over 10m)  kubelet            MountVolume.SetUp failed for volume "certificates" : secret "kedaorg-certs" not found
  Normal   Pulling      10m                kubelet            Pulling image "ghcr.io/kedacore/keda-metrics-apiserver:2.10.1"
  Normal   Pulled       10m                kubelet            Successfully pulled image "ghcr.io/kedacore/keda-metrics-apiserver:2.10.1" in 6.593596109s
  Normal   Created      10m                kubelet            Created container keda-operator-metrics-apiserver
  Normal   Started      10m                kubelet            Started container keda-operator-metrics-apiserver

결과가 진행된 그라파나 대시보드 사진(50분전에 시작하고,,, 55분에 끝나는 조금 이상하지만?!) 암튼 이벤트기반으로 스케일링된다!

[도전과제2] KEDA 활용 : Karpenter + KEDA로 특정 시간에 AutoScaling - 링크 Youtube Airflow

→ 은행의 월요일아침, 이벤트 추첨시간 등 대규모 트래픽이 예상되는 시간에 KEDA를 통해, 오토스케일링

CA - Cluster Autoscaler(CAS)

CA는 노드의 리소스를 파악하고, 리소스 메트릭에 의해 트리거되어 노드를 스케일링한다. 오토스케일러 동작을 위해 별도의 디플로이를 배포해둔다. CA는 pending 상태의 파드가 존재할 경우, 워커노드를 스케일 아웃한다.

클라우드 플랫폼에서 주로 사용하고, 실제 노드 리소스가 없는 데 파드를 배포해야 하면 신규 워커노드를 추가한다. 온프라미스에선 적용하긴 힘들다.

실습진행

일부로 워커노드가 감당못하게 request를 500m = 0.5 코어로 할당 → 스케일링을 통해 15개로 늘림 → 노드 부족!

$**aws autoscaling describe-auto-scaling-groups --query "AutoScalingGroups[? Tags[? (Key=='eks:cluster-name') && Value=='myeks']].[AutoScalingGroupName, MinSize, MaxSize,DesiredCapacity]" --output table**
-----------------------------------------------------------------
|                   DescribeAutoScalingGroups                   |
+------------------------------------------------+----+----+----+
|  eks-ng1-c2c41e26-6213-a429-9a58-02374389d5c3  |  3 |  6 |  3 |
+------------------------------------------------+----+----+----+
아래는 min, max, desired

# autuscaler 권한 확인(관련 태그)
$aws ec2 describe-instances  --filters Name=tag:Name,Values=$CLUSTER_NAME-ng1-Node --query "Reservations[*].Instances[*].Tags[*]" --output yaml | yh | grep autoscaler
    - Key: k8s.io/cluster-autoscaler/enabled
    - Key: k8s.io/cluster-autoscaler/myeks
    - Key: k8s.io/cluster-autoscaler/enabled
    - Key: k8s.io/cluster-autoscaler/myeks
    - Key: k8s.io/cluster-autoscaler/myeks
    - Key: k8s.io/cluster-autoscaler/enabled
# 아래의 테이블은 차례로, (min,max,desired)을 의미!
$aws autoscaling describe-auto-scaling-groups \
>     --query "AutoScalingGroups[? Tags[? (Key=='eks:cluster-name') && Value=='myeks']].[AutoScalingGroupName, MinSize, MaxSize,DesiredCapacity]" \
>     --output table
-----------------------------------------------------------------
|                   DescribeAutoScalingGroups                   |
+------------------------------------------------+----+----+----+
|  eks-ng1-cec41f38-acab-b45a-0479-ca4ecb1586cc  |  3 |  3 |  3 |
+------------------------------------------------+----+----+----+

$export ASG_NAME=$(aws autoscaling describe-auto-scaling-groups --query "AutoScalingGroups[? Tay=='eks:cluster-name') && Value=='myeks']].AutoScalingGroupName" --output text)
# MaxSize 6개로 수정
$aws autoscaling update-auto-scaling-group --auto-scaling-group-name ${ASG_NAME} --min-size 3 --desired-capacity 3 --max-size 6
# 정보 확인
$aws autoscaling describe-auto-scaling-groups --query "AutoScalingGroups[? Tags[? (Key=='eks:cluster-name') && Value=='myeks']].[AutoScalingGroupName, MinSize, MaxSize,DesiredCapacity]" --output table
-----------------------------------------------------------------
|                   DescribeAutoScalingGroups                   |
+------------------------------------------------+----+----+----+
|  eks-ng1-cec41f38-acab-b45a-0479-ca4ecb1586cc  |  3 |  6 |  3 |
+------------------------------------------------+----+----+----+

# 배포 : Deploy the Cluster Autoscaler (CA)
$curl -s -O https://raw.githubusercontent.com/kubernetes/autoscaler/master/cluster-autoscaler/cloudprovider/aws/examples/cluster-autoscaler-autodiscover.yaml
$sed -i "s//$CLUSTER_NAME/g" cluster-autoscaler-autodiscover.yaml
$kubectl apply -f cluster-autoscaler-autodiscover.yaml
serviceaccount/cluster-autoscaler created
clusterrole.rbac.authorization.k8s.io/cluster-autoscaler created
role.rbac.authorization.k8s.io/cluster-autoscaler created
clusterrolebinding.rbac.authorization.k8s.io/cluster-autoscaler created
rolebinding.rbac.authorization.k8s.io/cluster-autoscaler created
deployment.apps/cluster-autoscaler created
$kubectl get pod -n kube-system | grep cluster-autoscaler
cluster-autoscaler-74785c8d45-wrtjp             0/1     ContainerCreating   0          7s
$kubectl describe deployments.apps -n kube-system cluster-autoscaler
Name:                   cluster-autoscaler
Namespace:              kube-system
CreationTimestamp:      Sun, 21 May 2023 23:16:38 +0900
Labels:                 app=cluster-autoscaler
Annotations:            deployment.kubernetes.io/revision: 1
Selector:               app=cluster-autoscaler
Replicas:               1 desired | 1 updated | 1 total | 1 available | 0 unavailable
StrategyType:           RollingUpdate
MinReadySeconds:        0
RollingUpdateStrategy:  25% max unavailable, 25% max surge
Pod Template:
  Labels:           app=cluster-autoscaler
  Annotations:      prometheus.io/port: 8085
                    prometheus.io/scrape: true
  Service Account:  cluster-autoscaler
  Containers:
   cluster-autoscaler:
    Image:      registry.k8s.io/autoscaling/cluster-autoscaler:v1.26.2
    Port:       
    Host Port:  
    Command:
      ./cluster-autoscaler
      --v=4
      --stderrthreshold=info
      --cloud-provider=aws
      --skip-nodes-with-local-storage=false
      --expander=least-waste
      --node-group-auto-discovery=asg:tag=k8s.io/cluster-autoscaler/enabled,k8s.io/cluster-autoscaler/myeks
    Limits:
      cpu:     100m
      memory:  600Mi
    Requests:
      cpu:        100m
      memory:     600Mi
    Environment:  
    Mounts:
      /etc/ssl/certs/ca-certificates.crt from ssl-certs (ro)
  Volumes:
   ssl-certs:
    Type:               HostPath (bare host directory volume)
    Path:               /etc/ssl/certs/ca-bundle.crt
    HostPathType:
  Priority Class Name:  system-cluster-critical
Conditions:
  Type           Status  Reason
  ----           ------  ------
  Available      True    MinimumReplicasAvailable
  Progressing    True    NewReplicaSetAvailable
OldReplicaSets:  
NewReplicaSet:   cluster-autoscaler-74785c8d45 (1/1 replicas created)
Events:
  Type    Reason             Age   From                   Message
  ----    ------             ----  ----                   -------
  Normal  ScalingReplicaSet  18s   deployment-controller  Scaled up replica set cluster-autoscaler-74785c8d45 to 1
$kubectl -n kube-system annotate deployment.apps/cluster-autoscaler cluster-autoscaler.kubernetes.io/safe-to-evict="false"^C
$kubectl -n kube-system annotate deployment.apps/cluster-autoscaler cluster-autoscaler.kubernetes.io/safe-to-evict="false"^C
# (옵션) cluster-autoscaler 파드가 동작하는 워커 노드가 퇴출(evict) 되지 않게 설정
$kubectl -n kube-system annotate deployment.apps/cluster-autoscaler cluster-autoscaler.kubernetes.io/safe-to-evict="false"
deployment.apps/cluster-autoscaler annotated

테스트 진행, 파드 하나당 리소스 요청량을 크게 잡고, 스케일아웃하여 오토스케일링이 정상적으로 작동되나 확인

$cat < nginx.yaml
> apiVersion: apps/v1
> kind: Deployment
> metadata:
>   name: nginx-to-scaleout
> spec:
>   replicas: 1
>   selector:
>     matchLabels:
>       app: nginx
>   template:
>     metadata:
>       labels:
>         service: nginx
>         app: nginx
>     spec:
>       containers:
>       - image: nginx
>         name: nginx-to-scaleout
>         resources:
>           limits:
>             cpu: 500m
>             memory: 512Mi
>           requests:
>             cpu: 500m
>             memory: 512Mi
> EoF
$kubectl apply -f nginx.yaml
deployment.apps/nginx-to-scaleout created
$kubectl get deployment/nginx-to-scaleout
NAME                READY   UP-TO-DATE   AVAILABLE   AGE
nginx-to-scaleout   0/1     1            0           3s

# 파드 개수 증가
$kubectl scale --replicas=15 deployment/nginx-to-scaleout && date
deployment.apps/nginx-to-scaleout scaled
Sun May 21 23:18:42 KST 2023
$kubectl get pods -l app=nginx -o wide --watch
NAME                                 READY   STATUS    RESTARTS   AGE    IP              NODE                                               NOMINATED NODE   READINESS GATES
nginx-to-scaleout-79df8996f6-2vjqm   1/1     Running   0          82s    192.168.3.11    ip-192-168-3-6.ap-northeast-2.compute.internal                
nginx-to-scaleout-79df8996f6-5pc5k   1/1     Running   0          82s    192.168.3.221   ip-192-168-3-6.ap-northeast-2.compute.internal                
nginx-to-scaleout-79df8996f6-5wvgl   1/1     Running   0          82s    192.168.2.172   ip-192-168-2-104.ap-northeast-2.compute.internal              
nginx-to-scaleout-79df8996f6-8bbc9   1/1     Running   0          82s    192.168.3.188   ip-192-168-3-10.ap-northeast-2.compute.internal               
nginx-to-scaleout-79df8996f6-9j5rx   1/1     Running   0          2m4s   192.168.3.88    ip-192-168-3-10.ap-northeast-2.compute.internal               
nginx-to-scaleout-79df8996f6-9kks9   1/1     Running   0          82s    192.168.1.166   ip-192-168-1-146.ap-northeast-2.compute.internal              
nginx-to-scaleout-79df8996f6-b5qmk   1/1     Running   0          82s    192.168.2.32    ip-192-168-2-104.ap-northeast-2.compute.internal              
nginx-to-scaleout-79df8996f6-c5hhq   1/1     Running   0          82s    192.168.1.127   ip-192-168-1-189.ap-northeast-2.compute.internal              
nginx-to-scaleout-79df8996f6-dzwsn   1/1     Running   0          82s    192.168.1.10    ip-192-168-1-146.ap-northeast-2.compute.internal              
nginx-to-scaleout-79df8996f6-nlnjq   1/1     Running   0          82s    192.168.2.253   ip-192-168-2-104.ap-northeast-2.compute.internal              
nginx-to-scaleout-79df8996f6-qmg8v   1/1     Running   0          82s    192.168.1.5     ip-192-168-1-189.ap-northeast-2.compute.internal              
nginx-to-scaleout-79df8996f6-rn7sw   1/1     Running   0          82s    192.168.1.130   ip-192-168-1-146.ap-northeast-2.compute.internal              
nginx-to-scaleout-79df8996f6-sd4rs   1/1     Running   0          82s    192.168.1.249   ip-192-168-1-189.ap-northeast-2.compute.internal              
nginx-to-scaleout-79df8996f6-wrw9d   1/1     Running   0          82s    192.168.3.91    ip-192-168-3-10.ap-northeast-2.compute.internal               
nginx-to-scaleout-79df8996f6-wwz6f   1/1     Running   0          82s    192.168.3.121   ip-192-168-3-6.ap-northeast-2.compute.internal                
# 노드가 추가적으로 붙는 모습, 관련된 eks-node-view, 그라파나 사진도 아래에 있습니다.
$kubectl get nodes
NAME                                               STATUS   ROLES    AGE   VERSION
ip-192-168-1-146.ap-northeast-2.compute.internal   Ready       38s   v1.24.13-eks-0a21954
ip-192-168-1-189.ap-northeast-2.compute.internal   Ready       65m   v1.24.13-eks-0a21954
ip-192-168-2-104.ap-northeast-2.compute.internal   Ready       65m   v1.24.13-eks-0a21954
ip-192-168-3-10.ap-northeast-2.compute.internal    Ready       65m   v1.24.13-eks-0a21954
ip-192-168-3-6.ap-northeast-2.compute.internal     Ready       37s   v1.24.13-eks-0a21954
# 테이블로 확인
$aws autoscaling describe-auto-scaling-groups \
>     --query "AutoScalingGroups[? Tags[? (Key=='eks:cluster-name') && Value=='myeks']].[AutoScalingGroupName, MinSize, MaxSize,DesiredCapacity]" \
>     --output table
-----------------------------------------------------------------
|                   DescribeAutoScalingGroups                   |
+------------------------------------------------+----+----+----+
|  eks-ng1-cec41f38-acab-b45a-0479-ca4ecb1586cc  |  3 |  6 |  5 |
+------------------------------------------------+----+----+----+
$kubectl delete -f nginx.yaml && date
deployment.apps "nginx-to-scaleout" deleted
Sun May 21 23:21:27 KST 2023

# 자동으로 삭제되는 데, 시간이 10분이상 지체되어 삭제!

파드의 개수를 증가하자, CPU 사용량 폭증

kube-ops-view에서도 할당못받는 파드를 확인가능

노드가 오토스케일링되어, 증가되는 것을 확인가능!

삭제 후 사용량이 작아진 모습

데몬셋도 적고, 여러 가지 노드의 기본적인 세팅이 별로 없어서 테스트 결과 빠르지만, 실제 운영환경에서는 빠르지 않음! → 자동으로 축소하는 10분정도로 시간도 느리다. (실제 환경이면 기본적으로 배포하는 것들이 많아 더 느리다고 한다.)

CPA - Cluster Proportional Autoscaler

coredns 파드와 같이 클러스터가 커질수록 부하가 증가하는 중요한 파드는 노드의 개수에 비례해서 파드를 오토스케일링한다. CPA는 노드 비례 파드 스케일링이다. 직접 규칙을 만들어서 정책을 수립한다. Metrics server 등을 사용하지 않고 kubapi server API를 사용합니다. 사용자 입장에서는 적절한 규칙만 세우면 된다.!

배포!

$helm repo add cluster-proportional-autoscaler https://kubernetes-sigs.github.io/cluster-proportional-autoscaler
"cluster-proportional-autoscaler" already exists with the same configuration, skipping

# cluster-proportional-autoscaler 부터 배포!
$helm upgrade --install cluster-proportional-autoscaler cluster-proportional-autoscaler/cluster-proportional-autoscaler
Release "cluster-proportional-autoscaler" does not exist. Installing it now.

$cat < cpa-nginx.yaml
> apiVersion: apps/v1
> kind: Deployment
> metadata:
>   name: nginx-deployment
> spec:
>   replicas: 1
>   selector:
>     matchLabels:
>       app: nginx
>   template:
>     metadata:
>       labels:
>         app: nginx
>     spec:
>       containers:
>       - name: nginx
>         image: nginx:latest
>         resources:
>           limits:
>             cpu: "100m"
>             memory: "64Mi"
>           requests:
>             cpu: "100m"
>             memory: "64Mi"
>         ports:
>         - containerPort: 80
> EOT
$kubectl apply -f cpa-nginx.yaml

deployment.apps/nginx-deployment created

# 아래의 규칙 확인
$cat < cpa-values.yaml
> config:
>   ladder:
>     nodesToReplicas:
>       - [1, 1]
>       - [2, 2]
>       - [3, 3]
>       - [4, 3]
>       - [5, 5]
> options:
>   namespace: default
>   target: "deployment/nginx-deployment"
> EOF

$helm upgrade --install cluster-proportional-autoscaler -f cpa-values.yaml cluster-proportional-autoscaler/cluster-proportional-autoscaler
NAME: cluster-proportional-autoscaler
LAST DEPLOYED: Sun May 21 23:57:59 2023
NAMESPACE: default
STATUS: deployed
REVISION: 1
TEST SUITE: None
autoscaler  awscliv2.zip    cpa-values.yaml  externaldns.yaml  irsa.yaml         krew-linux_amd64.tar.gz  kube-ps1  monitor-values.yaml  precmd.yaml
aws         cpa-nginx.yaml  create-eks.log   go                krew-linux_amd64  kubectl                  LICENSE   myeks.yaml           yh-linux-amd64.zip
addon-resizer  balancer  builder  charts  cluster-autoscaler  code-of-conduct.md  CONTRIBUTING.md  hack  LICENSE  OWNERS  README.md  SECURITY_CONTACTS  vertical-pod-autoscaler

$helm repo add cluster-proportional-autoscaler https://kubernetes-sigs.github.io/cluster-proportional-autoscaler
"cluster-proportional-autoscaler" already exists with the same configuration, skipping
$helm upgrade --install cluster-proportional-autoscaler cluster-proportional-autoscaler/cluster-proportional-autoscaler
Release "cluster-proportional-autoscaler" has been upgraded. Happy Helming!
NAME: cluster-proportional-autoscaler
LAST DEPLOYED: Sun May 21 23:59:35 2023
NAMESPACE: default
STATUS: deployed
REVISION: 2
TEST SUITE: None

$helm upgrade --install cluster-proportional-autoscaler -f cpa-values.yaml cluster-proportional-autoscaler/cluster-proportional-autoscaler
Release "cluster-proportional-autoscaler" has been upgraded. Happy Helming!
NAME: cluster-proportional-autoscaler
LAST DEPLOYED: Sun May 21 23:59:49 2023
NAMESPACE: default
STATUS: deployed
REVISION: 3
TEST SUITE: None

이제 노드를 증가시켜 테스트! 아래는 [노드, 파드] 테이블이다. [1, 1], [2, 2], [3, 3], [4, 3], [5, 5]


$export ASG_NAME=$(aws autoscaling describe-auto-scaling-groups --query "AutoScalingGroups[? Tags[? (Key=='eks:cluster-name') && Value=='myeks']].AutoScalingGroupName" --output text)
# 노드 5개로 증가
$aws autoscaling update-auto-scaling-group --auto-scaling-group-name ${ASG_NAME} --min-size 5 --desired-capacity 5 --max-size 5
$aws autoscaling describe-auto-scaling-groups --query "AutoScalingGroups[? Tags[? (Key=='eks:cluster-name') && Value=='myeks']].[AutoScalingGroupName, MinSize, MaxSize,DesiredCapacity]" --output table
-----------------------------------------------------------------
|                   DescribeAutoScalingGroups                   |
+------------------------------------------------+----+----+----+
|  eks-ng1-cec41f38-acab-b45a-0479-ca4ecb1586cc  |  5 |  5 |  5 |
+------------------------------------------------+----+----+----+

# 노드 3개
$k get no
NAME                                               STATUS   ROLES    AGE    VERSION
ip-192-168-1-146.ap-northeast-2.compute.internal   Ready       41m    v1.24.13-eks-0a21954
ip-192-168-2-104.ap-northeast-2.compute.internal   Ready       105m   v1.24.13-eks-0a21954
ip-192-168-3-6.ap-northeast-2.compute.internal     Ready       41m    v1.24.13-eks-0a21954

# 파드 3개, [3,3] 규칙만족
$k get po
NAME                                               READY   STATUS    RESTARTS   AGE
cluster-proportional-autoscaler-75bddf49cb-lwhxs   1/1     Running   0          2m46s
nginx-deployment-858477475d-8lj5g                  1/1     Running   0          2m45s
nginx-deployment-858477475d-l8rsd                  1/1     Running   0          2m45s
nginx-deployment-858477475d-z8jbb                  1/1     Running   0          3m1s

# 노드를 5개로 스케일링, [5,5] 규칙확인
$k get no
NAME                                               STATUS     ROLES    AGE    VERSION
ip-192-168-1-146.ap-northeast-2.compute.internal   Ready         41m    v1.24.13-eks-0a21954
ip-192-168-2-104.ap-northeast-2.compute.internal   Ready         106m   v1.24.13-eks-0a21954
ip-192-168-2-217.ap-northeast-2.compute.internal   Ready         17s    v1.24.13-eks-0a21954
ip-192-168-3-6.ap-northeast-2.compute.internal     Ready         41m    v1.24.13-eks-0a21954
ip-192-168-3-76.ap-northeast-2.compute.internal    NotReady      6s     v1.24.13-eks-0a21954

# 파드가 5개로 만족하는 것을 볼 수 있음
$k get po
NAME                                               READY   STATUS    RESTARTS   AGE
cluster-proportional-autoscaler-75bddf49cb-lwhxs   1/1     Running   0          3m24s
nginx-deployment-858477475d-8lj5g                  1/1     Running   0          3m23s
nginx-deployment-858477475d-jv2z6                  1/1     Running   0          23s
nginx-deployment-858477475d-l8rsd                  1/1     Running   0          3m23s
nginx-deployment-858477475d-rpd2s                  1/1     Running   0          23s
nginx-deployment-858477475d-z8jbb                  1/1     Running   0          3m39s

# 노드를 4개로 스케일링
$aws autoscaling update-auto-scaling-group --auto-scaling-group-name ${ASG_NAME} --min-size 4 --desired-capacity 4 --max-size 4
# 노드 하나로 줄어서 이제 파드도 한개 줄어야함
# 죽지 않고, 스케줄불가 상태로 두면 알아서, [4,4] 규칙 만족
$k get no
NAME                                               STATUS                     ROLES    AGE    VERSION
ip-192-168-1-146.ap-northeast-2.compute.internal   Ready                         42m    v1.24.13-eks-0a21954
ip-192-168-2-104.ap-northeast-2.compute.internal   Ready,SchedulingDisabled      107m   v1.24.13-eks-0a21954
ip-192-168-2-217.ap-northeast-2.compute.internal   Ready                         74s    v1.24.13-eks-0a21954
ip-192-168-3-6.ap-northeast-2.compute.internal     Ready                         42m    v1.24.13-eks-0a21954
ip-192-168-3-76.ap-northeast-2.compute.internal    Ready                         63s    v1.24.13-eks-0a21954
$k get po
NAME                                               READY   STATUS    RESTARTS   AGE
cluster-proportional-autoscaler-75bddf49cb-lwhxs   1/1     Running   0          4m6s
nginx-deployment-858477475d-jv2z6                  1/1     Running   0          65s
nginx-deployment-858477475d-l8rsd                  1/1     Running   0          4m5s
nginx-deployment-858477475d-z8jbb                  1/1     Running   0          4m21s
#  - [4, 3] 테이블 규칙 만족
$aws autoscaling describe-auto-scaling-groups --query "AutoScalingGroups[? Tags[? (Key=='eks:cluster-name') && Value=='myeks']].[AutoScalingGroupName, MinSize, MaxSize,DesiredCapacity]" --output table
-----------------------------------------------------------------
|                   DescribeAutoScalingGroups                   |
+------------------------------------------------+----+----+----+
|  eks-ng1-cec41f38-acab-b45a-0479-ca4ecb1586cc  |  4 |  4 |  4 |
+------------------------------------------------+----+----+----+
$helm uninstall cluster-proportional-autoscaler && kubectl delete -f cpa-nginx.yaml
release "cluster-proportional-autoscaler" uninstalled
deployment.apps "nginx-deployment" deleted

Karpenter 실습 환경 준비를 위해서 현재 EKS 실습 환경 전부 삭제

$helm uninstall -n kube-system kube-ops-view
release "kube-ops-view" uninstalled
$helm uninstall -n monitoring kube-prometheus-stack
release "kube-prometheus-stack" uninstalled
$eksctl delete cluster --name $CLUSTER_NAME && aws cloudformation delete-stack --stack-name $CLUSTER_NAME

Karpenter : K8S Native AutoScaler & Fargate

Karpenter는 오픈소스 노드 수명주기 관리 솔루션으로, 기존 오토스케일링 툴과는 다르게 초단위로 컴퓨팅 리소스를 제공한다. 아래의 그림과 같이 기존의 오토스케일링에서 거치던 단계를 생략하기에 가능하다. 자세한 내용은 스터디원분의 블로그를 참고하면 된다.

linuxer 정태환님이 EKS Nodeless 컨셉을 정리해주셨다! 링크

시간이 어느정도 걸려서 배포부터 진행 → 작업용 EC2만 만들어짐, 스택이름을 기존과 일부로 구분!

# 환경 변수 확인
$export | egrep 'ACCOUNT|AWS_|CLUSTER' | egrep -v 'SECRET|KEY'
declare -x ACCOUNT_ID="871103481195"
declare -x AWS_ACCOUNT_ID="871103481195"
declare -x AWS_DEFAULT_REGION="ap-northeast-2"
declare -x AWS_PAGER=""
declare -x AWS_REGION="ap-northeast-2"
declare -x CLUSTER_NAME="myeks2"

# 환경변수 설정
$export KARPENTER_VERSION=v0.27.5
$export TEMPOUT=$(mktemp)
$echo $KARPENTER_VERSION $CLUSTER_NAME $AWS_DEFAULT_REGION $AWS_ACCOUNT_ID $TEMPOUT
v0.27.5 myeks2 ap-northeast-2 871103481195 /tmp/tmp.X5iRenSltU

# CloudFormation 스택으로 IAM Policy, Role, EC2 Instance Profile 생성 : 3분 정도 소요
$curl -fsSL https://karpenter.sh/"${KARPENTER_VERSION}"/getting-started/getting-started-with-karpenter/cloudformation.yaml  > $TEMPOUT \
> && aws cloudformation deploy \
>   --stack-name "Karpenter-${CLUSTER_NAME}" \
>   --template-file "${TEMPOUT}" \
>   --capabilities CAPABILITY_NAMED_IAM \
>   --parameter-overrides "ClusterName=${CLUSTER_NAME}"
Waiting for changeset to be created..
No changes to deploy. Stack Karpenter-myeks2 is up to date

클러스터 생성

배포 파일
```
  eksctl create cluster -f - <
```


클러스터 생성 확인
# 클러스터 생성 완료, eks 배포 확인
$eksctl get cluster
NAME    REGION        EKSCTL CREATED
myeks2    ap-northeast-2    True

$eksctl get nodegroup --cluster $CLUSTER_NAME
CLUSTER    NODEGROUP    STATUS    CREATED            MIN SIZE    MAX SIZE    DESIRED CAPACITY    INSTANCE TYPE    IMAGE ID    ASG NAME                        TYPE
myeks2    myeks2-ng    ACTIVE    2023-05-22T10:04:38Z    1        10        2            m5.large    AL2_x86_64    eks-myeks2-ng-56c42175-7bbd-1c3a-4e92-b89992023b8c    managed

$eksctl get iamidentitymapping --cluster $CLUSTER_NAME
ARN                                                USERNAME            GROUPS                    ACCOUNT
arn:aws:iam::871103481195:role/KarpenterNodeRole-myeks2                        system:node:{{EC2PrivateDNSName}}    system:bootstrappers,system:nodes
arn:aws:iam::871103481195:role/eksctl-myeks2-nodegroup-myeks2-ng-NodeInstanceRole-1B2P33I00KCYF    system:node:{{EC2PrivateDNSName}}    system:bootstrappers,system:nodes

$eksctl get iamserviceaccount --cluster $CLUSTER_NAME
NAMESPACE    NAME        ROLE ARN
karpenter    karpenter    arn:aws:iam::871103481195:role/myeks2-karpenter
kube-system    aws-node    arn:aws:iam::871103481195:role/eksctl-myeks2-addon-iamserviceaccount-kube-s-Role1-18H2GYOABHE8X

# $eksctl get addon --cluster $CLUSTER_NAME
# 2023-05-22 20:41:43 [ℹ]  Kubernetes version "1.24" in use by cluster "myeks2"
# 2023-05-22 20:41:43 [ℹ]  getting all addons
# No addons found

# kubernetes cluster 정보 확인
$kubectl cluster-info
Kubernetes control plane is running at https://AC31499751431C8E285778113EC3F0B3.gr7.ap-northeast-2.eks.amazonaws.com
CoreDNS is running at https://AC31499751431C8E285778113EC3F0B3.gr7.ap-northeast-2.eks.amazonaws.com/api/v1/namespaces/kube-system/services/kube-dns:dns/proxy
To further debug and diagnose cluster problems, use 'kubectl cluster-info dump'.

$kubectl get node --label-columns=node.kubernetes.io/instance-type,eks.amazonaws.com/capacityType,topology.kubernetes.io/zone
NAME                                                STATUS   ROLES    AGE   VERSION                INSTANCE-TYPE   CAPACITYTYPE   ZONE
ip-192-168-30-154.ap-northeast-2.compute.internal   Ready       96m   v1.24.13-eks-0a21954   m5.large        ON_DEMAND      ap-northeast-2a
ip-192-168-86-220.ap-northeast-2.compute.internal   Ready       96m   v1.24.13-eks-0a21954   m5.large        ON_DEMAND      ap-northeast-2c

$kubectl get pod -n kube-system -owide
NAME                      READY   STATUS    RESTARTS   AGE    IP               NODE                                                NOMINATED NODE   READINESS GATES
aws-node-9fh2n            1/1     Running   0          96m    192.168.86.220   ip-192-168-86-220.ap-northeast-2.compute.internal              
aws-node-tk9mc            1/1     Running   0          96m    192.168.30.154   ip-192-168-30-154.ap-northeast-2.compute.internal              
coredns-dc4979556-98j9g   1/1     Running   0          104m   192.168.26.223   ip-192-168-30-154.ap-northeast-2.compute.internal              
coredns-dc4979556-lw7gf   1/1     Running   0          104m   192.168.6.105    ip-192-168-30-154.ap-northeast-2.compute.internal              
kube-proxy-gzs29          1/1     Running   0          96m    192.168.86.220   ip-192-168-86-220.ap-northeast-2.compute.internal              
kube-proxy-hlnpt          1/1     Running   0          96m    192.168.30.154   ip-192-168-30-154.ap-northeast-2.compute.internal              

$kubectl describe cm -n kube-system aws-auth
Name:         aws-auth
Namespace:    kube-system
Labels:       
Annotations:  

Data
====
mapRoles:
----
- groups:
  - system:bootstrappers
  - system:nodes
  ## 주요
  rolearn: arn:aws:iam::871103481195:role/KarpenterNodeRole-myeks2
  username: system:node:{{EC2PrivateDNSName}}
- groups:
  - system:bootstrappers
  - system:nodes
  ## 주요
  rolearn: arn:aws:iam::871103481195:role/eksctl-myeks2-nodegroup-myeks2-ng-NodeInstanceRole-1B2P33I00KCYF
  username: system:node:{{EC2PrivateDNSName}}

mapUsers:
----
[]

BinaryData
====

Events:  

 카펜터 설치!
# 설정 변수 대입
$export CLUSTER_ENDPOINT="$(aws eks describe-cluster --name ${CLUSTER_NAME} --query "cluster.endpoint" --output text)"
$export KARPENTER_IAM_ROLE_ARN="arn:aws:iam::${AWS_ACCOUNT_ID}:role/${CLUSTER_NAME}-karpenter"
$echo $CLUSTER_ENDPOINT $KARPENTER_IAM_ROLE_ARN
https://AC31499751431C8E285778113EC3F0B3.gr7.ap-northeast-2.eks.amazonaws.com arn:aws:iam::871103481195:role/myeks2-karpenter

# IAM 생성
$aws iam create-service-linked-role --aws-service-name spot.amazonaws.com || true
{
    "Role": {
        "Path": "/aws-service-role/spot.amazonaws.com/",
        "RoleName": "AWSServiceRoleForEC2Spot",
        "RoleId": "AROA4VUOQIVVYLQHDALB7",
        "Arn": "arn:aws:iam::871103481195:role/aws-service-role/spot.amazonaws.com/AWSServiceRoleForEC2Spot",
        "CreateDate": "2023-05-22T11:42:43+00:00",
        "AssumeRolePolicyDocument": {
            "Version": "2012-10-17",
            "Statement": [
                {
                    "Action": [
                        "sts:AssumeRole"
                    ],
                    "Effect": "Allow",
                    "Principal": {
                        "Service": [
                            "spot.amazonaws.com"
                        ]
                    }
                }
            ]
        }
    }
}

# docker logout : Logout of docker to perform an unauthenticated pull against the public ECR
$docker logout public.ecr.aws
Removing login credentials for public.ecr.aws

# karpenter 설치
$helm upgrade --install karpenter oci://public.ecr.aws/karpenter/karpenter --version ${KARPENTER_VERSION} --namespace karpenter --create-namespace \
>   --set serviceAccount.annotations."eks\.amazonaws\.com/role-arn"=${KARPENTER_IAM_ROLE_ARN} \
>   --set settings.aws.clusterName=${CLUSTER_NAME} \
>   --set settings.aws.defaultInstanceProfile=KarpenterNodeInstanceProfile-${CLUSTER_NAME} \
>   --set settings.aws.interruptionQueueName=${CLUSTER_NAME} \
>   --set controller.resources.requests.cpu=1 \
>   --set controller.resources.requests.memory=1Gi \
>   --set controller.resources.limits.cpu=1 \
>   --set controller.resources.limits.memory=1Gi \
>   --wait
Release "karpenter" does not exist. Installing it now.
Pulled: public.ecr.aws/karpenter/karpenter:v0.27.5
Digest: sha256:9491ba645592ab9485ca8ce13f53193826044522981d75975897d229b877d4c2
NAME: karpenter
LAST DEPLOYED: Mon May 22 20:42:54 2023
NAMESPACE: karpenter
STATUS: deployed
REVISION: 1
TEST SUITE: None

# karpenter 설치 확인
$kubectl get-all -n karpenter
NAME                                                 NAMESPACE  AGE
configmap/config-logging                             karpenter  17s
configmap/karpenter-global-settings                  karpenter  17s
configmap/kube-root-ca.crt                           karpenter  17s
endpoints/karpenter                                  karpenter  17s
pod/karpenter-6c6bdb7766-2kq5b                       karpenter  16s
pod/karpenter-6c6bdb7766-bj6nn                       karpenter  16s
secret/karpenter-cert                                karpenter  17s
secret/sh.helm.release.v1.karpenter.v1               karpenter  17s
serviceaccount/default                               karpenter  17s
serviceaccount/karpenter                             karpenter  17s
service/karpenter                                    karpenter  17s
deployment.apps/karpenter                            karpenter  17s
replicaset.apps/karpenter-6c6bdb7766                 karpenter  17s
lease.coordination.k8s.io/karpenter-leader-election  karpenter  8s
endpointslice.discovery.k8s.io/karpenter-mt5ph       karpenter  17s
poddisruptionbudget.policy/karpenter                 karpenter  17s
rolebinding.rbac.authorization.k8s.io/karpenter      karpenter  17s
role.rbac.authorization.k8s.io/karpenter             karpenter  17s

$kubectl get cm -n karpenter karpenter-global-settings -o jsonpath={.data} | jq
{
  "aws.clusterEndpoint": "",
  "aws.clusterName": "myeks2",
  "aws.defaultInstanceProfile": "KarpenterNodeInstanceProfile-myeks2",
  "aws.enableENILimitedPodDensity": "true",
  "aws.enablePodENI": "false",
  "aws.interruptionQueueName": "myeks2",
  "aws.isolatedVPC": "false",
  "aws.nodeNameConvention": "ip-name",
  "aws.vmMemoryOverheadPercent": "0.075",
  "batchIdleDuration": "1s",
  "batchMaxDuration": "10s",
  "featureGates.driftEnabled": "false"
}

$kubectl get crd | grep karpenter
awsnodetemplates.karpenter.k8s.aws           2023-05-22T11:42:54Z
provisioners.karpenter.sh                    2023-05-22T11:42:54Z



Create Provisioner : 관리 리소스는 securityGroupSelector and subnetSelector 로 찾음, ttlSecondsAfterEmpty(미사용 노드 정리, 데몬셋 제외)


provisioner install
$cat < apiVersion: karpenter.sh/v1alpha5
> kind: Provisioner
> metadata:
>   name: default
> spec:
>   requirements:
>     - key: karpenter.sh/capacity-type
>       operator: In
>       values: ["spot"]
>   limits:
>     resources:
>       cpu: 1000
>   providerRef:
>     name: default
>   ttlSecondsAfterEmpty: 30
> ---
> apiVersion: karpenter.k8s.aws/v1alpha1
> kind: AWSNodeTemplate
> metadata:
>   name: default
> spec:
>   subnetSelector:
>     karpenter.sh/discovery: ${CLUSTER_NAME}
>   securityGroupSelector:
>     karpenter.sh/discovery: ${CLUSTER_NAME}
> EOF
provisioner.karpenter.sh/default created
awsnodetemplate.karpenter.k8s.aws/default created

provisioners 설치 확인
$kubectl get awsnodetemplates,provisioners
NAME                                        AGE
awsnodetemplate.karpenter.k8s.aws/default   9s

NAME                               AGE
provisioner.karpenter.sh/default   9s

external dns, kube-ops-view, 그라파나, 프로메테우스 설치!
$helm repo add grafana-charts https://grafana.github.io/helm-charts
"grafana-charts" has been added to your repositories
$helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
"prometheus-community" has been added to your repositories
$helm repo update
Hang tight while we grab the latest from your chart repositories...
...Successfully got an update from the "grafana-charts" chart repository
...Successfully got an update from the "prometheus-community" chart repository
Update Complete. ⎈Happy Helming!⎈
$kubectl create namespace monitoring
namespace/monitoring created
$curl -fsSL https://karpenter.sh/"${KARPENTER_VERSION}"/getting-started/getting-started-with-karpenter/prometheus-values.yaml | tee prometheus-values.yaml
alertmanager:
  persistentVolume:
    enabled: false

server:
  fullnameOverride: prometheus-server
  persistentVolume:
    enabled: false

extraScrapeConfigs: |
    - job_name: karpenter
      kubernetes_sd_configs:
      - role: endpoints
        namespaces:
          names:
          - karpenter
      relabel_configs:
      - source_labels: [__meta_kubernetes_endpoint_port_name]
        regex: http-metrics
        action: keep

$helm install --namespace monitoring prometheus prometheus-community/prometheus --values prometheus-values.yaml --set alertmanager.enabled=false

NAME: prometheus
LAST DEPLOYED: Mon May 22 20:44:27 2023
NAMESPACE: monitoring
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
The Prometheus server can be accessed via port 80 on the following DNS name from within your cluster:
prometheus-server.monitoring.svc.cluster.local

Get the Prometheus server URL by running these commands in the same shell:
  export POD_NAME=$(kubectl get pods --namespace monitoring -l "app=prometheus,component=server" -o jsonpath="{.items[0].metadata.name}")
  kubectl --namespace monitoring port-forward $POD_NAME 9090
#################################################################################
######   WARNING: Persistence is disabled!!! You will lose your data when   #####
######            the Server pod is terminated.                             #####
#################################################################################

#################################################################################
######   WARNING: Pod Security Policy has been disabled by default since    #####
######            it deprecated after k8s 1.25+. use                        #####
######            (index .Values "prometheus-node-exporter" "rbac"          #####
###### .          "pspEnabled") with (index .Values                         #####
######            "prometheus-node-exporter" "rbac" "pspAnnotations")       #####
######            in case you still need it.                                #####
#################################################################################

The Prometheus PushGateway can be accessed via port 9091 on the following DNS name from within your cluster:
prometheus-prometheus-pushgateway.monitoring.svc.cluster.local

Get the PushGateway URL by running these commands in the same shell:
  export POD_NAME=$(kubectl get pods --namespace monitoring -l "app=prometheus-pushgateway,component=pushgateway" -o jsonpath="{.items[0].metadata.name}")
  kubectl --namespace monitoring port-forward $POD_NAME 9091

For more information on running Prometheus, visit:
https://prometheus.io/

$curl -fsSL https://karpenter.sh/"${KARPENTER_VERSION}"/getting-started/getting-started-with-karpenter/grafana-values.yaml | tee grafana-values.yaml
datasources:
  datasources.yaml:
    apiVersion: 1
    datasources:
    - name: Prometheus
      type: prometheus
      version: 1
      url: http://prometheus-server:80
      access: proxy
dashboardProviders:
  dashboardproviders.yaml:
    apiVersion: 1
    providers:
    - name: 'default'
      orgId: 1
      folder: ''
      type: file
      disableDeletion: false
      editable: true
      options:
        path: /var/lib/grafana/dashboards/default
dashboards:
  default:
    capacity-dashboard:
      url: https://karpenter.sh/v0.27.5/getting-started/getting-started-with-karpenter/karpenter-capacity-dashboard.json
    performance-dashboard:
      url: https://karpenter.sh/v0.27.5/getting-started/getting-started-with-karpenter/karpenter-performance-dashboard.json
$helm install --namespace monitoring grafana grafana-charts/grafana --values grafana-values.yaml --set service.type=LoadBalancer
NAME: grafana
LAST DEPLOYED: Mon May 22 20:44:35 2023
NAMESPACE: monitoring
STATUS: deployed
REVISION: 1
NOTES:
1. Get your 'admin' user password by running:

   kubectl get secret --namespace monitoring grafana -o jsonpath="{.data.admin-password}" | base64 --decode ; echo

2. The Grafana server can be accessed via port 80 on the following DNS name from within your cluster:

   grafana.monitoring.svc.cluster.local

   Get the Grafana URL to visit by running these commands in the same shell:
   NOTE: It may take a few minutes for the LoadBalancer IP to be available.
        You can watch the status of by running 'kubectl get svc --namespace monitoring -w grafana'
     export SERVICE_IP=$(kubectl get svc --namespace monitoring grafana -o jsonpath='{.status.loadBalancer.ingress[0].ip}')
     http://$SERVICE_IP:80

3. Login with the password from step 1 and the username: admin
#################################################################################
######   WARNING: Persistence is disabled!!! You will lose your data when   #####
######            the Grafana pod is terminated.                            #####
#################################################################################

$kubectl get secret --namespace monitoring grafana -o jsonpath="{.data.admin-password}" | base64 --decode ; echo
rPBZBl47fe72XObwGKsXNYtvkGGEWA8FCFYXujwC
$MyDomain=kaneawsdns.com
$echo "export MyDomain=kaneawsdns.com" >> /etc/profile
$MyDnzHostedZoneId=$(aws route53 list-hosted-zones-by-name --dns-name "${MyDomain}." --query "HostedZones[0].Id" --output text)

$echo $MyDomain, $MyDnzHostedZoneId
kaneawsdns.com, /hostedzone/Z06702063E7RRITLLMJRM

$curl -s -O https://raw.githubusercontent.com/gasida/PKOS/main/aews/externaldns.yaml
$MyDomain=$MyDomain MyDnzHostedZoneId=$MyDnzHostedZoneId envsubst < externaldns.yaml | kubectl apply -f -

serviceaccount/external-dns created
clusterrole.rbac.authorization.k8s.io/external-dns created
clusterrolebinding.rbac.authorization.k8s.io/external-dns-viewer created
deployment.apps/external-dns created

$kubectl annotate service grafana -n monitoring "external-dns.alpha.kubernetes.io/hostname=grafana.$MyDomain"
service/grafana annotated

$echo -e "grafana URL = http://grafana.$MyDomain"
grafana URL = http://grafana.kaneawsdns.com

#kube-ops-view install
$helm repo add geek-cookbook https://geek-cookbook.github.io/charts/

"geek-cookbook" has been added to your repositories

$helm install kube-ops-view geek-cookbook/kube-ops-view --version 1.2.2 --set env.TZ="Asia/Seoul" --namespace kube-system

NAME: kube-ops-view
LAST DEPLOYED: Mon May 22 20:47:00 2023
NAMESPACE: kube-system
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
1. Get the application URL by running these commands:
  export POD_NAME=$(kubectl get pods --namespace kube-system -l "app.kubernetes.io/name=kube-ops-view,app.kubernetes.io/instance=kube-ops-view" -o jsonpath="{.items[0].metadata.name}")
  echo "Visit http://127.0.0.1:8080 to use your application"
  kubectl port-forward $POD_NAME 8080:8080

$kubectl patch svc -n kube-system kube-ops-view -p '{"spec":{"type":"LoadBalancer"}}'

service/kube-ops-view patched
$kubectl annotate service kube-ops-view -n kube-system "external-dns.alpha.kubernetes.io/hostname=kubeopsview.$MyDomain"
service/kube-ops-view annotated
$echo -e "Kube Ops View URL = http://kubeopsview.$MyDomain:8080/#scale=1.5"
Kube Ops View URL = http://kubeopsview.kaneawsdns.com:8080/#scale=1.5
$kubectl get awsnodetemplates,provisioners
NAME                                        AGE
awsnodetemplate.karpenter.k8s.aws/default   3m40s

NAME                               AGE
provisioner.karpenter.sh/default   3m40s

테스트 실시!
파드 한 개당 요구량을 1코어로 두고, 이후 증가시켜 오토스케일링 확인
# pause 파드 1개에 CPU 1개 최소 보장 할당
$cat < apiVersion: apps/v1
> kind: Deployment
> metadata:
>   name: inflate
> spec:
>   replicas: 0
>   selector:
>     matchLabels:
>       app: inflate
>   template:
>     metadata:
>       labels:
>         app: inflate
>     spec:
>       terminationGracePeriodSeconds: 0
>       containers:
>         - name: inflate
>           image: public.ecr.aws/eks-distro/kubernetes/pause:3.7
>           resources:
>             requests:
>               cpu: 1
> EOF
deployment.apps/inflate created

# 파드 개수 증가!
$kubectl scale deployment inflate --replicas 5
deployment.apps/inflate scaled
$kubectl logs -f -n karpenter -l app.kubernetes.io/name=karpenter -c controller
2023-05-22T11:43:55.652Z    DEBUG    controller.deprovisioning    discovered instance types    {"commit": "698f22f-dirty", "count": 366}
2023-05-22T11:43:55.743Z    DEBUG    controller.deprovisioning    discovered offerings for instance types    {"commit": "698f22f-dirty", "zones": ["ap-northeast-2a", "ap-northeast-2c", "ap-northeast-2d"], "instance-type-count": 367, "node-template": "default"}
2023-05-22T11:48:08.748Z    INFO    controller.provisioner    found provisionable pod(s)    {"commit": "698f22f-dirty", "pods": 5}
2023-05-22T11:48:08.748Z    INFO    controller.provisioner    computed new machine(s) to fit pod(s)    {"commit": "698f22f-dirty", "machines": 1, "pods": 5}
2023-05-22T11:48:08.749Z    INFO    controller.provisioner    launching machine with 5 pods requesting {"cpu":"5125m","pods":"8"} from types c6i.2xlarge, c6i.24xlarge, r5ad.24xlarge, r6i.24xlarge, r5.24xlarge and 135 other(s)    {"commit": "698f22f-dirty", "provisioner": "default"}
2023-05-22T11:48:09.106Z    DEBUG    controller.provisioner.cloudprovider    discovered kubernetes version    {"commit": "698f22f-dirty", "provisioner": "default", "kubernetes-version": "1.24"}
2023-05-22T11:48:09.136Z    DEBUG    controller.provisioner.cloudprovider    discovered ami    {"commit": "698f22f-dirty", "provisioner": "default", "ami": "ami-0fa3b31d56b9a36b2", "query": "/aws/service/eks/optimized-ami/1.24/amazon-linux-2/recommended/image_id"}
2023-05-22T11:48:09.163Z    DEBUG    controller.provisioner.cloudprovider    discovered ami    {"commit": "698f22f-dirty", "provisioner": "default", "ami": "ami-021b63322f1c5fc23", "query": "/aws/service/eks/optimized-ami/1.24/amazon-linux-2-gpu/recommended/image_id"}
2023-05-22T11:48:09.173Z    DEBUG    controller.provisioner.cloudprovider    discovered ami    {"commit": "698f22f-dirty", "provisioner": "default", "ami": "ami-0a31a3ce85ee4a8e6", "query": "/aws/service/eks/optimized-ami/1.24/amazon-linux-2-arm64/recommended/image_id"}
2023-05-22T11:48:09.311Z    DEBUG    controller.provisioner.cloudprovider    created launch template    {"commit": "698f22f-dirty", "provisioner": "default", "launch-template-name": "karpenter.k8s.aws/16624063517551845275", "launch-template-id": "lt-0458277a0a9530173"}
2023-05-22T11:43:03.998Z    DEBUG    controller    discovered kube dns    {"commit": "698f22f-dirty", "kube-dns-ip": "10.100.0.10"}
2023-05-22T11:43:03.999Z    DEBUG    controller    discovered version    {"commit": "698f22f-dirty", "version": "v0.27.5"}
2023/05/22 11:43:03 Registering 2 clients
2023/05/22 11:43:03 Registering 2 informer factories
2023/05/22 11:43:03 Registering 3 informers
2023/05/22 11:43:03 Registering 5 controllers
2023-05-22T11:43:04.000Z    INFO    controller    Starting server    {"commit": "698f22f-dirty", "path": "/metrics", "kind": "metrics", "addr": "[::]:8080"}
2023-05-22T11:43:04.000Z    INFO    controller    Starting server    {"commit": "698f22f-dirty", "kind": "health probe", "addr": "[::]:8081"}
I0522 11:43:04.101075       1 leaderelection.go:248] attempting to acquire leader lease karpenter/karpenter-leader-election...
2023-05-22T11:43:04.189Z    INFO    controller    Starting informers...    {"commit": "698f22f-dirty"}
2023-05-22T11:48:11.910Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-0f03bf23055b38747", "hostname": "ip-192-168-188-148.ap-northeast-2.compute.internal", "instance-type": "c4.2xlarge", "zone": "ap-northeast-2c", "capacity-type": "spot", "capacity": {"cpu":"8","ephemeral-storage":"20Gi","memory":"14208Mi","pods":"58"}}

$kubectl get node --label-columns=eks.amazonaws.com/capacityType,karpenter.sh/capacity-type,node.kubernetes.io/instance-type
NAME                                                 STATUS     ROLES    AGE    VERSION                CAPACITYTYPE   CAPACITY-TYPE   INSTANCE-TYPE
ip-192-168-188-148.ap-northeast-2.compute.internal   NotReady      26s    v1.24.13-eks-0a21954                  spot            c4.2xlarge
ip-192-168-30-154.ap-northeast-2.compute.internal    Ready         102m   v1.24.13-eks-0a21954   ON_DEMAND                      m5.large
ip-192-168-86-220.ap-northeast-2.compute.internal    Ready         102m   v1.24.13-eks-0a21954   ON_DEMAND                      m5.large

$k get po -A
NAMESPACE     NAME                                                READY   STATUS              RESTARTS   AGE
default       inflate-ccf449f59-cswnb                             0/1     ContainerCreating   0          41s
default       inflate-ccf449f59-m5cq6                             0/1     ContainerCreating   0          41s
default       inflate-ccf449f59-t5fxt                             0/1     ContainerCreating   0          41s
default       inflate-ccf449f59-tl79k                             0/1     ContainerCreating   0          41s
default       inflate-ccf449f59-wtk4l                             0/1     ContainerCreating   0          41s
karpenter     karpenter-6c6bdb7766-2kq5b                          1/1     Running             0          5m52s
karpenter     karpenter-6c6bdb7766-bj6nn                          1/1     Running             0          5m52s
kube-system   aws-node-9fh2n                                      1/1     Running             0          102m
kube-system   aws-node-dmzdv                                      0/1     Running             0          37s
kube-system   aws-node-tk9mc                                      1/1     Running             0          102m
kube-system   coredns-dc4979556-98j9g                             1/1     Running             0          111m
kube-system   coredns-dc4979556-lw7gf                             1/1     Running             0          111m
kube-system   external-dns-cc5c8cd74-v4frr                        1/1     Running             0          2m55s
kube-system   kube-ops-view-558d87b798-z4wng                      1/1     Running             0          107s
kube-system   kube-proxy-gzs29                                    1/1     Running             0          102m
kube-system   kube-proxy-hlnpt                                    1/1     Running             0          102m
kube-system   kube-proxy-xb2hs                                    1/1     Running             0          37s
monitoring    grafana-b488f8cdb-8mwn5                             1/1     Running             0          4m11s
monitoring    prometheus-kube-state-metrics-6fcf5978bf-rzbh8      1/1     Running             0          4m20s
monitoring    prometheus-prometheus-node-exporter-jpfgq           1/1     Running             0          36s
monitoring    prometheus-prometheus-node-exporter-r8vqh           1/1     Running             0          4m20s
monitoring    prometheus-prometheus-node-exporter-vwsk9           1/1     Running             0          4m19s
monitoring    prometheus-prometheus-pushgateway-fdb75d75f-jdbhr   1/1     Running             0          4m20s
monitoring    prometheus-server-6f974fdfd-l7rv7                   2/2     Running             0          4m20s
AWS 자원 확인

AWS 자원 확인
  $aws ec2 describe-spot-instance-requests --filters "Name=state,Values=active" --output table

  ------------------------------------------------------------------------------------------------------
  |                                    DescribeSpotInstanceRequests                                    |
  +----------------------------------------------------------------------------------------------------+
  ||                                       SpotInstanceRequests                                       ||
  |+--------------------------------------------------+-----------------------------------------------+|
  ||  CreateTime                                      |  2023-05-22T11:48:11+00:00                    ||
  ||  InstanceId                                      |  i-0f03bf23055b38747                          ||
  ||  InstanceInterruptionBehavior                    |  terminate                                    ||
  ||  LaunchedAvailabilityZone                        |  ap-northeast-2c                              ||
  ||  ProductDescription                              |  Linux/UNIX                                   ||
  ||  SpotInstanceRequestId                           |  sir-q2r6k2vp                                 ||
  ||  SpotPrice                                       |  0.454000                                     ||
  ||  State                                           |  active                                       ||
  ||  Type                                            |  one-time                                     ||
  |+--------------------------------------------------+-----------------------------------------------+|
  |||                                       LaunchSpecification                                      |||
  ||+------------------------------------+-----------------------------------------------------------+||
  |||  ImageId                           |  ami-0fa3b31d56b9a36b2                                    |||
  |||  InstanceType                      |  c4.2xlarge                                               |||
  ||+------------------------------------+-----------------------------------------------------------+||
  ||||                                      BlockDeviceMappings                                     ||||
  |||+------------------------------------------------+---------------------------------------------+|||
  ||||  DeviceName                                    |  /dev/xvda                                  ||||
  |||+------------------------------------------------+---------------------------------------------+|||
  |||||                                             Ebs                                            |||||
  ||||+--------------------------------------------------------------------+-----------------------+||||
  |||||  DeleteOnTermination                                               |  True                 |||||
  |||||  Encrypted                                                         |  True                 |||||
  |||||  VolumeSize                                                        |  20                   |||||
  |||||  VolumeType                                                        |  gp3                  |||||
  ||||+--------------------------------------------------------------------+-----------------------+||||
  ||||                                      IamInstanceProfile                                      ||||
  |||+-------+--------------------------------------------------------------------------------------+|||
  ||||  Arn  |  arn:aws:iam::871103481195:instance-profile/KarpenterNodeInstanceProfile-myeks2      ||||
  ||||  Name |  KarpenterNodeInstanceProfile-myeks2                                                 ||||
  |||+-------+--------------------------------------------------------------------------------------+|||
  ||||                                          Monitoring                                          ||||
  |||+---------------------------------------------------+------------------------------------------+|||
  ||||  Enabled                                          |  False                                   ||||
  |||+---------------------------------------------------+------------------------------------------+|||
  ||||                                       NetworkInterfaces                                      ||||
  |||+-----------------------------------------+----------------------------------------------------+|||
  ||||  DeleteOnTermination                    |  True                                              ||||
  ||||  DeviceIndex                            |  0                                                 ||||
  ||||  SubnetId                               |  subnet-04e3bff3afc9245a6                          ||||
  |||+-----------------------------------------+----------------------------------------------------+|||
  ||||                                           Placement                                          ||||
  |||+-----------------------------------------------+----------------------------------------------+|||
  ||||  AvailabilityZone                             |  ap-northeast-2c                             ||||
  ||||  Tenancy                                      |  default                                     ||||
  |||+-----------------------------------------------+----------------------------------------------+|||
  ||||                                        SecurityGroups                                        ||||
  |||+-----------------------+----------------------------------------------------------------------+|||
  ||||        GroupId        |                              GroupName                               ||||
  |||+-----------------------+----------------------------------------------------------------------+|||
  ||||  sg-0ba1ccd4016a58521 |  eksctl-myeks2-cluster-ControlPlaneSecurityGroup-WNSB7WW4HLIF        ||||
  ||||  sg-0317cb7e7df34881a |  eksctl-myeks2-cluster-ClusterSharedNodeSecurityGroup-1VRI6GJ40ZT7A  ||||
  |||+-----------------------+----------------------------------------------------------------------+|||
  |||                                             Status                                             |||
  ||+--------------------------+---------------------------------------------------------------------+||
  |||  Code                    |  fulfilled                                                          |||
  |||  Message                 |  Your Spot request is fulfilled.                                    |||
  |||  UpdateTime              |  2023-05-22T11:48:22+00:00                                          |||
  ||+--------------------------+---------------------------------------------------------------------+||

  $kubectl get node -l karpenter.sh/capacity-type=spot -o jsonpath='{.items[0].metadata.labels}' | jq
  {
    "beta.kubernetes.io/arch": "amd64",
    "beta.kubernetes.io/os": "linux",
    "k8s.io/cloud-provider-aws": "35a3405a9b5c02025fe6ff647a94190b",
    "karpenter.k8s.aws/instance-ami-id": "ami-0fa3b31d56b9a36b2",
    "karpenter.k8s.aws/instance-category": "c",
    "karpenter.k8s.aws/instance-cpu": "8",
    "karpenter.k8s.aws/instance-encryption-in-transit-supported": "false",
    "karpenter.k8s.aws/instance-family": "c4",
    "karpenter.k8s.aws/instance-generation": "4",
    "karpenter.k8s.aws/instance-hypervisor": "xen",
    "karpenter.k8s.aws/instance-memory": "15360",
    "karpenter.k8s.aws/instance-network-bandwidth": "2500",
    "karpenter.k8s.aws/instance-pods": "58",
    "karpenter.k8s.aws/instance-size": "2xlarge",
    "karpenter.sh/capacity-type": "spot",
    "karpenter.sh/provisioner-name": "default",
    "kubernetes.io/arch": "amd64",
    "kubernetes.io/os": "linux",
    "node.kubernetes.io/instance-type": "c4.2xlarge",
    "topology.kubernetes.io/region": "ap-northeast-2",
    "topology.kubernetes.io/zone": "ap-northeast-2c"
  }



테스트 종료
$kubectl delete deployment inflate
deployment.apps "inflate" deleted

$kubectl logs -f -n karpenter -l app.kubernetes.io/name=karpenter -c controller
2023-05-22T11:43:03.998Z    DEBUG    controller    discovered kube dns    {"commit": "698f22f-dirty", "kube-dns-ip": "10.100.0.10"}
2023-05-22T11:43:03.999Z    DEBUG    controller    discovered version    {"commit": "698f22f-dirty", "version": "v0.27.5"}
2023/05/22 11:43:03 Registering 2 clients
2023/05/22 11:43:03 Registering 2 informer factories
2023/05/22 11:43:03 Registering 3 informers
2023/05/22 11:43:03 Registering 5 controllers
2023-05-22T11:43:04.000Z    INFO    controller    Starting server    {"commit": "698f22f-dirty", "path": "/metrics", "kind": "metrics", "addr": "[::]:8080"}
2023-05-22T11:43:04.000Z    INFO    controller    Starting server    {"commit": "698f22f-dirty", "kind": "health probe", "addr": "[::]:8081"}
I0522 11:43:04.101075       1 leaderelection.go:248] attempting to acquire leader lease karpenter/karpenter-leader-election...
2023-05-22T11:43:04.189Z    INFO    controller    Starting informers...    {"commit": "698f22f-dirty"}
2023-05-22T11:48:09.106Z    DEBUG    controller.provisioner.cloudprovider    discovered kubernetes version    {"commit": "698f22f-dirty", "provisioner": "default", "kubernetes-version": "1.24"}
2023-05-22T11:48:09.136Z    DEBUG    controller.provisioner.cloudprovider    discovered ami    {"commit": "698f22f-dirty", "provisioner": "default", "ami": "ami-0fa3b31d56b9a36b2", "query": "/aws/service/eks/optimized-ami/1.24/amazon-linux-2/recommended/image_id"}
2023-05-22T11:48:09.163Z    DEBUG    controller.provisioner.cloudprovider    discovered ami    {"commit": "698f22f-dirty", "provisioner": "default", "ami": "ami-021b63322f1c5fc23", "query": "/aws/service/eks/optimized-ami/1.24/amazon-linux-2-gpu/recommended/image_id"}
2023-05-22T11:48:09.173Z    DEBUG    controller.provisioner.cloudprovider    discovered ami    {"commit": "698f22f-dirty", "provisioner": "default", "ami": "ami-0a31a3ce85ee4a8e6", "query": "/aws/service/eks/optimized-ami/1.24/amazon-linux-2-arm64/recommended/image_id"}
2023-05-22T11:48:09.311Z    DEBUG    controller.provisioner.cloudprovider    created launch template    {"commit": "698f22f-dirty", "provisioner": "default", "launch-template-name": "karpenter.k8s.aws/16624063517551845275", "launch-template-id": "lt-0458277a0a9530173"}
2023-05-22T11:48:11.910Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-0f03bf23055b38747", "hostname": "ip-192-168-188-148.ap-northeast-2.compute.internal", "instance-type": "c4.2xlarge", "zone": "ap-northeast-2c", "capacity-type": "spot", "capacity": {"cpu":"8","ephemeral-storage":"20Gi","memory":"14208Mi","pods":"58"}}
2023-05-22T11:50:24.721Z    DEBUG    controller.node    added TTL to empty node    {"commit": "698f22f-dirty", "node": "ip-192-168-188-148.ap-northeast-2.compute.internal"}
2023-05-22T11:50:56.648Z    INFO    controller.deprovisioning    deprovisioning via emptiness delete, terminating 1 machines ip-192-168-188-148.ap-northeast-2.compute.internal/c4.2xlarge/spot    {"commit": "698f22f-dirty"}
2023-05-22T11:50:56.682Z    INFO    controller.termination    cordoned node    {"commit": "698f22f-dirty", "node": "ip-192-168-188-148.ap-northeast-2.compute.internal"}
2023-05-22T11:50:57.064Z    INFO    controller.termination    deleted node    {"commit": "698f22f-dirty", "node": "ip-192-168-188-148.ap-northeast-2.compute.internal"}

$kubectl delete provisioners default
provisioner.karpenter.sh "default" deleted

새로운 Provisiner 설치

$cat < apiVersion: karpenter.sh/v1alpha5
> kind: Provisioner
> metadata:
>   name: default
> spec:
>   consolidation:
>     enabled: true
>   labels:
>     type: karpenter
>   limits:
>     resources:
>       cpu: 1000
>       memory: 1000Gi
>   providerRef:
>     name: default
>   requirements:
>     - key: karpenter.sh/capacity-type
>       operator: In
>       values:
>         - on-demand
**>     - key: node.kubernetes.io/instance-type
>       operator: In
>       values:
>         - c5.large
>         - m5.large
>         - m5.xlarge**
> EOF
provisioner.karpenter.sh/default created

테스트용 디플로이먼트 배포
$cat < apiVersion: apps/v1
> kind: Deployment
> metadata:
>   name: inflate
> spec:
>   replicas: 0
>   selector:
>     matchLabels:
>       app: inflate
>   template:
>     metadata:
>       labels:
>         app: inflate
>     spec:
>       terminationGracePeriodSeconds: 0
>       containers:
>         - name: inflate
>           image: public.ecr.aws/eks-distro/kubernetes/pause:3.7
>           resources:
>             requests:
>               cpu: 1
> EOF
deployment.apps/inflate created

오토스케일링 확인 → 파드개수 증가시키기
$kubectl scale deployment inflate --replicas 12
deployment.apps/inflate scaled
로그로 시간 확인 → 10초 이내로 반응

$kubectl logs -f -n karpenter -l app.kubernetes.io/name=karpenter -c controller
2023-05-22T11:43:03.998Z    DEBUG    controller    discovered kube dns    {"commit": "698f22f-dirty", "kube-dns-ip": "10.100.0.10"}
2023-05-22T11:43:03.999Z    DEBUG    controller    discovered version    {"commit": "698f22f-dirty", "version": "v0.27.5"}
2023/05/22 11:43:03 Registering 2 clients
2023/05/22 11:43:03 Registering 2 informer factories
2023/05/22 11:43:03 Registering 3 informers
2023/05/22 11:43:03 Registering 5 controllers
2023-05-22T11:43:04.000Z    INFO    controller    Starting server    {"commit": "698f22f-dirty", "path": "/metrics", "kind": "metrics", "addr": "[::]:8080"}
2023-05-22T11:43:04.000Z    INFO    controller    Starting server    {"commit": "698f22f-dirty", "kind": "health probe", "addr": "[::]:8081"}
I0522 11:43:04.101075       1 leaderelection.go:248] attempting to acquire leader lease karpenter/karpenter-leader-election...
2023-05-22T11:43:04.189Z    INFO    controller    Starting informers...    {"commit": "698f22f-dirty"}
2023-05-22T11:52:47.012Z    INFO    controller.provisioner    computed new machine(s) to fit pod(s)    {"commit": "698f22f-dirty", "machines": 4, "pods": 12}
2023-05-22T11:52:47.012Z    INFO    controller.provisioner    launching machine with 3 pods requesting {"cpu":"3125m","pods":"6"} from types m5.xlarge    {"commit": "698f22f-dirty", "provisioner": "default"}
2023-05-22T11:52:47.015Z    INFO    controller.provisioner    launching machine with 3 pods requesting {"cpu":"3125m","pods":"6"} from types m5.xlarge    {"commit": "698f22f-dirty", "provisioner": "default"}
2023-05-22T11:52:47.021Z    INFO    controller.provisioner    launching machine with 3 pods requesting {"cpu":"3125m","pods":"6"} from types m5.xlarge    {"commit": "698f22f-dirty", "provisioner": "default"}
2023-05-22T11:52:47.026Z    INFO    controller.provisioner    launching machine with 3 pods requesting {"cpu":"3125m","pods":"6"} from types m5.xlarge    {"commit": "698f22f-dirty", "provisioner": "default"}
2023-05-22T11:52:47.562Z    DEBUG    controller.provisioner.cloudprovider    created launch template    {"commit": "698f22f-dirty", "provisioner": "default", "launch-template-name": "karpenter.k8s.aws/10691513453991989385", "launch-template-id": "lt-0bdf1b82218c3ff67"}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-03691dff7f7c5089b", "hostname": "ip-192-168-95-67.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-0dd5ad429b8a4fb1c", "hostname": "ip-192-168-70-7.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-0c0613125e339e499", "hostname": "ip-192-168-182-17.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-08a1e375dc91770ff", "hostname": "ip-192-168-174-179.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}

$kubectl get node --label-columns=node.kubernetes.io/instance-type,topology.kubernetes.io/zone
NAME                                                 STATUS   ROLES    AGE    VERSION                INSTANCE-TYPE   ZONE
ip-192-168-174-179.ap-northeast-2.compute.internal   Ready       45s    v1.24.13-eks-0a21954   m5.xlarge       ap-northeast-2c
ip-192-168-182-17.ap-northeast-2.compute.internal    Ready       45s    v1.24.13-eks-0a21954   m5.xlarge       ap-northeast-2c
ip-192-168-30-154.ap-northeast-2.compute.internal    Ready       107m   v1.24.13-eks-0a21954   m5.large        ap-northeast-2a
ip-192-168-70-7.ap-northeast-2.compute.internal      Ready       45s    v1.24.13-eks-0a21954   m5.xlarge       ap-northeast-2c
ip-192-168-86-220.ap-northeast-2.compute.internal    Ready       107m   v1.24.13-eks-0a21954   m5.large        ap-northeast-2c
ip-192-168-95-67.ap-northeast-2.compute.internal     Ready       45s    v1.24.13-eks-0a21954   m5.xlarge       ap-northeast-2c

스케일 다운! → 오토스케일링 확인 
$kubectl scale deployment inflate --replicas 5
deployment.apps/inflate scaled
로그 확인
$kubectl logs -f -n karpenter -l app.kubernetes.io/name=karpenter -c controller
2023-05-22T11:43:03.998Z    DEBUG    controller    discovered kube dns    {"commit": "698f22f-dirty", "kube-dns-ip": "10.100.0.10"}
2023-05-22T11:43:03.999Z    DEBUG    controller    discovered version    {"commit": "698f22f-dirty", "version": "v0.27.5"}
2023/05/22 11:43:03 Registering 2 clients
2023/05/22 11:43:03 Registering 2 informer factories
2023/05/22 11:43:03 Registering 3 informers
2023/05/22 11:43:03 Registering 5 controllers
2023-05-22T11:43:04.000Z    INFO    controller    Starting server    {"commit": "698f22f-dirty", "path": "/metrics", "kind": "metrics", "addr": "[::]:8080"}
2023-05-22T11:43:04.000Z    INFO    controller    Starting server    {"commit": "698f22f-dirty", "kind": "health probe", "addr": "[::]:8081"}
I0522 11:43:04.101075       1 leaderelection.go:248] attempting to acquire leader lease karpenter/karpenter-leader-election...
2023-05-22T11:43:04.189Z    INFO    controller    Starting informers...    {"commit": "698f22f-dirty"}
2023-05-22T11:52:47.012Z    INFO    controller.provisioner    launching machine with 3 pods requesting {"cpu":"3125m","pods":"6"} from types m5.xlarge    {"commit": "698f22f-dirty", "provisioner": "default"}
2023-05-22T11:52:47.015Z    INFO    controller.provisioner    launching machine with 3 pods requesting {"cpu":"3125m","pods":"6"} from types m5.xlarge    {"commit": "698f22f-dirty", "provisioner": "default"}
2023-05-22T11:52:47.021Z    INFO    controller.provisioner    launching machine with 3 pods requesting {"cpu":"3125m","pods":"6"} from types m5.xlarge    {"commit": "698f22f-dirty", "provisioner": "default"}
2023-05-22T11:52:47.026Z    INFO    controller.provisioner    launching machine with 3 pods requesting {"cpu":"3125m","pods":"6"} from types m5.xlarge    {"commit": "698f22f-dirty", "provisioner": "default"}
2023-05-22T11:52:47.562Z    DEBUG    controller.provisioner.cloudprovider    created launch template    {"commit": "698f22f-dirty", "provisioner": "default", "launch-template-name": "karpenter.k8s.aws/10691513453991989385", "launch-template-id": "lt-0bdf1b82218c3ff67"}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-03691dff7f7c5089b", "hostname": "ip-192-168-95-67.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-0dd5ad429b8a4fb1c", "hostname": "ip-192-168-70-7.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-0c0613125e339e499", "hostname": "ip-192-168-182-17.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-08a1e375dc91770ff", "hostname": "ip-192-168-174-179.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:53:04.005Z    DEBUG    controller    deleted launch template    {"commit": "698f22f-dirty", "launch-template": "karpenter.k8s.aws/16624063517551845275"}
2023-05-22T11:54:04.652Z    INFO    controller.deprovisioning    deprovisioning via consolidation delete, terminating 2 machines ip-192-168-182-17.ap-northeast-2.compute.internal/m5.xlarge/on-demand, ip-192-168-70-7.ap-northeast-2.compute.internal/m5.xlarge/on-demand    {"commit": "698f22f-dirty"}
2023-05-22T11:54:04.709Z    INFO    controller.termination    cordoned node    {"commit": "698f22f-dirty", "node": "ip-192-168-182-17.ap-northeast-2.compute.internal"}
2023-05-22T11:54:04.720Z    INFO    controller.termination    cordoned node    {"commit": "698f22f-dirty", "node": "ip-192-168-70-7.ap-northeast-2.compute.internal"}
2023-05-22T11:54:05.138Z    INFO    controller.termination    deleted node    {"commit": "698f22f-dirty", "node": "ip-192-168-182-17.ap-northeast-2.compute.internal"}
2023-05-22T11:54:05.140Z    INFO    controller.termination    deleted node    {"commit": "698f22f-dirty", "node": "ip-192-168-70-7.ap-northeast-2.compute.internal"}
스케일 다운! → 1개로 줄임
$kubectl scale deployment inflate --replicas 1
deployment.apps/inflate scaled
로그 확인
$kubectl logs -f -n karpenter -l app.kubernetes.io/name=karpenter -c controller
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-03691dff7f7c5089b", "hostname": "ip-192-168-95-67.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-0dd5ad429b8a4fb1c", "hostname": "ip-192-168-70-7.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-0c0613125e339e499", "hostname": "ip-192-168-182-17.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:52:49.588Z    INFO    controller.provisioner.cloudprovider    launched instance    {"commit": "698f22f-dirty", "provisioner": "default", "id": "i-08a1e375dc91770ff", "hostname": "ip-192-168-174-179.ap-northeast-2.compute.internal", "instance-type": "m5.xlarge", "zone": "ap-northeast-2c", "capacity-type": "on-demand", "capacity": {"cpu":"4","ephemeral-storage":"20Gi","memory":"15155Mi","pods":"58"}}
2023-05-22T11:53:04.005Z    DEBUG    controller    deleted launch template    {"commit": "698f22f-dirty", "launch-template": "karpenter.k8s.aws/16624063517551845275"}
2023-05-22T11:54:04.652Z    INFO    controller.deprovisioning    deprovisioning via consolidation delete, terminating 2 machines ip-192-168-182-17.ap-northeast-2.compute.internal/m5.xlarge/on-demand, ip-192-168-70-7.ap-northeast-2.compute.internal/m5.xlarge/on-demand    {"commit": "698f22f-dirty"}
2023-05-22T11:54:04.709Z    INFO    controller.termination    cordoned node    {"commit": "698f22f-dirty", "node": "ip-192-168-182-17.ap-northeast-2.compute.internal"}
2023-05-22T11:54:04.720Z    INFO    controller.termination    cordoned node    {"commit": "698f22f-dirty", "node": "ip-192-168-70-7.ap-northeast-2.compute.internal"}
2023-05-22T11:54:05.138Z    INFO    controller.termination    deleted node    {"commit": "698f22f-dirty", "node": "ip-192-168-182-17.ap-northeast-2.compute.internal"}
2023-05-22T11:54:05.140Z    INFO    controller.termination    deleted node    {"commit": "698f22f-dirty", "node": "ip-192-168-70-7.ap-northeast-2.compute.internal"}
2023-05-22T11:43:03.998Z    DEBUG    controller    discovered kube dns    {"commit": "698f22f-dirty", "kube-dns-ip": "10.100.0.10"}
2023-05-22T11:43:03.999Z    DEBUG    controller    discovered version    {"commit": "698f22f-dirty", "version": "v0.27.5"}
2023/05/22 11:43:03 Registering 2 clients
2023/05/22 11:43:03 Registering 2 informer factories
2023/05/22 11:43:03 Registering 3 informers
2023/05/22 11:43:03 Registering 5 controllers
2023-05-22T11:43:04.000Z    INFO    controller    Starting server    {"commit": "698f22f-dirty", "path": "/metrics", "kind": "metrics", "addr": "[::]:8080"}
2023-05-22T11:43:04.000Z    INFO    controller    Starting server    {"commit": "698f22f-dirty", "kind": "health probe", "addr": "[::]:8081"}
I0522 11:43:04.101075       1 leaderelection.go:248] attempting to acquire leader lease karpenter/karpenter-leader-election...
2023-05-22T11:43:04.189Z    INFO    controller    Starting informers...    {"commit": "698f22f-dirty"}
2023-05-22T11:54:31.756Z    INFO    controller.deprovisioning    deprovisioning via consolidation delete, terminating 1 machines ip-192-168-174-179.ap-northeast-2.compute.internal/m5.xlarge/on-demand    {"commit": "698f22f-dirty"}
2023-05-22T11:54:31.811Z    INFO    controller.termination    cordoned node    {"commit": "698f22f-dirty", "node": "ip-192-168-174-179.ap-northeast-2.compute.internal"}
2023-05-22T11:54:32.143Z    INFO    controller.termination    deleted node    {"commit": "698f22f-dirty", "node": "ip-192-168-174-179.ap-northeast-2.compute.internal"}

$kubectl get node -l type=karpenter
NAME                                               STATUS   ROLES    AGE    VERSION
ip-192-168-95-67.ap-northeast-2.compute.internal   Ready       109s   v1.24.13-eks-0a21954
$kubectl get node --label-columns=eks.amazonaws.com/capacityType,karpenter.sh/capacity-type
NAME                                                STATUS   ROLES    AGE    VERSION                CAPACITYTYPE   CAPACITY-TYPE
ip-192-168-30-154.ap-northeast-2.compute.internal   Ready       108m   v1.24.13-eks-0a21954   ON_DEMAND
ip-192-168-86-220.ap-northeast-2.compute.internal   Ready       108m   v1.24.13-eks-0a21954   ON_DEMAND
ip-192-168-95-67.ap-northeast-2.compute.internal    Ready       114s   v1.24.13-eks-0a21954                  on-demand
$kubectl get node --label-columns=node.kubernetes.io/instance-type,topology.kubernetes.io/zone
NAME                                                STATUS                     ROLES    AGE     VERSION                INSTANCE-TYPE   ZONE
ip-192-168-116-39.ap-northeast-2.compute.internal   Unknown                       11s                            c5.large        ap-northeast-2a
ip-192-168-30-154.ap-northeast-2.compute.internal   Ready                         109m    v1.24.13-eks-0a21954   m5.large        ap-northeast-2a
ip-192-168-86-220.ap-northeast-2.compute.internal   Ready                         109m    v1.24.13-eks-0a21954   m5.large        ap-northeast-2c
ip-192-168-95-67.ap-northeast-2.compute.internal    Ready,SchedulingDisabled      2m12s   v1.24.13-eks-0a21954   m5.xlarge       ap-northeast-2c

$kubectl delete deployment inflate
deployment.apps "inflate" deleted

$kubectl delete svc -n monitoring grafana
service "grafana" deleted
$helm uninstall karpenter --namespace karpenter
release "karpenter" uninstalled

$aws ec2 describe-launch-templates --filters Name=tag:karpenter.k8s.aws/cluster,Values=${CLUSTER_NAME} |
>     jq -r ".LaunchTemplates[].LaunchTemplateName" |
>     xargs -I{} aws ec2 delete-launch-template --launch-template-name {}
{
    "LaunchTemplate": {
        "LaunchTemplateId": "lt-0bdf1b82218c3ff67",
        "LaunchTemplateName": "karpenter.k8s.aws/10691513453991989385",
        "CreateTime": "2023-05-22T11:52:47+00:00",
        "CreatedBy": "arn:aws:sts::871103481195:assumed-role/myeks2-karpenter/1684755783702281349",
        "DefaultVersionNumber": 1,
        "LatestVersionNumber": 1
    }
}

$eksctl delete cluster --name "${CLUSTER_NAME}"
2023-05-22 20:56:27 [ℹ]  deleting EKS cluster "myeks2"
2023-05-22 20:56:28 [ℹ]  will drain 0 unmanaged nodegroup(s) in cluster "myeks2"
2023-05-22 20:56:28 [ℹ]  starting parallel draining, max in-flight of 1

아래는 배포된 자원을 삭제한 후의 스크린 샷이다. 로그와 EKS-NODE-VIEW를 통해 관련 내용을 확인하면 된다.



EKS 스터디 4주차
Sat, 20 May 2023 10:34:25 GMT


요약
이번 4주차 주제는 Observability이다. 이번 실습에서는 AWS에서 기본적으로 제공해주는 기능과 프로메테우스, 그라파나 등을 직접 배포해보며 학습했다. 순서는 AWS에서 제공해주는 콘솔을 통한 로깅, CloudWatch로 시작되고 Metrics-server, kwatch 등 다양한 툴을 실제 클러스터에 배포해본다. 이후 프로메테우스와 그라파나와 같은 대표적인 모니터링 툴을 사용해보며 마무리된다. 


핵심용어

observability

IT 및 클라우드 컴퓨팅에서 통합 가시성이란 로그, 메트릭, 추적과 같이 시스템이 생성하는 데이터를 기반으로 시스템의 현재 상태를 측정하는 기능!
Logging 어떤일 , Metrics 어떤지표 , Tracing 왜? 분석 

메트릭 시스템이란?

먼저, 메트릭에 대해 알아보면 숫자 측정값으로 모니터링하는 데 주로 사용한다. 메트릭 시스템이란 목표대상의 상태를 수집하고 관리, 모니터링하는 시스템이다. 




배포환경
프로메테우스, 그라파나 등 이번에는 리소스를 많이 쓰는 툴을 사용하므로 노드의 인스턴스 사양이 기존과 달라졌다. 이번에는 t3.xlarge 을 인스턴스 사양을 사용한다. 가시다님이 AWS CloudFormation 파일을 준비해주셨다.
3주차에서 진행했던 것과 같이, 기본 설정을 진행해야 한다. 그 중 LB & External DNS 을 진행하지 않으면 이번 실습 중 안되는 것이 있으니 꼭 진행해야 한다. 3주차 링크
추가적으로 SSL인증서 발급이 필요하다. 관련된 내용은 Logging 파트에서 확인할 수 있다.
EKS Console
쿠버네티스 API를 통해서 리소스 및 정보를 확인 할 수 있습니다.  관련된 시스템을 AWS에서 지속적으로 관리 및 업데이트를 한다고 한다. 
AWS Workshop에서 자세하게 확인할 수 있다. 
Logging
AWS EKS에서 다양한 로깅과 모니터링도 제공한다. AWS에서 컨트롤 플레인을 제어하기에 접근할 수 없지만, 로그는 확인할 수 있다. AWS Docs에서 자세한 내용을 확인할 수 있다. 
또, audit log가 전체 스트림의 90프로 이상을 차지 하기 때문에 활성화할 때 비용관점에서 유의하시는게 좋다고 한다. 
aws cli를 통해 클러스터의 로깅옵션을 아래와 같이 설정시키면 로그를 AWS 콘솔에서 확인할 수 있다.
$aws eks **update-cluster-config** --region $AWS_DEFAULT_REGION --name $CLUSTER_NAME \
    --logging '{"clusterLogging":[{"types":["**api**","**audit**","**authenticator**","**controllerManager**","**scheduler**"],"enabled":**true**}]}'
API서버가 메트릭을 노출하는 엔드포인트 AWS Blog → 생략
# 아래의 명령어를 통해 반환하는 엔드포인트는 API서버가 메트릭을 노출하는 엔드포인트
$kubectl get --raw /metrics | grep "etcd_db_total_size_in_bytes"
아래는 관련된 로그를 직접 확인해보는 명령어이다.
# 로그 스트림
$aws logs tail /aws/eks/$CLUSTER_NAME/cluster --log-stream-name-prefix kube-controller-manager --follow
$kubectl scale deployment -n kube-system coredns --replicas=1
deployment.apps/coredns scaled
$kubectl scale deployment -n kube-system coredns --replicas=2
deployment.apps/coredns scaled
# 로그 스트림 확인
$aws logs tail /aws/eks/$CLUSTER_NAME/cluster --log-stream-name-prefix kube-controller-manager --follow
2023-05-17T10:37:01.000000+00:00 kube-controller-manager-03d7b752d418a3019486688cc6ced1a5 I0517 10:37:01.356908      10 replica_set.go:613] "Too many replicas" replicaSet="kube-system/coredns-6777fcd775" need=1 deleting=1
2023-05-17T10:37:01.000000+00:00 kube-controller-manager-03d7b752d418a3019486688cc6ced1a5 I0517 10:37:01.356955      10 replica_set.go:241] "Found related ReplicaSets" replicaSet="kube-system/coredns-6777fcd775" relatedReplicaSets=[kube-system/coredns-dc4979556 kube-system/coredns-6777fcd775]
2023-05-17T10:37:01.000000+00:00 kube-controller-manager-03d7b752d418a3019486688cc6ced1a5 I0517 10:37:01.357037      10 controller_utils.go:592] "Deleting pod" controller="coredns-6777fcd775" pod="kube-system/coredns-6777fcd775-k9ksb"
2023-05-17T10:37:01.000000+00:00 kube-controller-manager-03d7b752d418a3019486688cc6ced1a5 I0517 10:37:01.357138      10 event.go:294] "Event occurred" object="kube-system/coredns" fieldPath="" kind="Deployment" apiVersion="apps/v1" type="Normal" reason="ScalingReplicaSet" message="Scaled down replica set coredns-6777fcd775 to 1"
2023-05-17T10:37:01.000000+00:00 kube-controller-manager-03d7b752d418a3019486688cc6ced1a5 I0517 10:37:01.407444      10 event.go:294] "Event occurred" object="kube-system/coredns-6777fcd775" fieldPath="" kind="ReplicaSet" apiVersion="apps/v1" type="Normal" reason="SuccessfulDelete" message="Deleted pod: coredns-6777fcd775-k9ksb"
$eksctl utils update-cluster-logging --cluster $CLUSTER_NAME --region $AWS_DEFAULT_REGI --disable-types all --approve
2023-05-17 19:37:40 [ℹ]  will update CloudWatch logging for cluster "myeks" in "ap-northeast-2" (no types to enable & disable types: api, audit, authenticator, controllerManager, scheduler)
2023-05-17 19:38:12 [✔]  configured CloudWatch logging for cluster "myeks" in "ap-northeast-2" (no types enabled & disabled types: api, audit, authenticator, controllerManager, scheduler)

Control Plane metrics with Prometheus & CW Logs Insights 쿼리 - Docs
아래의 명령어를 통해 다양한 metrics를 확인할 수 있다. 로그를 필터링 하고 싶으면, Logs insights을 사용한다.

$kubectl get --raw /metrics | more
# HELP aggregator_openapi_v2_regeneration_count [ALPHA] Counter of OpenAPI v2 spec regeneration count broken down by causing APIServi
ce name and reason.
# TYPE aggregator_openapi_v2_regeneration_count counter
aggregator_openapi_v2_regeneration_count{apiservice="*",reason="startup"} 0
aggregator_openapi_v2_regeneration_count{apiservice="k8s_internal_local_delegation_chain_0000000002",reason="update"} 0
# HELP aggregator_openapi_v2_regeneration_duration [ALPHA] Gauge of OpenAPI v2 spec regeneration duration in seconds.
# TYPE aggregator_openapi_v2_regeneration_duration gauge
aggregator_openapi_v2_regeneration_duration{reason="startup"} 0.064469015
aggregator_openapi_v2_regeneration_duration{reason="update"} 0.022995886
# HELP aggregator_unavailable_apiservice [ALPHA] Gauge of APIServices which are marked as unavailable broken down by APIService name.
# TYPE aggregator_unavailable_apiservice gauge
aggregator_unavailable_apiservice{name="v1."} 0
aggregator_unavailable_apiservice{name="v1.admissionregistration.k8s.io"} 0
aggregator_unavailable_apiservice{name="v1.apiextensions.k8s.io"} 0
aggregator_unavailable_apiservice{name="v1.apps"} 0
aggregator_unavailable_apiservice{name="v1.authentication.k8s.io"} 0
aggregator_unavailable_apiservice{name="v1.authorization.k8s.io"} 0
aggregator_unavailable_apiservice{name="v1.autoscaling"} 0
aggregator_unavailable_apiservice{name="v1.batch"} 0
aggregator_unavailable_apiservice{name="v1.certificates.k8s.io"} 0
aggregator_unavailable_apiservice{name="v1.coordination.k8s.io"} 0
aggregator_unavailable_apiservice{name="v1.discovery.k8s.io"} 0
aggregator_unavailable_apiservice{name="v1.events.k8s.io"} 0
aggregator_unavailable_apiservice{name="v1.networking.k8s.io"} 0
aggregator_unavailable_apiservice{name="v1.node.k8s.io"} 0
aggregator_unavailable_apiservice{name="v1.policy"} 0
aggregator_unavailable_apiservice{name="v1.rbac.authorization.k8s.io"} 0

$kubectl get --raw /metrics | grep "etcd_db_total_size_in_bytes"
# HELP etcd_db_total_size_in_bytes [ALPHA] Total size of the etcd database file physically allocated in bytes.
# TYPE etcd_db_total_size_in_bytes gauge
etcd_db_total_size_in_bytes{endpoint="http://10.0.160.16:2379"} 4.337664e+06
etcd_db_total_size_in_bytes{endpoint="http://10.0.32.16:2379"} 4.374528e+06
etcd_db_total_size_in_bytes{endpoint="http://10.0.96.16:2379"} 4.370432e+06

$kubectl get --raw=/metrics | grep apiserver_storage_objects |awk '$2>100' |sort -g -k 2
# HELP apiserver_storage_objects [STABLE] Number of stored objects at the time of last check split by kind.
# TYPE apiserver_storage_objects gauge
apiserver_storage_objects{resource="events"} 246


$kubectl get --raw=/metrics | grep apiserver_storage_objects |awk '$2>100' |sort -g -k 2
# HELP apiserver_storage_objects [STABLE] Number of stored objects at the time of last check split by kind.
# TYPE apiserver_storage_objects gauge
apiserver_storage_objects{resource="events"} 246

$kubectl get --raw=/metrics | grep apiserver_storage_objects |awk '$2>50' |sort -g -k 2
# HELP apiserver_storage_objects [STABLE] Number of stored objects at the time of last check split by kind.
# TYPE apiserver_storage_objects gauge
apiserver_storage_objects{resource="clusterrolebindings.rbac.authorization.k8s.io"} 72
apiserver_storage_objects{resource="clusterroles.rbac.authorization.k8s.io"} 86
apiserver_storage_objects{resource="events"} 246

아래의 실습을 진행하기 위한 선수작업으로 SSL인증서 발급이 필요하다.(SSL 인증서 발급이 필요하다)
CERT_ARN=$(aws acm list-certificates --query 'CertificateSummaryList[].CertificateArn[]' --output text)
echo $CERT_ARN
AWS Certificate Manager에서 인증서를 발급하면 된다. 나는 DNS 인증방식을 택했고, 인증서를 클릭하여 세부정보를 본 뒤, Route53에서 레코드 생성을 누르면 된다. 

하지만, 시간이 오래걸려 나는 이메일인증방식으로 바꿨다. 그러면 aws와 연결된 이메일로 인증메일이 온다.

수락하면, 바로 인증이 완료된다. 
스터디원 중에 감사하게, 관련 명령어를 정리해주신 분이 있다. 터미널을 통해 아래와 같이 진행할 수 있다.

ACM 인증서 명령어


EKS 스터디 3주차
Sat, 13 May 2023 14:41:53 GMT
요약
이번주에는 스토리지와 관련된 부분을 배웠습니다. 순서는 EKS 배포 환경, LB, External DNS 등 2주차 내용에 이어 추가적으로 진행하는 부분, 스토리지에 대한 이해와 각 방식에 대한 실습을 진행한 뒤 EBS, EFS 를 적용해보는 것으로 마무리됩니다. 
환경 배포
환경배포파일이 저번주와 달라졌습니다. 기존에 것에서 저번주차와 이번주차 진행할 내용들이 추가되었습니다. 
앞으로 실습내용을 작업용 EC2에서도 확인하기 위해 EFS를 마운트합니다. 
mount -t nfs4 -o nfsvers=4.1,rsize=1048576,wsize=1048576,hard,timeo=600,retrans=2,noresvport ***<자신의 EFS FS ID>***.efs.ap-northeast-2.amazonaws.com:/ /mnt/myefs
kubectl config rename-context admin@myeks.ap-northeast-2.eksctl.io [원하는 이름]@myeks
실습환경에서  AWS LB/ExternalDNS, kube-ops-view를 추가적으로 설치합니다. 설치과정은 아래에서 확인할 수 있습니다.
배포설정
먼저, 기본적인 환경세팅을 진행합니다. 아까 위에서 나왔던 context 변경부터 진행합니다. 
context 변경
# context 변경 
(EKS-study@myeks:N/A) [root@myeks-bastion-EC2 ~] # kubectl config rename-context EKS-study@myeks.ap-northeast-2.eksctl.io $NICK@myeks
Context "EKS-study@myeks.ap-northeast-2.eksctl.io" renamed to "kane@myeks".
(kane@myeks:N/A) [root@myeks-bastion-EC2 ~] #
storage class 확인
kubectl get sc gp2 -o yaml | yh
apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  annotations:
    kubectl.kubernetes.io/last-applied-configuration: |
      {"apiVersion":"storage.k8s.io/v1","kind":"StorageClass","metadata":{"annotations":{"storageclass.kubernetes.io/is-default-class":"true"},"name":"gp2"},"parameters":{"fsType":"ext4","type":"gp2"},"provisioner":"kubernetes.io/aws-ebs","volumeBindingMode":"WaitForFirstConsumer"}
    storageclass.kubernetes.io/is-default-class: "true"
  creationTimestamp: "2023-05-07T14:02:40Z"
  name: gp2
  resourceVersion: "266"
  uid: b8040117-dce8-4173-b8d4-2a77d7a8124f
parameters:
  fsType: ext4
  type: gp2
provisioner: kubernetes.io/aws-ebs
reclaimPolicy: Delete
volumeBindingMode: WaitForFirstConsumer

이제 eks의 모든 노드들이 csinode인지 확인합니다.
csinodes
"kubectl get csinodes" 명령은 Kubernetes 클러스터에서 사용 가능한 모든 CSINode(CSI Node)을 나열합니다. CSINode은 Container Storage Interface(CSI) 스펙을 준수하는 노드입니다. CSI 스펙은 Kubernetes 클러스터에서 다양한 스토리지 시스템과의 통합을 위한 표준 인터페이스를 제공합니다.
$k get csinodes
NAME                                               DRIVERS   AGE
ip-192-168-1-137.ap-northeast-2.compute.internal   0         26m
ip-192-168-2-116.ap-northeast-2.compute.internal   0         26m
ip-192-168-3-151.ap-northeast-2.compute.internal   0         26m 
--label-columns 옵션을 통해 eks node를 조회한 모습입니다. 
$kubectl get node --label-columns=node.kubernetes.io/instance-type,eks.amazonaws.com/capacityType,topology.kubernetes.io/zone
NAME                                               STATUS   ROLES    AGE   VERSION                INSTANCE-TYPE   CAPACITYTYPE   ZONE
ip-192-168-1-137.ap-northeast-2.compute.internal   Ready       29m   v1.24.11-eks-a59e1f0   t3.medium       ON_DEMAND      ap-northeast-2a
ip-192-168-2-116.ap-northeast-2.compute.internal   Ready       29m   v1.24.11-eks-a59e1f0   t3.medium       ON_DEMAND      ap-northeast-2b
ip-192-168-3-151.ap-northeast-2.compute.internal   Ready       29m   v1.24.11-eks-a59e1f0   t3.medium       ON_DEMAND      ap-northeast-2c

$eksctl get iamidentitymapping --cluster myeks
ARN                                            USERNAME                GROUPS                    ACCOUNT
arn:aws:iam::871103481195:role/eksctl-myeks-nodegroup-ng1-NodeInstanceRole-WBR1ZJTQNHTR    system:node:{{EC2PrivateDNSName}}    system:bootstrappers,system:nodes
2주차 추가진행
보안그룹 추가
"--protocol '-1'"은 모든 프로토콜을 허용하도록 설정하는 것을 의미합니다. 이 플래그를 사용하여 TCP, UDP 및 ICMP를 비롯한 모든 프로토콜에 대한 트래픽을 허용할 수 있습니다.
"--cidr"은 허용할 IP 대역을 지정합니다. 여기서는 "192.168.1.100/32"라는 단일 IP 주소를 허용하도록 설정하였습니다.
$aws ec2 authorize-security-group-ingress --group-id $NGSGID --protocol '-1' --cidr 192.168.1.100/32
{
    "Return": true,
    "SecurityGroupRules": [
        {
            "SecurityGroupRuleId": "sgr-0bb4b08586cfb50c5",
            "GroupId": "sg-0c78cd151603fbd80",
            "GroupOwnerId": "871103481195",
            "IsEgress": false,
            "IpProtocol": "-1",
            "FromPort": -1,
            "ToPort": -1,
            "CidrIpv4": "192.168.1.100/32"
        }
    ]
}


aws-load-balancer-controller 설치한다.
$helm repo add eks https://aws.github.io/eks-charts
"eks" has been added to your repositories

$helm repo update
Hang tight while we grab the latest from your chart repositories...
...Successfully got an update from the "eks" chart repository
Update Complete. ⎈Happy Helming!⎈

$helm install aws-load-balancer-controller eks/aws-load-balancer-controller -n kube-system --set clusterName=$CLUSTER_NAME \
>   --set serviceAccount.create=false --set serviceAccount.name=aws-load-balancer-controller

NAME: aws-load-balancer-controller
LAST DEPLOYED: Sun May  7 23:47:07 2023
NAMESPACE: kube-system
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
AWS Load Balancer controller installed!
External DNS 적용 : 개인 도메인은 사전에 준비필요!
$echo $MyDomain, $MyDnzHostedZoneId
kaneawsdns.com, /hostedzone/Z06702063E7RRITLLMJRM
#사전에 관련 매니패스트 파일을 준비해주셨다.

$curl -s -O https://raw.githubusercontent.com/gasida/PKOS/main/aews/externaldns.yaml

# External DNS 배포
$MyDomain=$MyDomain MyDnzHostedZoneId=$MyDnzHostedZoneId envsubst < externaldns.yaml | kubectl apply -f -
위의 envsubst 명령어에 대한 간단한 설명
envsubst : 현재 환경변수를 수레에서 사용가능한 변수로 치한 → 앞의 MyDomain, MyDnzHostedZoneId를 알맞게 externaldns.yaml 파일에 적용킨 후 해당 yaml 파일을 kubectl apply 합니다.
매니패스트 파일은 service account, cluster role, cluster role binding, deployment, service, configmap 등이 포함되어 있습니다. 토글에는 자세한 내용이 담겨있습니다. 자세한 내용은 링크를 통해서 확인할 수 있습니다.
이제 UI 툴인 kube-ops-view를 설치해보겠습니다.
kubeops 설치
#repo 추가 
$helm repo add geek-cookbook https://geek-cookbook.github.io/charts/
"geek-cookbook" has been added to your repositories
#kube-ops-view 설치
$helm install kube-ops-view geek-cookbook/kube-ops-view --version 1.2.2 --set env.TZ="Asia/Seoul" --namespace kube-system
NAME: kube-ops-view
LAST DEPLOYED: Sun May  7 23:53:13 2023
NAMESPACE: kube-system
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
1. Get the application URL by running these commands:
  export POD_NAME=$(kubectl get pods --namespace kube-system -l "app.kubernetes.io/name=kube-ops-view,app.kubernetes.io/instance=kube-ops-view" -o jsonpath="{.items[0].metadata.name}")
  echo "Visit http://127.0.0.1:8080 to use your application"
  kubectl port-forward $POD_NAME 8080:8080

#kube-ops-view 서비스의 타입을 "loadBalancer"로 변경하는 모습, patch는 수정할 때 쓰는 명령어
#`-p` 옵션은 json 형태로 수정할 때
$kubectl patch svc -n kube-system kube-ops-view -p '{"spec":{"type":"LoadBalancer"}}'
service/kube-ops-view patched
#서비스에 대한 외부 도메인을 주석으로 달아줌(annotate 주석)
$kubectl annotate service kube-ops-view -n kube-system "external-dns.alpha.kubernetes.io/hostname=kubeopsview.$MyDomain"
service/kube-ops-view annotated
$echo -e "Kube Ops View URL = http://kubeopsview.$MyDomain:8080/#scale=1.5"
Kube Ops View URL = http://kubeopsview.kaneawsdns.com:8080/#scale=1.5
아래는 kubeops 실제 화면입니다. 큰 클러스터안에 노드별로 구분되어있는 것을 확인할 수 있습니다.

파드의 개수를 늘린 모습, 가져다가 되면 구체적으로 정보가 나옵니다.

위의 DEFAULT로 나와있는 부분은 출력형식을 지정하는 것입니다. 
파드는 네임스페이스에 따라 구분됩니다.

스토리지
이제 이번주차의 핵심인 스터리지에 대해서 실습을 진행합니다. 파드 내부의 데이터는 파드와 생명주기가 동일하여 파드가 삭제되면 데이터도 사라집니다. 만약, DB 애플리케이션과 같은 경우 데이터는 보존이 필요합니다. 이럴 경우  persistent volume 을 연결하여 사용합니다. 
PV와 PVC에 대한 내용은 AWS Blog 문서를 참고했습니다.
Persistent Volume(PV)은 실제 스토리지 볼륨을 나타냅니다. 쿠버네티스는 PV 위에 추가 추상화 계층인 PersistentVolumeClaim(PVC)을 가지고 있습니다. 구분하는 이유는 아래의 문서에서 확인할 수 있습니다. 

PV와 PVC의 구분은 Kubernetes 환경에서 두 가지 유형의 사용자가 있다는 개념과 관련이 있습니다.

Kubernetes 관리자: 이 사용자는 클러스터를 유지 관리하고 운영하며 영구 스토리지와 같은 계산 리소스를 추가합니다.
Kubernetes 애플리케이션 개발자: 이 사용자는 애플리케이션을 개발하고 배포합니다.


CSI는 Container Storage Interface로 다양한 스토리지 솔류션에 대한 인터페이스입니다. CSI를 통해 다음과 같은 2가지 방법으로 스토리지를 연결할 수 있습니다.
정적 프로비저닝(Static provisioning)
먼저 관리자가 하나 이상의 PV를 생성하고 애플리케이션 개발자는 PVC를 생성합니다.
동적 프로비저닝(Dynamic provisioning)
동적 프로비저닝을 사용하면 PV객체를 생성할 필요가 없습니다. 대신에, PVC를 생성할 때 내부적으로 자동으로 생성됩니다. Kubernetes는 Storage Class라는 다른 객체를 사용하여 이를 수행합니다.

volume 방식


방식은 위의 그림과 같이 3가지가 있습니다. 첫번째 방식은 파드의 생명주기와 데이터의 생명주기가 같습니다. 데이터를 보존해야할 경우 2~3번째 방식을 이용해야 합니다. 2번째 방식은 아래의 local-path에서 설명할 예정입니다.
emptyDir
먼저, 가시다님의 이미지를 통해 파드의 생명주기와 데이터의 보존주기가 같은 것을 확인한 결과입니다.
$curl -s -O https://raw.githubusercontent.com/gasida/PKOS/main/3/date-busybox-pod.yaml
# 10초 마다 /home/pod-out.txt 에 로그를 남기는 파드 생성
$cat date-busybox-pod.yaml | yh
apiVersion: v1
kind: Pod
metadata:
  name: busybox
spec:
  terminationGracePeriodSeconds: 3
  containers:
  - name: busybox
    image: busybox
    command:
    - "/bin/sh"
    - "-c"
    - "while true; do date >> /home/pod-out.txt; cd /home; sync; sync; sleep 10; done"

$kubectl apply -f date-busybox-pod.yaml
pod/busybox created
# 로그 확인 
$kubectl get pod
NAME      READY   STATUS    RESTARTS   AGE
busybox   1/1     Running   0          11s
kubectl exec busybox -- tail -f /home/pod-out.txt
Sun May  7 15:26:19 UTC 2023
Sun May  7 15:26:29 UTC 2023
^C
$kubectl delete pod busybox
pod "busybox" deleted
$kubectl apply -f date-busybox-pod.yaml
pod/busybox created
# 삭제 후 실행하니, 기존의 로그는 사라진 것을 확인할 수 있음 -> 파드와 데이터의 생명주기가 같음을 확인
$kubectl exec busybox -- tail -f /home/pod-out.txt
Sun May  7 15:26:45 UTC 2023
Sun May  7 15:26:55 UTC 2023
Sun May  7 15:27:05 UTC 2023
Sun May  7 15:27:15 UTC 2023

$kubectl delete pod busybox
pod "busybox" deleted
Local
HostPath는 Kubernetes 노드의 호스트 파일 시스템에 볼륨을 프로비저닝하는 방법입니다. 이것은 가장 간단한 방법이지만 제한적입니다. hostPath 볼륨은 단일 노드에서만 사용할 수 있으며 노드가 중단되면 데이터가 손실됩니다.
Local Path는 노드의 로컬 파일 시스템에 볼륨을 프로비저닝하는 방법입니다. HostPath와 유사하지만 더 유연합니다. 프로비저닝 볼륨은 여러 노드에서 사용할 수 있으며 노드가 중단되어도 데이터가 손실되지 않습니다. local-path에 대한 자세한 내용은 GitHub에서 확인할 수 있습니다.
아래는 Local-Path 방식을 이용하는 PV,PVC에 대한 실습입니다. 
local path 관련 백업은 한승호님이 Velero blog에 올려주셨다.
# strage class 다운로드
$curl -s -O https://raw.githubusercontent.com/rancher/local-path-provisioner/master/deploy/local-path-storage.yaml

# 배포
$kubectl apply -f local-path-storage.yaml
namespace/local-path-storage created
serviceaccount/local-path-provisioner-service-account created
clusterrole.rbac.authorization.k8s.io/local-path-provisioner-role created
clusterrolebinding.rbac.authorization.k8s.io/local-path-provisioner-bind created
deployment.apps/local-path-provisioner created
storageclass.storage.k8s.io/local-path created
configmap/local-path-config created

$kubectl get sc
NAME            PROVISIONER             RECLAIMPOLICY   VOLUMEBINDINGMODE      ALLOWVOLUMEEXPANSION   AGE
local-path      rancher.io/local-path   Delete          WaitForFirstConsumer   false                  25s

Local Path를 통한 동적 프로비저닝에 대한 실습내용입니다.
$cat localpath1.yaml | yh
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: localpath-claim
spec:
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 1Gi
  storageClassName: "local-path"

#PVC 생성
$kubectl apply -f localpath1.yaml
persistentvolumeclaim/localpath-claim created
$kubectl get pvc
NAME              STATUS    VOLUME   CAPACITY   ACCESS MODES   STORAGECLASS   AGE
localpath-claim   Pending                                      local-path     4s

# [data -u]로그를 남기는 파드 생성
$kubectl apply -f localpath2.yaml
pod/app created

# 자동으로 PV가 생성되는 모습
$kubectl get pod,pv,pvc
NAME      READY   STATUS              RESTARTS   AGE
pod/app   0/1     ContainerCreating   0          6s

NAME                                                        CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM                     STORAGECLASS   REASON   AGE
persistentvolume/pvc-88293146-ce9b-4dd0-b473-1ceb489301f3   1Gi        RWO            Delete           Bound    default/localpath-claim   local-path              2s

NAME                                    STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS   AGE
persistentvolumeclaim/localpath-claim   Bound    pvc-88293146-ce9b-4dd0-b473-1ceb489301f3   1Gi        RWO            local-path     48s
위의 내용을 통해 동적프로비저닝을 확인했습니다. 현재와 같은 방식은 노드의 볼륨을 사용하기에, PV는 파드가 존재하는 노드에 생성됩니다. 
$kubectl describe pv    # Node Affinity 확인 -> 자신의 워커노드에서만 생성하도록
Name:              pvc-88293146-ce9b-4dd0-b473-1ceb489301f3
...
Node Affinity:
  Required Terms:
    Term 0:        kubernetes.io/hostname in [ip-192-168-2-116.ap-northeast-2.compute.internal]
...

# 파드가 동작중인 노드 확인
$k get po -o wide
NAME   READY   STATUS    RESTARTS   AGE   IP              NODE                                               NOMINATED NODE   READINESS GATES
app    1/1     Running   0          42s   192.168.2.185   ip-192-168-2-116.ap-northeast-2.compute.internal              

# 접속해서 파드가 남긴 로그 확인
ssh ec2-user@$N2 tree /opt/local-path-provisioner
/opt/local-path-provisioner
└── pvc-88293146-ce9b-4dd0-b473-1ceb489301f3_default_localpath-claim
    └── out.txt

ssh ec2-user@$N2 tail -f /opt/local-path-provisioner/pvc-88293146-ce9b-4dd0-b473-1ceb489301f3_default_localpath-claim/out.txt
Sun May 7 15:30:47 UTC 2023
Sun May 7 15:30:52 UTC 2023
Sun May 7 15:30:57 UTC 2023
Sun May 7 15:31:02 UTC 2023
Sun May 7 15:31:07 UTC 2023
Sun May 7 15:31:12 UTC 2023

# 파드 삭제 
$kubectl delete pod app
pod "app" deleted

# 파드가 삭제되어도 데이터는 유지됨
$ssh ec2-user@$N2 tree /opt/local-path-provisioner
/opt/local-path-provisioner
└── pvc-88293146-ce9b-4dd0-b473-1ceb489301f3_default_localpath-claim
    └── out.txt

1 directory, 1 file

# 파드를 재생성하여 데이터 보존을 한번 더 확인
$kubectl apply -f localpath2.yaml
pod/app created
$kubectl exec -it app -- head /data/out.txt
...
Sun May 7 15:30:02 UTC 2023
Sun May 7 15:30:07 UTC 2023

# 이전과는 다르게 로그가 그대로 유지됨
# 중간에 시간이 짤리는 것은 파드가 삭제 후 재시작하는 사이 시간
$kubectl exec -it app -- tail -f /data/out.txt
..
Sun May 7 15:31:27 UTC 2023
Sun May 7 15:31:32 UTC 2023
Sun May 7 15:31:37 UTC 2023
**Sun May 7 15:31:42 UTC 2023
Sun May 7 15:32:01 UTC 2023**

# 자원을 모두 제거
$kubectl delete pod app
pod "app" deleted

$kubectl delete pvc localpath-claim
persistentvolumeclaim "localpath-claim" deleted

# pv 삭제 후, 관련 볼륨이 사라진 것을 확인할 수 있음.
$ssh ec2-user@$N2 tree /opt/local-path-provisioner
/opt/local-path-provisioner

0 directories, 0 files
AWS EBS Controller
EBS-CSI를 사용하기 위한 절차입니다.
EBS는 동적 프로비저닝이 가능하기에, PVC 와 파드를 생성하면 자동적으로 PV가 할당됩니다.

ISRA 설정 : AWS관리형 정책 AmazonEBSCSIDriverPolicy 사용

add-on 추가: eksctl 이용
 eksctl create addon --name aws-ebs-csi-driver --cluster ${CLUSTER_NAME} --service-account-role-arn arn:aws:iam::${ACCOUNT_ID}:role/AmazonEKS_EBS_CSI_DriverRole --force


ebs-csi-driver 설정과정
# ISRA 설정 : AWS관리형 정책 AmazonEBSCSIDriverPolicy 사용
$eksctl create iamserviceaccount \
>   --name ebs-csi-controller-sa \
>   --namespace kube-system \
>   --cluster ${CLUSTER_NAME} \
>   --attach-policy-arn arn:aws:iam::aws:policy/service-role/AmazonEBSCSIDriverPolicy \
>   --approve \
>   --role-only \
>   --role-name AmazonEKS_EBS_CSI_DriverRole
2023-05-11 09:37:52 [ℹ]  building iamserviceaccount stack "eksctl-myeks-addon-iamserviceaccount-kube-system-ebs-csi-controller-sa"
2023-05-11 09:37:53 [ℹ]  deploying stack "eksctl-myeks-addon-iamserviceaccount-kube-system-ebs-csi-controller-sa"

$eksctl get iamserviceaccount --cluster myeks
NAMESPACE    NAME                ROLE ARN
kube-system    aws-load-balancer-controller    arn:aws:iam::871103481195:role/eksctl-myeks-addon-iamserviceaccount-kube-sy-Role1-RK7A5DTQNNSW
kube-system    ebs-csi-controller-sa        arn:aws:iam::871103481195:role/AmazonEKS_EBS_CSI_DriverRole

# eksctl을 이용해서 ebs-csi-driver 를 설치
$eksctl create addon --name aws-ebs-csi-driver --cluster ${CLUSTER_NAME} --service-account-role-arn arn:aws:iam::${ACCOUNT_ID}:role/AmazonEKS_EBS_CSI_DriverRole --force
2023-05-11 09:41:40 [ℹ]  Kubernetes version "1.24" in use by cluster "myeks"
2023-05-11 09:41:40 [ℹ]  using provided ServiceAccountRoleARN "arn:aws:iam::871103481195:role/AmazonEKS_EBS_CSI_DriverRole"
2023-05-11 09:41:40 [ℹ]  creating addon

$eksctl get addon --cluster ${CLUSTER_NAME}
NAME            VERSION            STATUS        ISSUES    IAMROLE                                UPDATE AVAILABLE    CONFIGURATION VALUES
aws-ebs-csi-driver    v1.18.0-eksbuild.1    CREATING    0    arn:aws:iam::871103481195:role/AmazonEKS_EBS_CSI_DriverRole

$k get sa -n kube-system | grep ebs
ebs-csi-controller-sa                0         33s
ebs-csi-node-sa                      0         33s

# 스토리지 클래스 배포
cat < gp3-sc.yaml
> kind: StorageClass
> apiVersion: storage.k8s.io/v1
> metadata:
>   name: gp3
> allowVolumeExpansion: true # 자동 볼륨 확장
> provisioner: ebs.csi.aws.com
> volumeBindingMode: WaitForFirstConsumer
> parameters:
>   type: gp3
>   allowAutoIOPSPerGBIncrease: 'true'
>   encrypted: 'true'
> EOT

$kubectl apply -f gp3-sc.yaml
storageclass.storage.k8s.io/gp3 created

$kubectl get sc
NAME            PROVISIONER             RECLAIMPOLICY   VOLUMEBINDINGMODE      ALLOWVOLUMEEXPANSION   AGE
gp2 (default)   kubernetes.io/aws-ebs   Delete          WaitForFirstConsumer   false                  27m
gp3             ebs.csi.aws.com         Delete          WaitForFirstConsumer   true                   5s

$kubectl describe sc gp3 | grep Parameters
Parameters:            allowAutoIOPSPerGBIncrease=true,encrypted=true,type=gp3
$kubectl get sc
NAME            PROVISIONER             RECLAIMPOLICY   VOLUMEBINDINGMODE      ALLOWVOLUMEEXPANSION   AGE
gp2 (default)   kubernetes.io/aws-ebs   Delete          WaitForFirstConsumer   false                  28m
gp3             ebs.csi.aws.com         Delete          WaitForFirstConsumer   true       

PV와 PVC, 파드를 생성하여 동적 프로비저닝을 확인하는 과정입니다.
$cat < awsebs-pvc.yaml
> apiVersion: v1
> kind: PersistentVolumeClaim
> metadata:
>   name: ebs-claim
> spec:
>   accessModes:
>     - ReadWriteOnce #### EBS는 여러 노드와 동시에 연결이 가능하기에, Once로 세팅
>   resources:
>     requests:
>       storage: 4Gi
>   storageClassName: gp3
> EOT

$kubectl apply -f awsebs-pvc.yaml
persistentvolumeclaim/ebs-claim created

$kubectl get pvc,pv
NAME                              STATUS    VOLUME   CAPACITY   ACCESS MODES   STORAGECLASS   AGE
persistentvolumeclaim/ebs-claim   Pending                                      gp3            2s
$cat < awsebs-pod.yaml
> apiVersion: v1
> kind: Pod
> metadata:
>   name: app
> spec:
>   terminationGracePeriodSeconds: 3
>   containers:
>   - name: app
>     image: centos
>     command: ["/bin/sh"] 
>     args: ["-c", "while true; do echo \$(date -u) >> /data/out.txt; sleep 5; done"]
>     volumeMounts:
>     - name: persistent-storage
>       mountPath: /data
>   volumes:
>   - name: persistent-storage
>     persistentVolumeClaim:
>       claimName: ebs-claim
> EOT
$kubectl apply -f awsebs-pod.yaml
pod/app created
$kubectl get pvc,pv,pod
NAME                              STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS   AGE
persistentvolumeclaim/ebs-claim   Bound    pvc-7fb5199c-d3d9-4648-a0d0-5f9b9bc006d7   4Gi        RWO            gp3            34s

NAME                                                        CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM               STORAGECLASS   REASON   AGE
persistentvolume/pvc-7fb5199c-d3d9-4648-a0d0-5f9b9bc006d7   4Gi        RWO            Delete           Bound    default/ebs-claim   gp3                     12s

NAME      READY   STATUS              RESTARTS   AGE
pod/app   0/1     ContainerCreating   0          16s

# 추가된 EBS Volume(PV) 확인
$kubectl get VolumeAttachment
NAME                                                                   ATTACHER          PV                                         NODE                                              ATTACHED   AGE
csi-58bd6537e51d9961539e7d5eda35c6d08ab98b890c83e527325b84f7d562eba3   ebs.csi.aws.com   pvc-7fb5199c-d3d9-4648-a0d0-5f9b9bc006d7   ip-192-168-2-93.ap-northeast-2.compute.internal   true       14s

# 추가된 EBS Volume(PV) 확인
$aws ec2 describe-volumes --volume-ids $(kubectl get pv -o jsonpath="{.items[0].spec.csi.volumeHandle}") | jq

{
  "Volumes": [
    {
      "Attachments": [
        {
          "AttachTime": "2023-05-11T00:48:04+00:00",
          "Device": "/dev/xvdaa",
          "InstanceId": "i-0039e023911746fbf",
          "State": "attached",
          "VolumeId": "vol-02735906e67899e1b",
          "DeleteOnTermination": false
        }
      ],
      "AvailabilityZone": "ap-northeast-2b",
      "CreateTime": "2023-05-11T00:48:00.023000+00:00",
      "Encrypted": true,
      "KmsKeyId": "arn:aws:kms:ap-northeast-2:871103481195:key/e92fb931-6368-48c5-9896-43acdaa5f663",
      "Size": 4,
      "SnapshotId": "",
      "State": "in-use",
      "VolumeId": "vol-02735906e67899e1b",
      "Iops": 3000,
      "Tags": [
        {
          "Key": "kubernetes.io/created-for/pvc/namespace",
          "Value": "default"
        },
        {
          "Key": "kubernetes.io/created-for/pvc/name",
          "Value": "ebs-claim"
        },
        {
          "Key": "Name",
          "Value": "myeks-dynamic-pvc-7fb5199c-d3d9-4648-a0d0-5f9b9bc006d7"
        },
        {
          "Key": "KubernetesCluster",
          "Value": "myeks"
        },
        {
          "Key": "CSIVolumeName",
          "Value": "pvc-7fb5199c-d3d9-4648-a0d0-5f9b9bc006d7"
        },
        {
          "Key": "kubernetes.io/cluster/myeks",
          "Value": "owned"
        },
        {
          "Key": "kubernetes.io/created-for/pv/name",
          "Value": "pvc-7fb5199c-d3d9-4648-a0d0-5f9b9bc006d7"
        },
        {
          "Key": "ebs.csi.aws.com/cluster",
          "Value": "true"
        }
      ],
      "VolumeType": "gp3",
      "MultiAttachEnabled": false,
      "Throughput": 125
    }
  ]
}
PersistentVolumeClaim을 생성할 때, AWS EBS는 다중연결이 가능하기에 access모드를 ReadWriteOnce로 설정해야 합니다. EBS의 다중 연결은 GlusterFS와 같은 공유 볼륨을 사용하는 경우와 유사합니다. 

EBS의 다중 연결을 사용하면 특정 볼륨을 여러 대의 EC2 인스턴스에 연결할 수 있습니다. 각 EBS 볼륨은 Multi-Attach 설정시 해당 볼륨이 위치한 가용영역에서 최대 16개의 EC2에 연결할 수 있게 됩니다.

또한, EBS는 같은 AZ에 있어야 접근이 가능하므로 nodeaffinity를 통해 같은 AZ로 PV를 생성합니다.
아래는 EBS 볼륨을 확장하는 실습입니다.
$kubectl exec app -- tail -f /data/out.txt
Thu May 11 00:48:40 UTC 2023
Thu May 11 00:48:45 UTC 2023
Thu May 11 00:48:50 UTC 2023
Thu May 11 00:48:55 UTC 2023
Thu May 11 00:49:00 UTC 2023
Thu May 11 00:49:05 UTC 2023
Thu May 11 00:49:10 UTC 2023
Thu May 11 00:49:15 UTC 2023
Thu May 11 00:49:20 UTC 2023
Thu May 11 00:49:25 UTC 2023
Thu May 11 00:49:30 UTC 2023

$kubectl df-pv
 PV NAME                                   PVC NAME   NAMESPACE  NODE NAME                                        POD NAME  VOLUME MOUNT NAME   SIZE  USED  AVAILABLE  %USED  IUSED  IFREE   %IUSED
 pvc-7fb5199c-d3d9-4648-a0d0-5f9b9bc006d7  ebs-claim  default    ip-192-168-2-93.ap-northeast-2.compute.internal  app       persistent-storage  3Gi   28Ki  3Gi        0.00   12     262132  0.00

$kubectl exec -it app -- sh -c 'df -hT --type=overlay'
Filesystem     Type     Size  Used Avail Use% Mounted on
overlay        overlay   30G  3.6G   27G  12% /

# ebs volume 확장
$kubectl patch pvc ebs-claim -p '{"spec":{"resources":{"requests":{"storage":"10Gi"}}}}'
persistentvolumeclaim/ebs-claim patched

# 자동으로 확장되는 모습
$kubectl exec -it app -- sh -c 'df -hT --type=ext4'
Filesystem     Type  Size  Used Avail Use% Mounted on
/dev/nvme1n1   ext4  9.8G   28K  9.7G   1% /data
$kubectl delete pod app & kubectl delete pvc ebs-claim
[1] 7288
pod "app" deleted
persistentvolumeclaim "ebs-claim" deleted
[1]+  Done                    kubectl delete pod app

EBS controller 에 의해 하나의 PV가 생성되고, 용량이 바뀐 모습


AWS Volume SnapShots Controller
아래는 위와 동일하게, PVC, PV를 생성해서 파드와 연결합니다. 파드는  data -u 로그를 남기며 강제로 파드와 PVC를 삭제한 후,  snapshots을 통해 복구하는 실습을 진행합니다.
snapshot 생성
$kubectl apply -f ebs-volume-snapshot.yaml
volumesnapshot.snapshot.storage.k8s.io/ebs-volume-snapshot created

$kubectl get volumesnapshot
NAME                  READYTOUSE   SOURCEPVC   SOURCESNAPSHOTCONTENT   RESTORESIZE   SNAPSHOTCLASS   SNAPSHOTCONTENT                                    CREATIONTIME   AGE
ebs-volume-snapshot   false        ebs-claim                           4Gi           csi-aws-vsc     snapcontent-ff3a9b11-d8a5-4806-80eb-9c062c4062ad   3s             3s

#아래에 나와있는 snapshot id로 확인하면, 모두 잘 설정되어있다.
$kubectl get volumesnapshot ebs-volume-snapshot -o jsonpath={.status.boundVolumeSnapshotContentName} ; echo
snapcontent-ff3a9b11-d8a5-4806-80eb-9c062c4062ad

$kubectl describe volumesnapshot.snapshot.storage.k8s.io ebs-volume-snapshot
Name:         ebs-volume-snapshot
Namespace:    default
...
Metadata:
...
    Time:            2023-05-13T05:58:36Z
  Resource Version:  11187
  UID:               ff3a9b11-d8a5-4806-80eb-9c062c4062ad
Spec:
  Source:
    Persistent Volume Claim Name:  ebs-claim
  Volume Snapshot Class Name:      csi-aws-vsc
Status:
  Bound Volume Snapshot Content Name:  snapcontent-ff3a9b11-d8a5-4806-80eb-9c062c4062ad
  Creation Time:                       2023-05-13T05:58:35Z
  Ready To Use:                        false
  Restore Size:                        4Gi
Events:
  Type    Reason            Age   From                 Message
  ----    ------            ----  ----                 -------
  Normal  CreatingSnapshot  19s   snapshot-controller  Waiting for a snapshot default/ebs-volume-snapshot to be created by the CSI driver.
  Normal  SnapshotCreated   18s   snapshot-controller  Snapshot default/ebs-volume-snapshot was successfully created by the CSI driver.

###
# 블로그에서는 중복된 조회 제거
$kubectl get volumesnapshotcontents
NAME                                               READYTOUSE   RESTORESIZE   DELETIONPOLICY   DRIVER            VOLUMESNAPSHOTCLASS   VOLUMESNAPSHOT        VOLUMESNAPSHOTNAMESPACE   AGE
snapcontent-ff3a9b11-d8a5-4806-80eb-9c062c4062ad   false        4294967296    Delete           ebs.csi.aws.com   csi-aws-vsc           ebs-volume-snapshot   default                   38s

# 파드와 pvc를 제거하여, pv가 제거된 모습
$kubectl delete pod app && kubectl delete pvc ebs-claim
pod "app" deleted
persistentvolumeclaim "ebs-claim" deleted

$kubectl get pvc,pv
No resources found

$k get volumesnapshot
NAME                  READYTOUSE   SOURCEPVC   SOURCESNAPSHOTCONTENT   RESTORESIZE   SNAPSHOTCLASS   SNAPSHOTCONTENT                                    CREATIONTIME   AGE
ebs-volume-snapshot   true         ebs-claim                           4Gi           csi-aws-vsc     snapcontent-ff3a9b11-d8a5-4806-80eb-9c062c4062ad   7m13s          7m13s

$cat < ebs-snapshot-restored-claim.yaml
> apiVersion: v1
> kind: PersistentVolumeClaim
> metadata:
>   name: ebs-snapshot-restored-claim
> spec:
>   storageClassName: gp3
>   accessModes:
>     - ReadWriteOnce
>   resources:
>     requests:
>       storage: 4Gi
>   dataSource:
>     name: ebs-volume-snapshot
>     kind: VolumeSnapshot
>     apiGroup: snapshot.storage.k8s.io
> EOT

$kubectl apply -f ebs-snapshot-restored-claim.yaml
persistentvolumeclaim/ebs-snapshot-restored-claim created

$kubectl get pvc,pv
NAME                                                STATUS    VOLUME   CAPACITY   ACCESS MODES   STORAGECLASS   AGE
persistentvolumeclaim/ebs-snapshot-restored-claim   Pending                                      gp3            3s

## 블로그에서는 curl 또한 제거
$curl -s -O https://raw.githubusercontent.com/gasida/PKOS/main/3/ebs-snapshot-restored-pod.yaml
$cat ebs-snapshot-restored-pod.yaml | yh
apiVersion: v1
kind: Pod
metadata:
  name: app
spec:
  containers:
  - name: app
    image: centos
    command: ["/bin/sh"]
    args: ["-c", "while true; do echo $(date -u) >> /data/out.txt; sleep 5; done"]
    volumeMounts:
    - name: persistent-storage
      mountPath: /data
  volumes:
  - name: persistent-storage
    persistentVolumeClaim:
      claimName: ebs-snapshot-restored-claim

$kubectl apply -f ebs-snapshot-restored-pod.yaml
pod/app created

$k get po
NAME   READY   STATUS    RESTARTS   AGE
app    1/1     Running   0          13s

#로그가 이어지는 것을 확인할 수 있다.
$k exec app -- cat /data/out.txt
...
Sat May 13 05:58:23 UTC 2023
Sat May 13 05:58:28 UTC 2023
Sat May 13 06:07:12 UTC 2023
Sat May 13 06:07:17 UTC 2023

$kubectl delete pod app && kubectl delete pvc ebs-snapshot-restored-claim && kubectl delete volumesnapshots ebs-volume-snapshot
pod "app" deleted
persistentvolumeclaim "ebs-snapshot-restored-claim" deleted
volumesnapshot.snapshot.storage.k8s.io "ebs-volume-snapshot" deleted
아래는 스냅샷을 AWS 콘솔을 통해 확인한 모습이다. 

AWS EFS Controller
먼저 EFS(Amazon Elastic File System)는 그림과 같이 여러 가용영역과 호환가능한 파일시스템입니다.
아래는 EFS를 통해 PV,PVC를 생성하는 실습내용입니다.
먼저 작업용 EC2에도 efs mount를 진행합니다.
$mount -t nfs4 -o nfsvers=4.1,rsize=1048576,wsize=1048576,hard,timeo=600,retrans=2,noresvport fs-0b2bc433bc72b5727.efs.ap-northeast-2.amazonaws.com:/ /mnt/myefs
$df -hT --type nfs4
Filesystem                                              Type  Size  Used Avail Use% Mounted on
fs-0b2bc433bc72b5727.efs.ap-northeast-2.amazonaws.com:/ nfs4  8.0E     0  8.0E   0% /mnt/myefs
EFS-CSI 설치과정
# 정보 확인
$aws efs describe-file-systems --query "FileSystems[*].FileSystemId" --output textfs-0f70f92a10cc5af1a
# json 다운로드
$curl -s -O https://raw.githubusercontent.com/kubernetes-sigs/aws-efs-csi-driver/master/docs/iam-policy-example.json

$aws iam create-policy --policy-name AmazonEKS_EFS_CSI_Driver_Policy --policy-document file://iam-policy-example.json
{
    "Policy": {
        "PolicyName": "AmazonEKS_EFS_CSI_Driver_Policy",
        "PolicyId": "ANPA4VUOQIVV6AGY3ABHQ",
        "Arn": "arn:aws:iam::871103481195:policy/AmazonEKS_EFS_CSI_Driver_Policy",
        "Path": "/",
        "DefaultVersionId": "v1",
        "AttachmentCount": 0,
        "PermissionsBoundaryUsageCount": 0,
        "IsAttachable": true,
        "CreateDate": "2023-05-13T06:21:41+00:00",
        "UpdateDate": "2023-05-13T06:21:41+00:00"
    }
}
# efs-csi 생성
$eksctl create iamserviceaccount \
>   --name efs-csi-controller-sa \
>   --namespace kube-system \
>   --cluster ${CLUSTER_NAME} \
>   --attach-policy-arn arn:aws:iam::${ACCOUNT_ID}:policy/AmazonEKS_EFS_CSI_Driver_Policy \
>   --approve
2023-05-13 15:22:26 [ℹ]  created serviceaccount "kube-system/efs-csi-controller-sa"

## 불필요
$kubectl get sa -n kube-system efs-csi-controller-sa -o yaml | head -5
apiVersion: v1
kind: ServiceAccount
metadata:
  annotations:
    eks.amazonaws.com/role-arn: arn:aws:iam::871103481195:role/eksctl-myeks-addon-iamserviceaccount-kube-sy-Role1-183ANMNPO7E68

$eksctl get iamserviceaccount --cluster myeks
NAMESPACE    NAME                ROLE ARN
kube-system    aws-load-balancer-controller    arn:aws:iam::871103481195:role/eksctl-myeks-addon-iamserviceaccount-kube-sy-Role1-1OWZIVWLLX9JM
kube-system    ebs-csi-controller-sa        arn:aws:iam::871103481195:role/AmazonEKS_EBS_CSI_DriverRole
kube-system    efs-csi-controller-sa        arn:aws:iam::871103481195:role/eksctl-myeks-addon-iamserviceaccount-kube-sy-Role1-183ANMNPO7E68

#efs 구성요소를 helm을 통해 배포
$helm repo add aws-efs-csi-driver https://kubernetes-sigs.github.io/aws-efs-csi-driver/
"aws-efs-csi-driver" has been added to your repositories
$helm repo update
Hang tight while we grab the latest from your chart repositories...
...Successfully got an update from the "aws-efs-csi-driver" chart repository
Update Complete. ⎈Happy Helming!⎈
$helm upgrade -i aws-efs-csi-driver aws-efs-csi-driver/aws-efs-csi-driver \
>     --namespace kube-system \
>     --set image.repository=602401143452.dkr.ecr.${AWS_DEFAULT_REGION}.amazonaws.com/eks/aws-efs-csi-driver \
>     --set controller.serviceAccount.create=false \
>     --set controller.serviceAccount.name=efs-csi-controller-sa
Release "aws-efs-csi-driver" does not exist. Installing it now.
NAME: aws-efs-csi-driver
LAST DEPLOYED: Sat May 13 16:18:05 2023
NAMESPACE: kube-system
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
To verify that aws-efs-csi-driver has started, run:

$helm list -n kube-system
NAME                  NAMESPACE      REVISION    UPDATED                                    STATUS      CHART                       APP VERSION
aws-efs-csi-driver    kube-system    1           2023-05-13 16:18:05.885009102 +0900 KST    deployed    aws-efs-csi-driver-2.4.3    1.5.5

$kubectl get pod -n kube-system -l "app.kubernetes.io/name=aws-efs-csi-driver,app.kubernetes.io/instance=aws-efs-csi-driver"
NAME                                  READY   STATUS              RESTARTS   AGE
efs-csi-controller-6f64dcc5dc-6hbkc   0/3     ContainerCreating   0          9s
efs-csi-controller-6f64dcc5dc-wf4ks   0/3     ContainerCreating   0          9s
efs-csi-node-qs7sr                    0/3     ContainerCreating   0          9s
efs-csi-node-xtvvm                    0/3     ContainerCreating   0          9s
efs-csi-node-zvzcs                    0/3     ContainerCreating   0          9s
이제 K8S에서 제공해준 샘플 코드를 다운받아, 실습을 진행합니다.
$git clone https://github.com/kubernetes-sigs/aws-efs- qq-driver.git /root/efs-csiCloning into '/root/efs-csi'...
remote: Enumerating objects: 16052, done.
remote: Counting objects: 100% (269/269), done.
remote: Compressing objects: 100% (185/185), done.
remote: Total 16052 (delta 65), reused 236 (delta 57), pack-reused 15783
Receiving objects: 100% (16052/16052), 16.90 MiB | 20.51 MiB/s, done.
Resolving deltas: 100% (7777/7777), done.

$cd /root/efs-csi/examples/kubernetes/multiple_pods/specs && tree
.
├── claim.yaml
├── pod1.yaml
├── pod2.yaml
├── pv.yaml
└── storageclass.yaml
0 directories, 5 files

$cat storageclass.yaml | yh
kind: StorageClass
apiVersion: storage.k8s.io/v1
metadata:
  name: efs-sc
provisioner: efs.csi.aws.com

$kubectl apply -f storageclass.yaml
storageclass.storage.k8s.io/efs-sc created

$k get sc
NAME            PROVISIONER             RECLAIMPOLICY   VOLUMEBINDINGMODE      ALLOWVOLUMEEXPANSION   AGE
efs-sc          efs.csi.aws.com         Delete          Immediate              false                  10s
gp2 (default)   kubernetes.io/aws-ebs   Delete          WaitForFirstConsumer   false                  139m
gp3             ebs.csi.aws.com         Delete          WaitForFirstConsumer   true                   109m

# 현재 EFS ID를 지정하는 모습
$EfsFsId=$(aws efs describe-file-systems --query "FileSystems[*].FileSystemId" --output text)
$sed -i "s/fs-4af69aab/$EfsFsId/g" pv.yaml
$echo $EfsFsId
fs-0f70f92a10cc5af1a

$cat pv.yaml | yh
apiVersion: v1
kind: PersistentVolume
metadata:
  name: efs-pv
spec:
  capacity:
    storage: 5Gi
  volumeMode: Filesystem
  accessModes:
    - ReadWriteMany
  persistentVolumeReclaimPolicy: Retain
  storageClassName: efs-sc
  csi:
    driver: efs.csi.aws.com
    volumeHandle: fs-0f70f92a10cc5af1a
# 정적 프로비저닝이라 pv를 먼저 생성하는 모습
$kubectl apply -f pv.yaml
persistentvolume/efs-pv created

$cat claim.yaml | yh
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: efs-claim
spec:
  accessModes:
    - ReadWriteMany
  storageClassName: efs-sc
  resources:
    requests:
      storage: 5Gi

$kubectl apply -f claim.yaml
persistentvolumeclaim/efs-claim created

$k get pv
NAME     CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM               STORAGECLASS   REASON   AGE
efs-pv   5Gi        RWX            Retain           Bound    default/efs-claim   efs-sc                  57s

# 이전과 유사한 data -u 로그를 찍는 파드를 2개 생성
$kubectl apply -f pod1.yaml,pod2.yaml
pod/app1 created
pod/app2 created

$k get pv
NAME     CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS        CLAIM               STORAGECLASS   REASON   AGE
efs-pv   5Gi        RWX            Retain           Terminating   default/efs-claim   efs-sc                  3m32s

$cat pod1.yaml pod2.yaml | yh
apiVersion: v1
kind: Pod
metadata:
  name: app1
...
    args: ["-c", "while true; do echo $(date -u) >> /data/out1.txt; sleep 5; done"]
    volumeMounts:
    - name: persistent-storage
      mountPath: /data
  volumes:
  - name: persistent-storage
    persistentVolumeClaim:
      claimName: efs-claim

apiVersion: v1
kind: Pod
metadata:
  name: app2
..
    args: ["-c", "while true; do echo $(date -u) >> /data/out2.txt; sleep 5; done"]
    volumeMounts:
    - name: persistent-storage
      mountPath: /data
  volumes:
  - name: persistent-storage
    persistentVolumeClaim:
      claimName: efs-claim

$k exec -it app1 -- sh -c "df -hT -t nfs4"
Filesystem           Type            Size      Used Available Use% Mounted on
127.0.0.1:/          nfs4            8.0E         0      8.0E   0% /data
$k exec -it app1 -- cat /data/out1.txt
...
Sat May 13 07:25:50 UTC 2023
Sat May 13 07:25:55 UTC 2023

# 작업용 EC2에도 공유되는 모습.
$tree /mnt/myefs/
/mnt/myefs/
├── out1.txt
└── out2.txt

0 directories, 2 files

$kubectl delete pvc efs-claim && kubectl delete pv efs-pv && kubectl delete sc efs-sc
persistentvolumeclaim "efs-claim" deleted
persistentvolume "efs-pv" deleted
storageclass.storage.k8s.io "efs-sc" deleted
아래는 EFS의 네트워크 모습입니다. 현재 노드가 있는 3개의 가용영역이 모두 있는 것을 확인할 수 있습니다.

위에서는 정적 프로비저닝으로 테스트를 진행했지만, EFS에는 동적 프로비저닝 기능이 1.2 버전부터 지원하여 동적 프로비저닝도 진행해봤다. 위의 내용에서 동적프로비저닝을 테스트하면 다음과 같이 자동으로 PV가 할당되지 않아 PVC와 파드가 생성되지 못한다.
# 모니터링 
Every 2.0s: kubectl get sc efs-sc; echo; kubectl get pv,pvc,pod                                            Sat May 13 16:30:46 2023

NAME     PROVISIONER       RECLAIMPOLICY   VOLUMEBINDINGMODE   ALLOWVOLUMEEXPANSION   AGE
efs-sc   efs.csi.aws.com   Delete          Immediate           false                  10m

NAME                              STATUS    VOLUME   CAPACITY   ACCESS MODES   STORAGECLASS   AGE
persistentvolumeclaim/efs-claim   Pending                                      efs-sc         42s

NAME       READY   STATUS    RESTARTS   AGE
pod/app1   0/1     Pending   0          33s
pod/app2   0/1     Pending   0          33s
파드의 로그
Events:
  Type     Reason            Age                 From               Message
  ----     ------            ----                ----               -------
  Warning  FailedScheduling  15s (x4 over 100s)  default-scheduler  0/3 nodes are available: 3 pod has unbound immediate PersistentVolumeClaims. preemption: 0/3 nodes are available: 3 Preemption is not helpful for scheduling.
  Normal   Scheduled         7s                  default-scheduler  Successfully assigned default/app1 to ip-192-168-2-52.ap-northeast-2.compute.internal
PVC 로그
Events:
  Type     Reason                Age                  From                                                                                                   Message
  ----     ------                ----                 ----                                                                                                   -------
  Normal   Provisioning          96s (x7 over 2m39s)  efs.csi.aws.com_ip-192-168-3-190.ap-northeast-2.compute.internal_d0fa0b24-c916-44ba-befc-922b6eb49470  External provisioner is provisioning volume for claim "default/efs-claim"
  Warning  ProvisioningFailed    96s (x7 over 2m39s)  efs.csi.aws.com_ip-192-168-3-190.ap-northeast-2.compute.internal_d0fa0b24-c916-44ba-befc-922b6eb49470  failed to provision volume with StorageClass "efs-sc": rpc error: code = InvalidArgument desc = Missing provisioningMode parameter
  Normal   Provisioning          96s (x7 over 2m39s)  efs.csi.aws.com_ip-192-168-1-203.ap-northeast-2.compute.internal_74db5f2e-b1e1-4f54-b9b2-cede890dddf7  External provisioner is provisioning volume for claim "default/efs-claim"
  Warning  ProvisioningFailed    96s (x7 over 2m39s)  efs.csi.aws.com_ip-192-168-1-203.ap-northeast-2.compute.internal_74db5f2e-b1e1-4f54-b9b2-cede890dddf7  failed to provision volume with StorageClass "efs-sc": rpc error: code = InvalidArgument desc = Missing provisioningMode parameter
  Normal   ExternalProvisioning  80s (x8 over 2m39s)  persistentvolume-controller                                                                            waiting for a volume to be created, either by external provisioner "efs.csi.aws.com" or manually created by system administrator
EFS 동적 프로비저닝
EFS에 대한 동적프로비저닝에 대한 설명은 AWS Blog과 GitHub에서 자세하게 확인할 수 있습니다.
다른 과정은 앞에서와 똑같고, 스토리지 클래스와 파드만 달라진다.
cat storageclass.yaml
kind: StorageClass
apiVersion: storage.k8s.io/v1
metadata:
  name: efs-sc
provisioner: efs.csi.aws.com
parameters:
  provisioningMode: efs-ap
  fileSystemId: fs-0b2bc433bc72b5727 # 자신의 EFS ID
  directoryPerms: "700"
cat pod.yaml
---
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: efs-claim
spec:
  accessModes:
    - ReadWriteMany
  storageClassName: efs-sc
  resources:
    requests:
      storage: 5Gi
---
apiVersion: v1
kind: Pod
metadata:
  name: efs-app
spec:
  containers:
    - name: app
      image: centos
      command: ["/bin/sh"]
      args: ["-c", "while true; do echo $(date -u) >> /data/out; sleep 5; done"]
      volumeMounts:
        - name: persistent-storage
          mountPath: /data
  volumes:
    - name: persistent-storage
      persistentVolumeClaim:
        claimName: efs-claim
이유를 모르겠으나, 동적프로비저닝은 오류가 발생했다. 문서 그대로 진행하고, 오류를 찾아봤으나 아직 해결하지 못했다.
Every 2.0s: kubectl get sc efs-sc; echo; kubectl get pv,pvc,pod                                            Sat May 13 22:45:27 2023

NAME     PROVISIONER       RECLAIMPOLICY   VOLUMEBINDINGMODE   ALLOWVOLUMEEXPANSION   AGE
efs-sc   efs.csi.aws.com   Delete          Immediate           false                  7m39s

NAME                              STATUS    VOLUME   CAPACITY   ACCESS MODES   STORAGECLASS   AGE
persistentvolumeclaim/efs-claim   Pending                                      efs-sc         7m18s

NAME          READY   STATUS    RESTARTS   AGE
pod/efs-app   0/1     Pending   0          7m18s
PVC에서 발생한 로그
Warning  ProvisioningFailed  26s                efs.csi.aws.com_ip-192-168-3-97.ap-northeast-2.compute.internal_6f23dce4-74d1-4453-b25c-013fcb47be73  failed to provision volume with StorageClass "efs-sc": rpc error: code = Internal desc = Failed to fetch File System info: Describe File System failed: WebIdentityErr: failed to retrieve credentials
caused by: AccessDenied: Not authorized to perform sts:AssumeRoleWithWebIdentity
          status code: 403, request id: 92132222-c11b-4a7c-b546-ddf80b933c1c
  Normal  ExternalProvisioning  14s (x5 over 57s)  persistentvolume-controller  waiting for a volume to be created, either by external provisioner "efs.csi.aws.com" or manually created by system administrator
기타
추가적으로 실습을 진행하다가, 에러가 났던 부분입니다.
아래와 같이 PV 삭제할 때, terminating 단계에서 멈추며 진행이 안된 적이 있다. 관련 자료를 찾아보니 파이널라이저에 의해 삭제가 안되는 것을 알 수 있었다.
k get pv
NAME                                       CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS        CLAIM               STORAGECLASS   REASON   AGE
efs-pv                                     5Gi        RWX            Retain           Available                         efs-sc                  3m49s
pvc-5f762d6c-aff6-4a3a-8ff4-e947563c792a   5Gi        RWX            Delete           Terminating   default/efs-claim   efs-sc                  27m



EKS 스터디 2주차
Sat, 06 May 2023 06:23:55 GMT
요약
2주차의 주제는 네트워크이다. EKS에서 사용하는 CNI인 ENI의 장점과 실습을 통한 원리를 중점적으로 파악하였다. 이후 서비스, 로드밸런서, Ingress, External DNS, Istio로 이어지나 도메인을 구매하는 데 실패하여 External DNS 실습은 진행하지 못했다. (~5.8 진행예정) 화요일날 블로그 포스팅을 작성할 예정이었으나 컨디션이 안좋아서 속도가 안나와 토요일에 와서 포스팅을 했다. 한번에 진행한 실습이 아니다 보니, 자원을 재생성하는 과정에서 IP 등 여러 결과값이 앞과 뒤가 살짝 다를 수 있다. 
이번 블로그에서 사용되는 용어를 정리해보면 다음과 같다.

CNI(Container Network Interface)
ENI(Elastic Network Interface)
  : ec2 내부의 가상 네트워크 인터페이스, ec2에서 여러 개의 IP주소 사용가능
Prefix Delegation
  : 접두사 위임으로, 192.168.1.0/24와 같이 네트워크 대역을 확인하는 상위 비트 개수를 위임한다.
CIDR(Classless Inter-Domain Routing)
  : 기존 클래스인 A,B,C 와 같이 고정적인 방법으로 네트워크 대역을 설정하는 것이 아닌 유연하게 네트워크 대역을 설정하는 방법

배포
배포는 CloudNet 팀에서 준비해주신 원클릭 CloudFormation을 통해 진행했다. 관련 자료는 YAML부분을 참고하면 되고, ec2 type은 상황에 맞게 변경해주면 된다. 현재 기본값은 t3.medium 이나 추후 grafana 등 리소스가 많이 필요하면 타입을 상향하면 된다. 배포한 아키텍처는 다음과 같다. 가시다님이 친절하게 아래와 같이 설명까지 써주셨다.
사전 준비 : AWS 계정, SSH 키 페어, IAM 계정 생성 후 키
전체 구성도 : VPC 1개(퍼블릭 서브넷 3개, 프라이빗 서브넷 3개), EKS 클러스터(Control Plane), 관리형 노드 그룹(EC2 3대), Add-on

실습이 종료된 이후 아래의 명령어를 입력하면, 모든 자원을 삭제할 수 있다. EKS는 스탑기능이 없으니, 진행한 실습이 끝났다면 바로 삭제해줘야 비용을 최소화할 수 있다.
eksctl delete cluster --name $CLUSTER_NAME && aws cloudformation delete-stack --stack-name $CLUSTER_NAME
AWS VPC CNI
ENI 장점
파드의 ip를 할당해준다. 해당 ip 대역은 노드의 ip 대역과 같아서 직접 통신이 가능하다는 장점이 있다. 직접 통신이 가능하다면, 중간에 IP를 적절하게 변경하는 연산이 필요없다. 이는 컴퓨팅 리소스를 아낄 수 있고 성능을 향상시킨다. 

파드와 노드의 네트워크 대역이 같으면 오버레이과정을 안거쳐도 된다. 기존 패킷에 대한 업데이트 없이(연산) 그대로 전달할 수 있다.
 
최대 파드 개수
Amazon CNI에 대한 자세한 내용은 GitHub에서 확인할 수 있다. 문서를 확인하면 ENI의 기본주소를 노드의 IP로 설정하고, --max-pods 의 값을 the number of ENIs for the instance type × (the number of IPs per ENI - 1)) + 2 로 권장한다. 관련 이유를 살펴보면 네트워크의 안정성을 위해 제한을 두었다는 설명을 확인할 수 있고, 아래의 토글에서 각 인스턴스별 제한을 확인할 수 있다.
#현재 배포된 EKS의 max pods의 값 확인
$k describe node ip-192-168-1-139.ap-northeast-2.compute.internal
Name:               ip-192-168-1-139.ap-northeast-2.compute.internal
...
Allocatable:
  attachable-volumes-aws-ebs:  25
  cpu:                         1930m
  ephemeral-storage:           27905944324
  hugepages-1Gi:               0
  hugepages-2Mi:               0
  memory:                      3388364Ki
  #17개임을 확인할 수 있다.
  pods:                        17
...
현재의 인스턴스 타입은 t3.medium 이다. 연산은 3 * (6 - 1) + 2 = 17 이니 권장사항을 만족한 것을 확인할 수 있다.
최대 파드 개수
Amazon ENI에 대한 자세한 내용은 GitHub에서 확인할 수 있다. 문서를 확인하면 ENI의 기본주소를 노드의 IP로 설정하고, --max-pods 의 값을 the number of ENIs for the instance type × (the number of IPs per ENI - 1)) + 2 로 권장한다. 관련 이유를 살펴보면 네트워크의 안정성을 위해 제한을 두었다는 설명을 확인할 수 있다. 실습 코드 아래에 각 인스턴스별 제한을 확인할 수 있다. 
계산식에 대해 구체적으로 알아보면, 2개의 파드를 추가하는 것은 기본적으로 node ip 와 동일한 aws-node , kube-proxy 파드를 의미한다. 또, ENI당 사용할 수 있는 IP에서 1을 빼는 것은 컨트롤플레인과 소통하기 위한 primary private IPv4 addresses 를 파드에서 사용할 수 없기 때문이다. 또한, 30vCPU미만은 110, 이외 모든 인스턴스는 250이 최대값으로 상한선이 정해져있다.
t3.medium 의 경우 ENI 마다 최대 6개의 IP를 가질 수 있다
    - **"t3.medium":     {ENILimit: 3, IPv4Limit: 6, HypervisorType:"nitro", IsBareMetal:false},**
현재의 인스턴스 타입은 t3.medium 이다. 연산은 3 * (6 - 1) + 2 = 17 이니 권장사항을 만족한 것을 확인할 수 있다.

직접 클러스터에서 관련된 정보를 확인해보면 다음과 같이 연산한 값과 일치하는 것을 볼 수 있다.
#현재 배포된 EKS의 max pods의 값 확인
$k describe node ip-192-168-1-139.ap-northeast-2.compute.internal
Name:               ip-192-168-1-139.ap-northeast-2.compute.internal
...
Allocatable:
  attachable-volumes-aws-ebs:  25
  cpu:                         1930m
  ephemeral-storage:           27905944324
  hugepages-1Gi:               0
  hugepages-2Mi:               0
  memory:                      3388364Ki
  pods:                        17
...
#17개임을 확인할 수 있다.
아래는 AWS에서 소개한 ENI, IPv4의 최대개수와, 최대 파드의 수를 계산한 값이다.
var InstanceNetworkingLimits = map[string]InstanceTypeLimits{
    ...
    "t1.micro":      {ENILimit: 2, IPv4Limit: 2, HypervisorType:"xen", IsBareMetal:false},
    "t2.2xlarge":    {ENILimit: 3, IPv4Limit: 15, HypervisorType:"xen", IsBareMetal:false},
    "t2.large":      {ENILimit: 3, IPv4Limit: 12, HypervisorType:"xen", IsBareMetal:false},
    "t2.medium":     {ENILimit: 3, IPv4Limit: 6, HypervisorType:"xen", IsBareMetal:false},
    "t2.micro":      {ENILimit: 2, IPv4Limit: 2, HypervisorType:"xen", IsBareMetal:false},
    "t2.nano":       {ENILimit: 2, IPv4Limit: 2, HypervisorType:"xen", IsBareMetal:false},
    "t2.small":      {ENILimit: 3, IPv4Limit: 4, HypervisorType:"xen", IsBareMetal:false},
    "t2.xlarge":     {ENILimit: 3, IPv4Limit: 15, HypervisorType:"xen", IsBareMetal:false},
    "t3.2xlarge":    {ENILimit: 4, IPv4Limit: 15, HypervisorType:"nitro", IsBareMetal:false},
    "t3.large":      {ENILimit: 3, IPv4Limit: 12, HypervisorType:"nitro", IsBareMetal:false},
    "t3.medium":     {ENILimit: 3, IPv4Limit: 6, HypervisorType:"nitro", IsBareMetal:false},
    "t3.micro":      {ENILimit: 2, IPv4Limit: 2, HypervisorType:"nitro", IsBareMetal:false},
    "t3.nano":       {ENILimit: 2, IPv4Limit: 2, HypervisorType:"nitro", IsBareMetal:false},
    "t3.small":      {ENILimit: 3, IPv4Limit: 4, HypervisorType:"nitro", IsBareMetal:false},
    "t3.xlarge":     {ENILimit: 4, IPv4Limit: 15, HypervisorType:"nitro", IsBareMetal:false},
    "t3a.2xlarge":   {ENILimit: 4, IPv4Limit: 15, HypervisorType:"nitro", IsBareMetal:false},
    "t3a.large":     {ENILimit: 3, IPv4Limit: 12, HypervisorType:"nitro", IsBareMetal:false},
    "t3a.medium":    {ENILimit: 3, IPv4Limit: 6, HypervisorType:"nitro", IsBareMetal:false},
    "t3a.micro":     {ENILimit: 2, IPv4Limit: 2, HypervisorType:"nitro", IsBareMetal:false},
    "t3a.nano":      {ENILimit: 2, IPv4Limit: 2, HypervisorType:"nitro", IsBareMetal:false},
    "t3a.small":     {ENILimit: 2, IPv4Limit: 4, HypervisorType:"nitro", IsBareMetal:false},
    "t3a.xlarge":    {ENILimit: 4, IPv4Limit: 15, HypervisorType:"nitro", IsBareMetal:false},
    ...

아래는 최대 파드의 개수를 계산한 결과이다....
t1.micro 4
t2.2xlarge 44
t2.large 35
t2.medium 17
t2.micro 4
t2.nano 4
t2.small 11
t2.xlarge 44
t3.2xlarge 58
t3.large 35
t3.medium 17
t3.micro 4
t3.nano 4
t3.small 11
t3.xlarge 58
t3a.2xlarge 58
t3a.large 35
t3a.medium 17
t3a.micro 4
t3a.nano 4
t3a.small 8
t3a.xlarge 58
...


L-IPAM
L-IPAM은 노드별로 보조 IP 주소의 warm-pool을 유지한다. 파드를 하나 추가할 때마다, warm-pool에서 사용가능한 IP를 가져와 파드에 할당한다. GitHub에서 자세한 내용을 확인할 수 있다.

아래의 그림을 확인해보면, 파드를 생성하면 ENI의 남아있는 IP를 할당한다. 만약 IP가 부족하다면 새로운 ENI를 생성하고, IP를 부여한다. 모든 ENI와 IP를 소모하면, 파드는 생성되지 않고 Pending 상태가 된다. (아래의 실습에서 확인할 수 있다.)

ifconfig 명령을 통해 eth(이더넷)을 확인해보면 cni는 aws-node kube-proxy 를 제외한 다른 파드를 배포하면 두번째 ENI를 생성하는 것을 확인할 수 있다. 또, 추가적으로 발생한 파드에 대해서는 모든 라이팅 테이블이 eni로 향하고 있다. 파드에 대한 접근이 들어오면 eni에게 할당되고 이를 pod에게 보낸다. 아래의 실습코드에서 coredns의 Ip : 192.168.1.29를 따라가보면 위의 내용을 확인할 수 있다.
#coredns private ip 확인
$k get po -A -o wide | grep coredns
...
coredns-6777fcd775-zg7dh   1/1     Running   0          73m   **192.168.1.29**    ip-192-168-1-197.ap-northeast-2.compute.internal              

#node1 route 확인 - core dns 확인
$ssh ec2-user@$N1 sudo ip -c route
default via 192.168.1.1 dev eth0
169.254.169.254 dev eth0
192.168.1.0/24 dev eth0 proto kernel scope link src 192.168.1.197
**192.168.1.29** dev enic94a7bde5cd scope link

#eth0, eth1 확인
$ssh ec2-user@$N1 sudo ifconfig
eth0: flags=4163  mtu 9001
        inet 192.168.1.197  netmask 255.255.255.0  broadcast 192.168.1.255
        inet6 fe80::29:7bff:fe12:5208  prefixlen 64  scopeid 0x20
        ether 02:29:7b:12:52:08  txqueuelen 1000  (Ethernet)
                ...
eth1: flags=4163  mtu 9001
        inet 192.168.1.154  netmask 255.255.255.0  broadcast 192.168.1.255
        inet6 fe80::60:2fff:fe79:3eb0  prefixlen 64  scopeid 0x20
        ether 02:60:2f:79:3e:b0  txqueuelen 1000  (Ethernet)
                ...

CNI 확인 및 kube-proxy 정보 확인
(iptables vs ipvs)
kube-proxy에서 iptables 모드를 사용하고 ipvs 모드를 사용하지 않는 이유는 다음과 같다. ipvs는 일부 CNI 플러그인, 네트워크 정책과 호환되지 않는다. 또, iptables 모드는 오랜 기간 쿠버네티스에서 사용되어 안정성을 인정받았다.

iptables 는 kube-proxy가 테이블만 관리하고, 직접 트래픽을 전달하지 않는다. 테이블을 통해 트래픽이 전달된다.
ipvs는 table과 비슷하지만 자동으로 LB가 적용된다.

# CNI 확인
$kubectl describe daemonset aws-node --namespace kube-system | grep Image | cut -d "/" -f 2
amazon-k8s-cni-init:v1.12.6-eksbuild.1
amazon-k8s-cni:v1.12.6-eksbuild.1
# kube-proxy config 확인: iptables 모드 사용!(가장 하단 참고)
$kubectl describe cm -n kube-system kube-proxy-configData
====
config:
----
apiVersion: kubeproxy.config.k8s.io/v1alpha1
...
iptables:
  masqueradeAll: false
  masqueradeBit: 14
  minSyncPeriod: 0s
  syncPeriod: 30s
ipvs:
  excludeCIDRs: null
  minSyncPeriod: 0s
  scheduler: ""
  syncPeriod: 30s
kind: KubeProxyConfiguration
metricsBindAddress: 0.0.0.0:10249
mode: "iptables"
...
ENI 통신 확인
이제 ENI의 작동방식에 대해 실습을 해봤다.
노드에 파드를 배포시키고 모니터링 해보기
#노드에 접속
$ssh ec2-user@$N1
#모니터링 시작(처음에는 2번과 route table의 첫번째줄이 없었으나 파드 배포 후 형성 
$watch -d "ip link | egrep 'eth|eni' ;echo;echo "[ROUTE TABLE]"; route -n | grep eni"
2: eth0:  mtu 9001 qdisc mq state UP mode DEFAULT group default qlen 1000
    link/ether 02:29:7b:12:52:08 brd ff:ff:ff:ff:ff:ff
3: enic94a7bde5cd@if3:  mtu 9001 qdisc noqueue state UP mode DEFAULT group default
    link/ether 9a:0f:49:8e:c9:2a brd ff:ff:ff:ff:ff:ff link-netns cni-d14dc09b-32af-693a-8b24-9cda5de41e29
4: eth1:  mtu 9001 qdisc mq state UP mode DEFAULT group default qlen 1000
    link/ether 02:60:2f:79:3e:b0 brd ff:ff:ff:ff:ff:ff

[ROUTE TABLE]
192.168.1.29    0.0.0.0         255.255.255.255 UH    0      0        0 enic94a7bde5cd
## ==================================배포 후============================================================================================
2: eth0:  mtu 9001 qdisc mq state UP mode DEFAULT group default qlen 1000
    link/ether 02:29:7b:12:52:08 brd ff:ff:ff:ff:ff:ff
3: enic94a7bde5cd@if3:  mtu 9001 qdisc noqueue state UP mode DEFAULT group default
    link/ether 9a:0f:49:8e:c9:2a brd ff:ff:ff:ff:ff:ff link-netns cni-d14dc09b-32af-693a-8b24-9cda5de41e29
4: eth1:  mtu 9001 qdisc mq state UP mode DEFAULT group default qlen 1000
    link/ether 02:60:2f:79:3e:b0 brd ff:ff:ff:ff:ff:ff
5: eni49834a7b0d4@if3:  mtu 9001 qdisc noqueue state UP mode DEFAULT group default
    link/ether 86:cd:5e:33:6f:52 brd ff:ff:ff:ff:ff:ff link-netns cni-9f690975-044d-b0d3-2307-1b8f380ead02

[ROUTE TABLE]
192.168.1.10    0.0.0.0         255.255.255.255 UH    0      0        0 eni49834a7b0d4
192.168.1.29    0.0.0.0         255.255.255.255 UH    0      0        0 enic94a7bde5cd

# 핑을 보낼 파드의 IP 확인 
$echo $PODIP1, $PODIP2
192.168.3.186, 192.168.2.79

#파드 통신 확인(첫번째 파드에서 두번째 파드로 핑 테스트)
$kubectl exec -it $PODNAME1 -- ping -c 2 $PODIP2
PING 192.168.2.79 (192.168.2.79) 56(84) bytes of data.
64 bytes from 192.168.2.79: icmp_seq=1 ttl=62 time=1.78 ms
64 bytes from 192.168.2.79: icmp_seq=2 ttl=62 time=1.28 ms

--- 192.168.2.79 ping statistics ---
2 packets transmitted, 2 received, 0% packet loss, time 1002ms
rtt min/avg/max/mdev = 1.275/1.529/1.784/0.254 ms

#워커노드에 접근
$ssh ec2-user@$N2

#아래의 결과를 통해 파드끼리 통신이 잘 이뤄짐을 확인할 수 있음
$sudo tcpdump -i any -nn icmp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on any, link-type LINUX_SLL (Linux cooked), capture size 262144 bytes
17:49:33.973818 IP 192.168.3.186 > 192.168.2.79: ICMP echo request, id 24336, seq 1, length 64
17:49:33.973867 IP 192.168.3.186 > 192.168.2.79: ICMP echo request, id 24336, seq 1, length 64
17:49:33.973886 IP 192.168.2.79 > 192.168.3.186: ICMP echo reply, id 24336, seq 1, length 64
17:49:33.973897 IP 192.168.2.79 > 192.168.3.186: ICMP echo reply, id 24336, seq 1, length 64
17:49:34.975715 IP 192.168.3.186 > 192.168.2.79: ICMP echo request, id 24336, seq 2, length 64
17:49:34.975755 IP 192.168.3.186 > 192.168.2.79: ICMP echo request, id 24336, seq 2, length 64
17:49:34.975775 IP 192.168.2.79 > 192.168.3.186: ICMP echo reply, id 24336, seq 2, length 64
17:49:34.975785 IP 192.168.2.79 > 192.168.3.186: ICMP echo reply, id 24336, seq 2, length 64

#아래의 명령어를 통해 나가는 패킷만 확인할 수 있다. 관련 파드는 cni1이 아니지만 eth0을 통해 빠져나간다.
$sudo tcpdump -i eth0 -nn icmp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on eth0, link-type EN10MB (Ethernet), capture size 262144 bytes
17:51:55.080619 IP 192.168.3.186 > 192.168.2.79: ICMP echo request, id 831, seq 1, length 64
17:51:55.080805 IP 192.168.2.79 > 192.168.3.186: ICMP echo reply, id 831, seq 1, length 64
17:51:56.082608 IP 192.168.3.186 > 192.168.2.79: ICMP echo request, id 831, seq 2, length 64
17:51:56.082658 IP 192.168.2.79 > 192.168.3.186: ICMP echo reply, id 831, seq 2, length 64

$ip route show table main
default via 192.168.2.1 dev eth0
169.254.169.254 dev eth0
192.168.2.0/24 dev eth0 proto kernel scope link src 192.168.2.251
192.168.2.79 dev eni96ea53d0c48 scope link
192.168.2.172 dev eni7c48f16dc91 scope link

#파드와 외부의 통신
$kubectl exec -it $PODNAME2 -- ping -c 1 www.google.com
PING www.google.com (142.250.198.4) 56(84) bytes of data.
64 bytes from nrt12s58-in-f4.1e100.net (142.250.198.4): icmp_seq=1 ttl=104 time=33.0 ms
--- www.google.com ping statistics ---
1 packets transmitted, 1 received, 0% packet loss, time 0ms
rtt min/avg/max/mdev = 32.989/32.989/32.989/0.000 ms

$sudo tcpdump -i any -nn icmp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on any, link-type LINUX_SLL (Linux cooked), capture size 262144 bytes
17:56:18.262417 IP 192.168.2.79 > 142.250.198.4: ICMP echo request, id 1979, seq 1, length 64
17:56:18.262441 IP 192.168.2.251 > 142.250.198.4: ICMP echo request, id 43010, seq 1, length 64
17:56:18.295356 IP 142.250.198.4 > 192.168.2.251: ICMP echo reply, id 43010, seq 1, length 64
17:56:18.295398 IP 142.250.198.4 > 192.168.2.79: ICMP echo reply, id 1979, seq 1, length 64

#파드가 외부와의 통신에서 사용하는 IP추적
$kubectl exec -it $PODNAME2 -- curl -s ipinfo.io/ip ; echo
15.164.179.105
#아래는 워커노드에 접속하여 실행한 명령어다. 현재의 Public ip값을 받으며 위와 동일한 것을 확인할 수 있다.
$curl -s ipinfo.io/ip ; echo
15.164.179.105

# 핑을 외부로 보낼 때는 아래와 같은 룰에 의해 SNAT 192.168.2.143(Worker node IP)변경되어 나간다!
sudo iptables -t nat -S | grep 'A AWS-SNAT-CHAIN'
#첫번째 규칙은 목적지 주소가 192.168.0.0/16 : 즉 같은 VPC가 아닌경우 AWS-SNAT-CHAIN-1로 점프하도록 한다.
-A AWS-SNAT-CHAIN-0 ! -d 192.168.0.0/16 -m comment --comment "AWS SNAT CHAIN" -j AWS-SNAT-CHAIN-1
#두번째 규칙은 외부로 향하는 트래픽을 노드의 IP로 변경시키는 것이다. 
-A AWS-SNAT-CHAIN-1 ! -o vlan+ -m comment --comment "AWS, SNAT" -m addrtype ! --dst-type LOCAL -j SNAT --to-source **192.168.2.143** --random-fully

노드의 최대 파드개수 생성
해당 실습은 이전에 계산한 최대 파드의 수보다 많은 파드를 배포했을 때, 클러스터 내부에서 어떤 일이 발생하는 지 확인해봤다.
#파드모니터링
$watch -d 'kubectl get pods -o wide'
NAME                                READY   STATUS    RESTARTS   AGE   IP              NODE  NOMINATED NODE   READINESS GATES
nginx-deployment-6fb79bc456-4sjqf   1/1     Running   0          47s   192.168.1.238   ip-192-168-1-197.ap-northeast-2.compute.internal              
nginx-deployment-6fb79bc456-wq4qc   1/1     Running   0          47s   192.168.3.122   ip-192-168-3-163.ap-northeast-2.compute.internal              
#파드의 개수를 50개로 늘리자. 생성되지 못하는 파드가 보인다.(최대 개수 초과)
$kubectl get pods | grep Pending
nginx-deployment-6fb79bc456-2lvh9   0/1     Pending   0          8s
nginx-deployment-6fb79bc456-6sdq8   0/1     Pending   0          8s
nginx-deployment-6fb79bc456-9ctj5   0/1     Pending   0          8s
nginx-deployment-6fb79bc456-jcqvg   0/1     Pending   0          8s
nginx-deployment-6fb79bc456-lr7sl   0/1     Pending   0          8s
nginx-deployment-6fb79bc456-rmnw7   0/1     Pending   0          8s
nginx-deployment-6fb79bc456-xsfpx   0/1     Pending   0          8s
관련 워커노드의 ip addr 모니터링한 결과는 아래와 같다. 15개의 eni가 존재하는 것을 확인할 수 있다. aws-node, kube-proxy를 포함하면 총 17개의 파드이며 이는 최대 개수와 동일함을 확인할 수 있다.
$while true; do ip -br -c addr show && echo "--------------" ; date "+%Y-%m-%d %H:%M:%S" ; sleep 1; done
2023-05-05 18:09:01
lo               UNKNOWN        127.0.0.1/8 ::1/128
eth0             UP             192.168.1.197/24 fe80::29:7bff:fe12:5208/64
enic94a7bde5cd@if3 UP             fe80::980f:49ff:fe8e:c92a/64
eth1             UP             192.168.1.154/24 fe80::60:2fff:fe79:3eb0/64
enib263aee3e3a@if3 UP             fe80::9801:86ff:fee0:94fe/64
enid3487d875d4@if3 UP             fe80::c889:d4ff:fe33:a24d/64
eni9030418a3ff@if3 UP             fe80::249c:ceff:fe41:3180/64
enib68b149b26a@if3 UP             fe80::689b:ecff:fee3:8f58/64
enie5050516bf9@if3 UP             fe80::98f2:83ff:fe1d:33ea/64
eth2             UP             192.168.1.84/24 fe80::d6:b0ff:fe9f:74e/64
eni161f9a2e0c7@if3 UP             fe80::cc2d:24ff:fe37:aa90/64
eni70a8a75bf6a@if3 UP             fe80::6084:5ff:fe5a:5bd6/64
eni34a852be90e@if3 UP             fe80::40d9:f6ff:fe23:3635/64
eni04149b80833@if3 UP             fe80::283f:6eff:feb3:3c8f/64
eni36442fb5871@if3 UP             fe80::4c83:fdff:fe07:621e/64
enia7a957f74d7@if3 UP             fe80::98c1:4ff:fe7b:c1/64
eni4952364d6e6@if3 UP             fe80::b81a:ecff:fe34:9a01/64
enid486e2f5d72@if3 UP             fe80::acf4:5dff:fe1a:a6b9/64
enib05a29aaa90@if3 UP             fe80::3055:93ff:feb4:ae3a/64

#파드의 오류 메세지 ( Too many pods.) 를 확인할 수 있다.
$k describe po nginx-deployment-6fb79bc456-2lvh9
...
Events:
  Type     Reason            Age    From               Message
  ----     ------            ----   ----               -------
  Warning  FailedScheduling  4m20s  default-scheduler  0/3 nodes are available: 3 Too many pods. preemption: 0/3 nodes are available: 3 No preemption victims found for incoming pod.
추가적으로 최대 파드 허용
네트워크 인터페이스에 접두사 할당 기능이 생김으로, 더 많은 IP주소를 활용하여 최대 파드의 개수를 늘릴 수 있다. 관련된 내용은 YongTrans에서 확인할 수 있다.

관련 내용 또한 추후에 실습할 예정이다..
실습을 진행하기 위해 관련 예제를 물어봤다. chat gpt의 답변이다. CIDR과 다른 네트워크 대역을 추가로 할당하여 노드에게 더 많은 IP주소를 부여하는 방식이다. 위의 사이트에서는 네트워크 인터페이스에 할당하지만, 여기서는 CIDR의 범위자체를 늘리는 방법을 소개해준다.

서비스
이제 ENI가 아닌 서비스에 대한 내용을 진행한다. 서비스는 파드의 IP가 바뀔 확률이 높기 때문에 고정적인 virtual IP를 만들어주는 역할을 한다. Clutser IP, Node Port 등 다양한 종류가 있지만 여기서는 로드밸런서에 대해 구체적으로 알아봤다.

그림과 같이 EKS에서는 바로 연결이 가능하다.contrack & iptable 등 여러 작업을 건너뛸 수 있다. 이제 관련 실습을 통해 더 자세히 알아보자.
Load Balancer Controller
먼저 LB 연결하는 방법은 다음과 같다. 자세한 내용은 Docs에서 확인할 수 있다.
방법은 다음과 같은 순서로 이뤄진다.

IAM
정책 생성 :  AWS Load Balancer Controller에 대한 IAM 정책 다운로드
역할 생성 : eksctl create iamserviceaccount ~


배포
helm 차트 : public.ecr.aws/eks/aws-load-balancer-controller:v2.4.7 ecr 이용#OIDC(OpenID Connect) 이슈어 정보를 가져오는 명령어로, 얻은 URL을 통해 클러스터 인증 및 권한 부여,
#AWS IAM에 대한 제어를 할 수 있다.
$aws eks describe-cluster --name $CLUSTER_NAME --query "cluster.identity.oidc.issuer" --output text
https://oidc.eks.ap-northeast-2.amazonaws.com/id/73F304C1D2..F6B0692B444F
#로브드밸런서 컨트롤러에 대한 IAM 정책을 다운받는다.
$curl -o iam_policy.json https://raw.githubusercontent.com/kubernetes-sigs/aws-load-balancer-controller/v2.4.7/docs/install/iam_policy.json





#정책 생성 및 연결
$eksctl create iamserviceaccount --cluster=$CLUSTER_NAME --namespace=kube-system --name=aws-load-balancer-controller \

--attach-policy-arn=arn:aws:iam::$ACCOUNT_ID:policy/AWSLoadBalancerControllerIAMPolicy --override-existing-serviceaccounts --approve
...
2023-05-06 11:33:48 [ℹ]  1 task: {
    2 sequential sub-tasks: {
        create IAM role for serviceaccount "kube-system/aws-load-balancer-controller",
        create serviceaccount "kube-system/aws-load-balancer-controller",
    } }2023-05-06 11:33:48 [ℹ]  building iamserviceaccount stack "eksctl-myeks-addon-iamserviceaccount-kube-system-aws-load-balancer-controller"
...

#생성 결과 확인
$eksctl get iamserviceaccount --cluster $CLUSTER_NAME
NAMESPACE    NAME                ROLE ARN
kube-system    aws-load-balancer-controller    arn:aws:iam::1234567890:role/eksctl-myeks-addon-iamserviceaccount-kube-sy-Role1-RZW
EKS LB helm 차트 배포
$helm install aws-load-balancer-controller eks/aws-load-balancer-controller -n kube-system --set clusterName=$CLUSTER_NAME \

  --set serviceAccount.create=false --set serviceAccount.name=aws-load-balancer-controller
NAME: aws-load-balancer-controller
LAST DEPLOYED: Sat May  6 11:34:52 2023
NAMESPACE: kube-system
STATUS: deployed
REVISION: 1
TEST SUITE: None
NOTES:
AWS Load Balancer controller installed!
#CustomResourceDefinition CRD 조회
$k get crd
NAME                                         CREATED AT
eniconfigs.crd.k8s.amazonaws.com             2023-05-06T01:24:19Z
ingressclassparams.elbv2.k8s.aws             2023-05-06T02:34:50Z
securitygrouppolicies.vpcresources.k8s.aws   2023-05-06T01:24:22Z
targetgroupbindings.elbv2.k8s.aws            2023-05-06T02:34:50Z

SA(service account) 조회
$k get sa -A | grep load-balancer
kube-system       aws-load-balancer-controller         0         42m

이제 관련 서비스를 배포하고 이를 모니터링하는 과정을 진행했다. yaml 파일 등은 모두 스터디에서 제공해주었다. 먼저, 배포를 진행하고, 로드밸런서의 호스트네임을 파악하여 접근해본다. 또 노드의 tcp dump 를 확인하여 통신방식을 점검한다.

```bash
# LB 서비스를 배포
$cat echo-service-nlb.yaml | yh 
apiVersion: apps/v1
kind: Deployment
metadata:
  name: deploy-echo
spec:
  replicas: 2
  selector:
    matchLabels:
      app: deploy-websrv
  template:
    metadata:
      labels:
        app: deploy-websrv
    spec:
      terminationGracePeriodSeconds: 0
      containers:
      - name: akos-websrv
        image: k8s.gcr.io/echoserver:1.5
        ports:
        - containerPort: 8080
---
apiVersion: v1
kind: Service
metadata:
  name: svc-nlb-ip-type
  annotations:
    service.beta.kubernetes.io/aws-load-balancer-nlb-target-type: ip
    service.beta.kubernetes.io/aws-load-balancer-scheme: internet-facing
    service.beta.kubernetes.io/aws-load-balancer-healthcheck-port: "8080"
    service.beta.kubernetes.io/aws-load-balancer-cross-zone-load-balancing-enabled: "true"
spec:
  ports:
    - port: 80
      targetPort: 8080
      protocol: TCP
  type: LoadBalancer
  loadBalancerClass: service.k8s.aws/nlb
  selector:
    app: deploy-websrv

#모니터링 결과 배포된 것을 확인할 수 있음.
Every 2.0s: kubectl get pod,svc,ep                                                                           Sat May  6 12:21:46 2023

NAME                               READY   STATUS    RESTARTS   AGE
pod/deploy-echo-5c4856dfd6-jg9hp   1/1     Running   0          4m4s
pod/deploy-echo-5c4856dfd6-pq889   1/1     Running   0          4m4s

NAME                      TYPE           CLUSTER-IP      EXTERNAL-IP
           PORT(S)        AGE
service/kubernetes        ClusterIP      10.100.0.1      
        443/TCP        117m
service/svc-nlb-ip-type   LoadBalancer   10.100.75.117   k8s-default-svcnlbip-2a2f74cdb7-c4a4d94160e4fb86.elb.ap-northeast-2.amazonaw
s.com   80:30432/TCP   4m4s

NAME                        ENDPOINTS                               AGE
endpoints/kubernetes        192.168.2.54:443,192.168.3.42:443       117m
endpoints/svc-nlb-ip-type   192.168.1.175:8080,192.168.2.212:8080   4m4s

#LB 서비스 호스트 네임 파악
$kubectl get svc svc-nlb-ip-type -o jsonpath={.status.loadBalancer.ingress[0].hostname} | awk '{ print "Pod Web URL = http://"$1 }'
Pod Web URL = http://k8s-default-svcnlbip-2a2f74cdb7-c4a4d94160e4fb86.elb.ap-northeast-2.amazonaws.com
#로드 밸런싱이 정상적으로 이뤄지고 있는 지 확인
$for i in {1..100}; do curl -s $NLB | grep Hostname ; done | sort | uniq -c | sort -nr
     51 Hostname: deploy-echo-5c4856dfd6-jg9hp
     49 Hostname: deploy-echo-5c4856dfd6-pq889
#노드의 TCP dump 에는 기록이 안나옴 : NLB에서 파드로 직접 통신하기 때문에
$sudo tcpdump -i any -nn icmp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on any, link-type LINUX_SLL (Linux cooked), capture size 262144 bytes
아래는 LB Hostname으로 접근한 결과이다. 보는 것과 같이, 로드밸런싱이 잘 이뤄지는 것을 확인할 수 있고, 파드의 개수를 늘리거나 줄여도 스스로 잘 찾아서 이뤄진다. 트래픽이 들어오면 가용영역에 있는 파드 중에 이용가능한 파드를 찾아 부하를 분산한다.

아래의 그림에서 가용영역을 확인해볼 수 있다. 1개의 파드만 존재해도 아래의 로그와 같이, 지속적으로 가능한 가용영역에서 가능한 파드가 있는 지 찾는 것을 확인할 수 있었다.
----------
2023-05-06 12:50:39
Hostname: deploy-echo-5c4856dfd6-jg9hp
    client_address=192.168.1.95
----------
2023-05-06 12:50:40
Hostname: deploy-echo-5c4856dfd6-jg9hp
    client_address=192.168.3.132
----------
2023-05-06 12:50:41
Hostname: deploy-echo-5c4856dfd6-jg9hp
    client_address=192.168.2.61


이제 관련 룰을 확인해보자. 어떤 리소스를 접근할 수 있는 지, verbs를 통해 허락된 연산을 확인할 수 있다.
##롤 확인
$kubectl describe clusterroles.rbac.authorization.k8s.io aws-load-balancer-controller-role
Name:         aws-load-balancer-controller-role
Labels:       app.kubernetes.io/instance=aws-load-balancer-controller
              app.kubernetes.io/managed-by=Helm
              app.kubernetes.io/name=aws-load-balancer-controller
              app.kubernetes.io/version=v2.5.1
              helm.sh/chart=aws-load-balancer-controller-1.5.2
Annotations:  meta.helm.sh/release-name: aws-load-balancer-controller
              meta.helm.sh/release-namespace: kube-system
PolicyRule:
  Resources                                     Non-Resource URLs  Resource Names  Verbs
  ---------                                     -----------------  --------------  -----
  targetgroupbindings.elbv2.k8s.aws             []                 []              [create delete get list patch update watch]
  events                                        []                 []              [create patch]
  ingresses                                     []                 []              [get list patch update watch]
  services                                      []                 []              [get list patch update watch]
  ingresses.extensions                          []                 []              [get list patch update watch]
  services.extensions                           []                 []              [get list patch update watch]
  ingresses.networking.k8s.io                   []                 []              [get list patch update watch]
  services.networking.k8s.io                    []                 []              [get list patch update watch]
  endpoints                                     []                 []              [get list watch]
  namespaces                                    []                 []              [get list watch]
  nodes                                         []                 []              [get list watch]
  pods                                          []                 []              [get list watch]
  endpointslices.discovery.k8s.io               []                 []              [get list watch]
  ingressclassparams.elbv2.k8s.aws              []                 []              [get list watch]
  ingressclasses.networking.k8s.io              []                 []              [get list watch]
  ingresses/status                              []                 []              [update patch]
  pods/status                                   []                 []              [update patch]
  services/status                               []                 []              [update patch]
  targetgroupbindings/status                    []                 []              [update patch]
  ingresses.elbv2.k8s.aws/status                []                 []              [update patch]
  pods.elbv2.k8s.aws/status                     []                 []              [update patch]
  services.elbv2.k8s.aws/status                 []                 []              [update patch]
  targetgroupbindings.elbv2.k8s.aws/status      []                 []              [update patch]
  ingresses.extensions/status                   []                 []              [update patch]
  pods.extensions/status                        []                 []              [update patch]
  services.extensions/status                    []                 []              [update patch]
  targetgroupbindings.extensions/status         []                 []              [update patch]
  ingresses.networking.k8s.io/status            []                 []              [update patch]
  pods.networking.k8s.io/status                 []                 []              [update patch]
  services.networking.k8s.io/status             []                 []              [update patch]
  targetgroupbindings.networking.k8s.io/status  []                 []              [update patch]
#롤 바인딩 확인
$kubectl describe clusterrolebindings.rbac.authorization.k8s.io aws-load-balancer-controller-rolebinding
Name:         aws-load-balancer-controller-rolebinding
Labels:       app.kubernetes.io/instance=aws-load-balancer-controller
              app.kubernetes.io/managed-by=Helm
              app.kubernetes.io/name=aws-load-balancer-controller
              app.kubernetes.io/version=v2.5.1
              helm.sh/chart=aws-load-balancer-controller-1.5.2
Annotations:  meta.helm.sh/release-name: aws-load-balancer-controller
              meta.helm.sh/release-namespace: kube-system
Role:
  Kind:  ClusterRole
  Name:  aws-load-balancer-controller-role
Subjects:
  Kind            Name                          Namespace
  ----            ----                          ---------
  ServiceAccount  aws-load-balancer-controller  kube-system
Ingress
이제 Ingress를 통한 게임배포를 진행한다. Ingress는 클러스터 내부의 서비스(ClusterIP, NodePort, Loadbalancer)를 외부로 노출(HTTP/HTTPS) - Web Proxy 역할이다. 
# 배포
$kubectl apply -f ingress1.yaml
namespace/game-2048 created
deployment.apps/deployment-2048 created
service/service-2048 created
ingress.networking.k8s.io/ingress-2048 created
#관련 yaml 파일의 내용을 확인하면
cat ingress1.yaml | yh
...
---
apiVersion: apps/v1
kind: Deployment
...
    spec:
      containers:
      # 2048에 대한 이미지로 파드를 생성한다.
      - image: public.ecr.aws/l6m2t8p7/docker-2048:latest
        imagePullPolicy: Always
        name: app-2048
        ports:
        - containerPort: 80
---
apiVersion: v1
kind: Service
...
spec:
  ports:
    - port: 80
      targetPort: 80
      protocol: TCP
  **type: NodePort**
  selector:
    app.kubernetes.io/name: **app-2048**
#기본 path = "/", LB 관련 도메인에 접속하면 `service-2048`에 연결한다.
#이 서비스는 노드 포트로, 2048게임이 있는 파드에 연결해준다. 그렇게 2048게임의 화면이 뜨게된다.
apiVersion: networking.k8s.io/v1
kind: Ingress
...
spec:
  ingressClassName: alb
  rules:
    - http:
        paths:
        **- path: /**
          pathType: Prefix
          backend:
            service:
              **name: service-2048**
              port:
                number: 80
아래의 그림은 로드밸런서 호스트네임으로 접근한 결과이다. Ingress를 통해 서비스로 연결되고, 이후 서비스를 통해 파드에게 연결되어 파드의 이미지인 2048게임 화면을 볼 수 있다.


도메인과 관련된 부분은 추후 업데이트 예정..!
스터디 시작전에 관련 도메인을 미리 등록해뒀는데 결제가 안된모양이다. 아마 일전에 재발급을 받은 적이 있는 데, 업데이트를 안했나보다..




경험 발표
경험발표는 두 분이 진행해주셨다. 한분은 테라폼과 관련된 경험을 발표해주셨고, 한분은 VPC Lattice + EKS에 대해 알려주셨다. 관련 자료중에 공개해주신 자료 중 해당 WorkShop을 따라가면 데모로 보여주신 실습을 진행할 수 있다고 한다.
추가
파드의 노드와 같은 네트워크 대역대를 부여해서 오버레이 연산이 없어지기에 성능이 향상된다. ENI와 다른 CNI에 대해 눈으로 시간차이를 확인하고 싶어 관련 내용을 찾아봤다.
 2개의 클러스터를 준비하고 각각 다른 CNI(ENI, 그 외)를 설치한 뒤 아래와 같이 네트워크 밴치마킹 테스트를 통해 확인해볼 수 있다. (이것도.. 추후 진행 예정)
직접 시간차이를 측정하고 싶다면 아래와 같은 과정을 따라가면 된다. 아래의 자료는 ChatGPT, 구글링을 통해 얻었다.
iperf3을 이용한 성능비교

2개의 EKS 클러스터를 준비하고 하나는 Calico, 하나는 ENI 사용
iperf3 배포
iperf3 테스트 진행(서버와 클라이언트), 관련 내용 기록
테스트 결과 비교

간단한 iperf3 deployment YAML 파일
apiVersion: apps/v1
kind: Deployment
metadata:
  name: iperf3-server
spec:
  selector:
    matchLabels:
      app: iperf3-server
  replicas: 1
  template:
    metadata:
      labels:
        app: iperf3-server
    spec:
      containers:
      - name: iperf3-server
        image: networkstatic/iperf3
        args: ["-s"]
        ports:
        - containerPort: 5201
---
apiVersion: v1
kind: Service
metadata:
  name: iperf3-server
spec:
  selector:
    app: iperf3-server
  ports:
    - protocol: TCP
      port: 5201
      targetPort: 5201
  type: ClusterIP
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: iperf3-client
spec:
  selector:
    matchLabels:
      app: iperf3-client
  replicas: 1
  template:
    metadata:
      labels:
        app: iperf3-client
    spec:
      containers:
      - name: iperf3-client
        image: networkstatic/iperf3
        command: ["sleep"]
        args: ["infinity"]
배포 후 아래의 명령어를 통해 실행하면 된다.
kubectl exec -it [iperf3-client-pod-name] -- iperf3 -c iperf3-server -t 30
마치며
2주차 블로그 포스팅을 완료했다. 목표는 화, 수요일날 포스팅을 할 계획이었으나 예비군이후로 비염과 함께 컨디션이 좋지 않아 결국 토요일날 마무리?지었다. 한번에 전체적인 실습을 하는 것이 좋은 데, 그렇지 못해 실습 결과(Node Ip 등)들이 조금씩은 다르고 계속 끊기다보니 시간이 더 소요된 것 같다.! 이번주 연휴동안 푹쉬고 조금씩 보완하려한다. EKS는 중지기능이 없어서 게속 생성하고 제거하는 것했는데 조금 아쉬운 것 같다...!



EKS 스터디 1주차
Thu, 27 Apr 2023 15:27:19 GMT
참여 계기
현재 데브옵스 신입 엔지니어로 회사에서 업무를 진행하는 중이지만, 쿠버네티스 환경에 대한 부족한 실력으로 어려움이 많았다. CKA 자격증을 통해 쿠버네티스 공부를 시작했지만, 실무에 대한 부족함을 느끼던 와중에 회사 동료에게 추천을 받아  CloudNet 팀에서 주관하는 EKS 스터디에 지원했다. 스터디는 1시간 30분가량 가시다님의 강의와 두 분의 경험발표로 구성되었다. 아직 신입 엔지니어이기에 잘 따라가지 못할까 걱정스럽지만 퀄리티 높은 자료와 스터디원분들이기에 배울 것이 많아보여 설렌다. 
요약
매번 시작해야지 생각만 했던 블로그를 시작해본다. .!  부족한 점이 많지만 앞으로 수정하며 수준을 높이려 한다. 전체적으로 스터디 내용을 기반으로 정리했고, 쿠버네티스에 대해 부족한 것이 많아 중간중간 기본적인 내용도 추가적으로 정리했다. 1주차의 주제는 Amzaon EKS 설치 및 기본 사용이다. 사전에 제공해주신 AWS CloudFormation을 통해 초기인프라를 형성하고 eksctl 을 통해 클러스터를 배포한다. 배포 후 클러스터에 접근하여 여러 명령어를 통해 시스템을 이해해보며 마무리 되었다.
포스트는 스터디와 같은 순서로 진행된다. 먼저, 아키텍처를 살펴보고 실습을 진행한다.
EKS 아키텍처
먼저, EKS는 Amazon Elastic Kubernetes Service 의 약어이며 AWS에서 제공해주는 관리형 쿠버네티스 서비스이다. 뇌의 역할을 하는 컨트롤 플레인을 자동으로 관리해주고 다른 AWS 서비스와 통합하여 활용가능하다. 편하지만, 금액적으로는 부담스럽다. 상황에 맞게 서비스를 선택해서 이용하면 된다. FinOps의 중요성도 점점 커지는 것 같다. 1주차 경험발표도 관련 사례에 대해 소개해주셨는데, 최적화에 따른 연간 절약 금액이 어마어마했다.
이제 EKS에 아키텍처에 대해 알아보자. 아래의 그림은 EKS의 아키텍처 그림이다.

아키텍처에서 가장 중요한 점은 컨트롤 플레인이다. EKS에서는 AWS가  요소를 직접 관리해준다. ENI를 통해 노드와 API 서버는 통신한다. 위에 그림에서는 클러스터 엔드포인트가  퍼블릭이지만, 제약사항에 따라 프라이빗하게 접근하도록 설정할 수 있다. 실제 프로덕션에서는 아래의 그림과 같이 주로 ENI를 통해 프라이빗 환경에서 통신한다.

실습
실습 아키텍처는 아래와 같다. 비용을 고려해 최소한의 사양으로 준비해주셨다. CloudFormation 을 통해
작업용 EC2를 만든 후 접속하여 EKS를 배포한다. 

EKS 배포는 웹 관리 콘솔, eksctl, IaC(CDK, CloudFormation, Terraform ..) 등이 있지만, EKS에서 K8S 클러스터를 생성하고 관리하기 위한 간단한 유틸리티 CLI 도구인 eksctl을 사용했다.
배포
CloudFormation Stack의 출력값으로 EC2의 퍼블릭 아이피를 확인한 후 접속한다. 접속하고 aws configure로 기본적인 인증절차를 거친다.
아래는 작업용 ec2에서 eksctl을 통해 EKS를 배포하는 소스코드이다. 배포하는 데 약 10분정도의 시간이 필요하다.
$eksctl create cluster --name $CLUSTER_NAME --region=$AWS_DEFAULT_REGION --nodegroup-name=$CLUSTER_NAME-nodegroup --node-type=t3.medium \
--node-volume-size=30 --vpc-public-subnets "$PubSubnet1,$PubSubnet2" --version 1.24 --ssh-access --external-dns-access --verbose 4**
...
2023-04-27 21:57:09 [ℹ]  will create 2 separate CloudFormation stacks for cluster itself and the initial managed nodegroup
2023-04-27 21:57:09 [ℹ]  if you encounter any issues, check CloudFormation console or try 'eksctl utils describe-stacks --region=ap-northeast-2 --cluster=myeks'
2023-04-27 21:57:09 [ℹ]  Kubernetes API endpoint access will use default of {publicAccess=true, privateAccess=false} for cluster "myeks" in "ap-northeast-2"
2023-04-27 21:57:09 [ℹ]  CloudWatch logging will not be enabled for cluster "myeks" in "ap-northeast-2"
2023-04-27 21:57:09 [ℹ]  you can enable it with 'eksctl utils update-cluster-logging --enable-types={SPECIFY-YOUR-LOG-TYPES-HERE (e.g. all)} --region=ap-northeast-2 --cluster=myeks'
2023-04-27 21:57:09 [ℹ]
2 sequential tasks: { create cluster control plane "myeks",
    2 sequential sub-tasks: {
        wait for control plane to become ready,
        create managed nodegroup "myeks-nodegroup",
    }
}
배포가 완료되면 아래의 그림과 같이 AWS 콘솔을 통해 쿠버네티스 버전, 엔드포인트 등 상태를 확인하여 클러스터가 정상적으로 배포되었는 지 확인할 수 있다.

만약 아래의 그림과 같이 콘솔에서 EKS 리소스를 보는 것이 제한된다면 User 계정으로 로그인하여 문제를 해결할 수 있다. 자세한 내용은Docs에서 확인할 수 있다. 

나는 chatgpt, 구글링에서 먼저 확인한 configmap 에 아래와 같이 Users를 추가했지만 변화는 없었다. 이후 스터디에서 제공해주신 포스팅의 계정이 다르면 관리자 계정이 있어도 확인할 수 없다는 내용을 보고, iam user 계정으로 로그인했고 정상적으로 EKS를 확인할 수 있었다.
(아래는 IAM USER: EKS-Study로 로그인했을 때 확인한 모습이다.)

EKS 알아보기
이제 배포된 EKS에 접근하여 여러 명령어를 실행하며 EKS에 대해 더 알아보자.
먼저, 클러스터 엔드포인트를 확인한다. 클러스터 엔드포인트의 끝을 확인하면 AWS에서 관리해주는 컨트롤 플래인의 API 서버의 퍼블릭 아이피를 확인할 수 있다. 이후 노드에 접근해서 통신상태를 확인해보면 kubelet과 kubeproxy가 api server와 통신하는 것이 확인된다.

클러스터 엔드포인트 확인
```bash
#클러스터 엔드포인트 확인
$aws eks describe-cluster --name $CLUSTER_NAME | jq -r .cluster.endpoint
https://50E14FE698DE0E5CA2055F72AB086163.gr7.ap-northeast-2.eks.amazonaws.com
APIDNS=$(aws eks describe-cluster --name $CLUSTER_NAME | jq -r .cluster.endpoint | cut -d '/' -f 3)dig 명령어를 통해 DNS 서버 조회
$dig +short $APIDNS

3.38.85.93
3.34.237.160
노드의 통신
node ip(52.78.98.82) 해당 파드의 ip
ESTAB 0      0       192.168.1.23:32816 52.95.195.109:443   users:(("ssm-agent-worke",pid=2453,fd=15))
control plane ip
ESTAB 0      0       192.168.1.23:39834    3.38.85.93:443   users:(("kube-proxy",pid=3104,fd=11))
node ip
ESTAB 0      0       192.168.1.23:47340  52.95.194.61:443   users:(("ssm-agent-worke",pid=2453,fd=10))
node ip
ESTAB 0      0       192.168.1.23:42598    10.100.0.1:443   users:(("aws-k8s-agent",pid=3426,fd=7))
작업용 ec2 private ip (현재 작업용 ec2에서 ssh 통신 중)
ESTAB 0      56      192.168.1.23:22    192.168.1.100:53084 users:(("sshd",pid=13342,fd=3),("sshd",pid=13310,fd=3))
control plane ip
ESTAB 0      0       192.168.1.23:37022  3.34.237.160:443   users:(("kubelet",pid=2842,fd=39))
이제 보안 그룹을 확인해보자. 아래의 코드를 보면 아웃바운드 트래픽은 모두 허용하고, 인바운드 트래픽은 그룹 내 트래픽에 대해 허용하는 것을 알 수 있다.
```bash
$aws ec2 describe-security-groups --group-ids sg-0866ebfa10533a0b9 --output yaml | yh
SecurityGroups:
- Description: EKS created security group applied to ENI that is attached to EKS Control
    Plane master nodes, as well as any managed workloads.
  GroupId: sg-0866ebfa10533a0b9
  GroupName: eks-cluster-sg-myeks-104368993
  IpPermissions:
  - IpProtocol: '-1'
    IpRanges: []
    Ipv6Ranges: []
    PrefixListIds: []
    UserIdGroupPairs:
    - GroupId: sg-0866ebfa10533a0b9
      UserId: '871103481195'
    - Description: Allow unmanaged nodes to communicate with control plane (all ports)
      GroupId: sg-07536909f8ca01eee
      UserId: '871103481195'
  IpPermissionsEgress:
  - IpProtocol: '-1'
    IpRanges:
    - CidrIp: 0.0.0.0/0
    Ipv6Ranges: []
    PrefixListIds: []
    UserIdGroupPairs: []
  OwnerId: '871103481195'
  ...
이제 배포된 파드를 살펴보자, AWS에서 컨트롤 플레인을 관리하니 우리가 접근할 수 있는 파드는 워커노드에만 존재한다. 
또 다른 특이점은 daemonset으로 aws-node가 존재한다. 이것은 모든 노드에 필수적인 네트워크 요소를 설치하기 위해 생성된다. 자세한 내용은 Docs에서 확인할 수 있다.
$k get po -A -o wide
NAMESPACE     NAME                      READY   STATUS    RESTARTS   AGE   IP              NODE                                               NOMINATED NODE   READINESS GATES
kube-system   aws-node-9bfxp            1/1     Running   0          83m   192.168.1.93    ip-192-168-1-93.ap-northeast-2.compute.internal               
kube-system   aws-node-wp867            1/1     Running   0          83m   192.168.2.247   ip-192-168-2-247.ap-northeast-2.compute.internal              
kube-system   coredns-dc4979556-n769l   1/1     Running   0          90m   192.168.1.201   ip-192-168-1-93.ap-northeast-2.compute.internal               
kube-system   coredns-dc4979556-xtmxc   1/1     Running   0          90m   192.168.1.253   ip-192-168-1-93.ap-northeast-2.compute.internal               
kube-system   kube-proxy-dbfpz          1/1     Running   0          83m   192.168.2.247   ip-192-168-2-247.ap-northeast-2.compute.internal              
kube-system   kube-proxy-s44d9          1/1     Running   0          83m   192.168.1.93    ip-192-168-1-93.ap-northeast-2.compute.internal               
#아래는 데몬셋을 확인하는 명령어다.
$k get ds -A
NAMESPACE     NAME         DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
kube-system   aws-node     2         2         2       2            2                     124m
kube-system   kube-proxy   2         2         2       2            2                     124m
이제, 선언형을 알아보기 위해 파드를 3개 생성하는 디플로이를 배포한다. 파드를 증가시키고 감소시키는 명령어를 실행시키면서 모니터링을 통해 실제 동작을 확인한다. 
$kubectl create deployment my-webs --image=gcr.io/google-samples/kubernetes-bootcamp:v1 --replicas=3
deployment.apps/my-webs created
$kubectl get pod -w
NAME                     READY   STATUS    RESTARTS   AGE
my-webs-8dd6b4db-8ddbz   1/1     Running   0          3s
my-webs-8dd6b4db-kwgts   1/1     Running   0          3s
my-webs-8dd6b4db-xfdbl   1/1     Running   0          3s
아래의 그림은 강제로 파드를 삭제했을 때 나오는 결과이다. 강제로 삭제해서 파드가 일부 삭제되었지만, 이후 다시 재생성되어 파드의 수는 유지가 된다. 쿠버네티스에서는 현재의 상태와 요구되는 상태를 계속 비교하여 요구되는 상태로 지속적으로 노력하기에 그렇다.

이제 관리형 노드를 추가 및 삭제해보는 실습을 진행해봤다.
#아래는 노드의 상태를 확인하기 위해 모니터링 코드
while true; do aws ec2 describe-instances --query "Reservations[*].Instances[*].{PublicIPAdd:PublicIpAddress,PrivateIPAdd:PrivateIpAddress,InstanceName:Tags[?Key=='Name']|[0].Value,Status:State.Name}" --filters Name=instance-state-name,Values=running --output text ; echo "------------------------------" ; sleep 1; done
myeks-myeks-nodegroup-Node    192.168.2.247    3.34.130.220    running
myeks-host    192.168.1.100    43.201.60.122    running
myeks-myeks-nodegroup-Node    192.168.1.93    13.124.119.49    running
------------------------------
myeks-myeks-nodegroup-Node    192.168.2.247    3.34.130.220    running
myeks-host    192.168.1.100    43.201.60.122    running
myeks-myeks-nodegroup-Node    192.168.1.93    13.124.119.49    running
...
# 노드 개수 증가
$eksctl scale nodegroup --cluster $CLUSTER_NAME --name $CLUSTER_NAME-nodegroup --nodes 3 --nodes-min 3 --nodes-max 6
2023-04-28 00:16:29 [ℹ]  scaling nodegroup "myeks-nodegroup" in cluster myeks
2023-04-28 00:16:30 [ℹ]  initiated scaling of nodegroup
2023-04-28 00:16:30 [ℹ]  to see the status of the scaling run `eksctl get nodegroup --cluster myeks --region ap-northeast-2 --name myeks-nodegroup
# 모니터링에서도 노드의 증가가 확인된다.
myeks-myeks-nodegroup-Node    192.168.2.247    3.34.130.220    running
myeks-host    192.168.1.100    43.201.60.122    running
myeks-myeks-nodegroup-Node    192.168.1.93    13.124.119.49    running
myeks-myeks-nodegroup-Node    192.168.1.188    3.36.51.90    running
# 노드 개수 감소
$aws eks update-nodegroup-config --cluster-name $CLUSTER_NAME --nodegroup-name $CLUSTER_NAME-nodegroup --scaling-config minSize=2,maxSize=2,desiredSize=2
순서가 조금 다르지만, 마리오 게임에 대한 배포를 진행해봤다. 배포 yaml 파일을 확인하면 준비해주신 마리오 이미지를 사용하여 하나의 파드를 배포하고, 서비스를 같이 배포하여 외부에서 접근가능하도록 파드를 노출시킨다.
apiVersion: apps/v1
kind: Deployment
metadata:
  name: mario
  labels:
    app: mario
spec:
  replicas: 1
  selector:
    matchLabels:
      app: mario
  template:
    metadata:
      labels:
        app: mario
    spec:
      containers:
      - name: mario
        image: pengbai/docker-supermario
---
apiVersion: v1
kind: Service
metadata:
   name: mario
spec:
  selector:
    app: mario
  ports:
  - port: 80
    protocol: TCP
    targetPort: 8080
k create -f mario.yaml 명령어를 통해 배포를 수행하고, 서비스에 IP를 통해 사이트에 접근하면 
 마리오 게임을 확인할 수 있다.!
ECR 사용해보기
ECR을 이용해서 컨테이너 이미지를 관리해보는 실습을 진행했는 데, 작업은 간단하다. 
docker 로그인을 진행하고 ecr-public에 하나의 리포지토리를 만든 후 docker push 명령어를 통해 이미지를 추가하면 된다.
관련된 소스코드는 아래와 같다.
#ecr login
$aws ecr-public get-login-password --region us-east-1 | docker login --username AWS --password-stdin public.ecr.aws
WARNING! Your password will be stored unencrypted in /root/.docker/config.json.
Configure a credential helper to remove this warning. See
https://docs.docker.com/engine/reference/commandline/login/#credentials-store

Login Succeeded
$cat /root/.docker/config.json | jq
{
  "auths": {
    "public.ecr.aws": {
      "auth": "QVdTOm...VFY5"
    }
  }
}
aws ecr-public describe-registries --region us-east-1 | jq

{
  "registries": [
    {
      "registryId": "1234567890",
      "registryArn": "arn:aws:ecr-public::1234567890:registry/1234567890",
      "registryUri": "public.ecr.aws/~~",
      "verified": false,
      "aliases": [
        {
          "name": "~~",
          "status": "ACTIVE",
          "primaryRegistryAlias": true,
          "defaultRegistryAlias": true
        }
      ]
    }
  ]
}
aws ecr-public create-repository --repository-name $NICKNAME/nginx --region us-east-1
{
    "repository": {
        "repositoryArn": "arn:aws:ecr-public::1234567890:repository/dongmin/nginx",
        "registryId": "1234567890",
        "repositoryName": "dongmin/nginx",
        "repositoryUri": "public.ecr.aws/~~/dongmin/nginx",
        "createdAt": "2023-05-03T00:29:28.487000+09:00"
    },
    "catalogData": {}
}
public.ecr.aws/g3q7n2p4/dongmin/nginx


$docker push $REPOURI:latest
The push refers to repository [public.ecr.aws/~~/dongmin/nginx]

31531248c7cb: Pushed
f9cb3f1f1d3d: Pushed
f0fb842dea41: Pushed
c1cd5c8c68ef: Pushed
1d54586a1706: Pushed
1003ff723696: Pushed
f1417ff83b31: Pushed
latest: digest: sha256:01ccf4035840dd6c25042b2b5f6b09dd265b4ed5aa7b93ccc4714027c0ce5685 size: 1781
kubectl run mynginx --image $REPOURI
pod/mynginx created
콘솔에서 확인해봐도 정상적으로 이미지가 업로드된 것을 확인할 수 있다. 

엔드포인트 변경
아래는 엔드포인트를 퍼블릭에서 public & private 로 변경한 모습이다. 액세스 소스 허용목록이 작업용 ec2의 public ip로만 변경되었다.!

이제 public & private 에서 private로 변경해봤다. 
$echo $APIDNS
7955229C1055798D3183C30048A1A1FA.gr7.ap-northeast-2.eks.amazonaws.com
$dig +short $APIDNS
192.168.1.143
192.168.2.246
### 이전의 결과값은
3.38.85.93
3.34.237.160
public Ip를 주는 것이 아닌 private 아이피를 돌려준다. 외부를 통해 API서버로 접근하는 것이 아닌 VPC 내부에서만 컨트롤 플래인의 접근이 가능하다. 아래의 아키텍처로 구현됨을 확인할 수 있었다.

스터디 중에 진행한 실습은 이렇게 마무리 되었다. 아래에는 추가적으로 진행한 실습 및 자료이다.
추가 정리
EKS Workshop
Pod Affinity and Anti-Affinity
nodeselector: 라벨(key - value)을 통해 스케줄링을 지정할 수 있다. (선호도기능은 하지 못한다.)

nodeaffinity : 특정 노드에 스케줄링되도록 유도한다.(특정 노드 배치 제안)
requiredDuringSchedulingIgnoredDuringExecution : 해당 규칙이 만족되야, 파드를 스케줄링하며 규칙이 만족되지 않으면 스케줄링할 수 없다.
preferredDuringSchedulingIgnoredDuringExecution : 해당 조건을 만족하는 노드를 찾으려고 노력한다. 조건에 맞는 노드가 없으면 일반적으로 스케줄링 된다.
Available(조건 만족) : 스케줄링할 때만 규정을 지킨다.
requiredDuringSchedulingIgnoredDuringExecution : 해당 조건이 아니면, 스케줄링 불가능하다.
preferredDuringSchedulingIgnoredDuringExecution  : 조건을 선호, 조건에 부합하는 노드가 없어도 가능하다.


Planned(선호도) : 실행하면서도 규정을 지킴
requiredDuringSchedulingRequiredDuringExecution
preferredDuringSchedulingRequiredDuringExecution


연산자(operator)
In : 조건에 맞는 노드에 배치
NotIn : 조건과 다른 노드에 배치
Exists : 조건이 있는 노드에 배치





Taints

Taint : 해당 노드에 Taint가 있기에, Taint를 상쇄하는 Toleration 이 없으면 해당 노드에 배치될 수 없다.
기본 문법 : kubectl taint nodes  key=value:taint-effect
ex) kubectl taint nodes node1 key1=value2:NoSchedule
effect는 아래의 3가지 가능하다.
NoSchedule
PreferNoSchedule
NoExecute





Kubernetes Tools
많은 플로그인이 개발되어 활용되고 있다. kubectl krew 는 쿠버네티스트 cli 도구 kubect의 플로그인을 관리하는 패키지 매니저이다. krew를 통해 손쉽게 k8s 관련 플로그인을 설치할 수 있다. 폐쇄망과 같은 제약조건이 있을 때는 krew가 아닌 수동으로 설치한다.
스터디에서는 사전에 준비해주셔서 대부분 설치되어있다.
# krew
##intsall
(
  set -x; cd "$(mktemp -d)" &&
  OS="$(uname | tr '[:upper:]' '[:lower:]')" &&
  ARCH="$(uname -m | sed -e 's/x86_64/amd64/' -e 's/\(arm\)\(64\)\?.*/\1\2/' -e 's/aarch64$/arm64/')" &&
  KREW="krew-${OS}_${ARCH}" &&
  curl -fsSLO "https://github.com/kubernetes-sigs/krew/releases/latest/download/${KREW}.tar.gz" &&
  tar zxvf "${KREW}.tar.gz" &&
  ./"${KREW}" install krew
)
##환경변수 적용
export PATH="${KREW_ROOT:-$HOME/.krew}/bin:$PATH"
### bash, /etc/profile 에도 업데이트하여 일치시키면 된다.
**echo "export PATH=**${KREW_ROOT:-$HOME/.krew}/bin:$PATH**" >> /etc/profile

# 플러그인 설치
$kubectl krew install ctx
$kubectl krew install ns**
하단의 krew를 통해 대표적인 2가지 플러그인을 설치한다. 먼저, Kubectx는 kubeconfig로 연동되어 있는 context 목록을 확인할 수 있다. kubens는 현재 context의 네임스페이스를 확인할 수 있다.
kubectx
    kubectx [context_name] : 특정 context로 변경
    -c : current context
    -d : context 삭제
    -: 이전 context로 복구
kubens
kubens [NAMESPACE_NAME] : 특정 ns로 변경
-c: current ns
- :이전 name space로 복구 
# kubectx 활용
**$kubectl config get-contexts
CURRENT   NAME                                                          CLUSTER                                      AUTHINFO                                                      NAMESPACE
          eks-default                                                   NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io   iam-root-account@NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io   kube-system
*         iam-root-account@NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io   NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io   iam-root-account@NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io   kube-system
          minikube
$kubectx
eks-default
iam-root-account@NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io
minikube
$kubectx -c
iam-root-account@NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io
$kubectx minikube
Switched to context "minikube".
$kubectx -c
minikube**

# kubens 활용
$k ns
default
kube-node-lease
kube-public
kube-system
$k ns kube-public
Context "EKS-study@KANE.ap-northeast-2.eksctl.io" modified.
Active namespace is "kube-public".
$k ns
default
kube-node-lease
kube-public
kube-system
****
kube_ps1(prompt output)
CurrentContext / CurrentNamespace를 표시하는 도구이다. 
#install
git clone https://github.com/jonmosco/kube-ps1.git
#.bashrc 에 추가
---
KUBE_PS1_SYMBOL_ENABLE=false
KUBE_PS1_SYMBOL_COLOR=null
KUBE_PS1_CTX_COLOR=null
KUBE_PS1_NS_COLOR=null
---
#아래는 context의 이름을 변경하여 구분하는 것이다.
#아래와 같이 변경시 확연하게 구분할 수 있다.
$cat ~/.kube/config
apiVersion: v1
clusters:
- cluster:
    certificate-authority-data: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0tLS0tCk1JSUM1ekNDQWMrZ0F3SUJBZ0lCQURBTkJna3Foa2lHOXcwQkFRc0ZBREFWTVJNd0VRWURWUVFERXdwcmRXSmwKY201bGRHVnpNQjRYRFRJeU1ETXdOVEU1TURNd00xb1hEVE15...y80ZHM2CnpablQyZmNCQmszNHFGUTNGS1Q1WE5pbXZoQlRidHZucUx4TQotLS0tLUVORCBDRVJUSUZJQ0FURS0tLS0tCg==
    server: https://407B39524D80486F1EECD325C3180677.yl4.ap-northeast-2.eks.amazonaws.com
  name: NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io
contexts:
- context:
    cluster: NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io
    namespace: kube-system
    user: iam-root-account@NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io
  name: eks-default
- context:
    cluster: NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io
    namespace: default
    user: iam-root-account@NRSON-EKS-CLUSTER.ap-northeast-2.eksctl.io
  name: kube    =================> kubeapp으로 변경
current-context: kube
kind: Config
preferences: {}
users:

유지보수관련 플러그인(모두 krew를 통해 설치 가능하다.)
해당 블로그를 참고해여 작성함.

neat : manifests 정돈에 좋다.

-o yaml 으로 확인하면 관련된 상태들까지 출력이 되 보기가 불편하다.
ex) kubectl get deployment my-nginx -o yaml | kubectl neat


kail : multi pod log 모니터링
  별도로 옵션을 주지 않을 경우 클러스터 내 모든 파드를 대상으로 한다.
  범위를 좁히기 위해선 아래의 옵션이 있다.
  $kail
  kube-logging/elasticsearch-master-745c995d88-ksldq[elasticsearch-master]: {"type": "server", "timestamp": "2022-03-07T15:41:50,374+0000", "level": "INFO", "component": "o.e.c.s.ClusterApplierService", "cluster.name": "elasticsearch", "node.name": "elasticsearch-master", "cluster.uuid": "w4yuNKxZRi2BxpDgrM37eg", "node.id": "4D8M6FE7Tsqmml7IaddNww",  "message": "added {{elasticsearch-client}{tHAltQHwSK-JAbfVGY-lTw}{DvjfXlbHQiubOqm2HdNCkw}{192.168.161.189}{192.168.161.189:9300}{i}{ml.machine_memory=8124866560, ml.max_open_jobs=20, xpack.installed=true},{elasticsearch-data}{lykb7kBAR5SvmTuSFs_O-g}{cgBjsrwIRWuIs2Ysf6kgkQ}{192.168.167.246}{192.168.167.246:9300}{d}{ml.machine_memory=8124866560, ml.max_open_jobs=20, xpack.installed=true},}, term: 1, version: 12, reason: Publication{term=1, version=12}"  }
  kube-logging/elasticsearch-master-745c995d88-ksldq[elasticsearch-master]: {"type": "server", "timestamp": "2022-03-07T15:41:50,412+0000", "level": "INFO", "component": "o.e.x.i.a.TransportPutLifecycleAction", "cluster.name": "elasticsearch", "node.name": "elasticsearch-master", "cluster.uuid": "w4yuNKxZRi2BxpDgrM37eg", "node.id": "4D8M6FE7Tsqmml7IaddNww",  "message": "adding index lifecycle policy [watch-history-ilm-policy]"  }
  kube-logging/elasticsearch-client-578dd48f84-lnmx8[elasticsearch-client]: {"type": "server", "timestamp": "2022-03-07T15:41:50,601+0000", "level": "INFO", "component": "o.e.x.m.e.l.LocalExporter", "cluster.name": "elasticsearch", "node.name": "elasticsearch-client", "cluster.uuid": "w4yuNKxZRi2BxpDgrM37eg", "node.id": "tHAltQHwSK-JAbfVGY-lTw",  "message": "waiting for elected master node [{elasticsearch-master}{4D8M6FE7Tsqmml7IaddNww}{2CWU2-ZqTeK1gCd6uklb0A}{192.168.144.190}{192.168.144.190:9300}{m}{ml.machine_memory=8124866560, ml.max_open_jobs=20, xpack.installed=true}] to setup local exporter [default_local] (does it have x-pack installed?)"  }
  kube-logging/elasticsearch-data-0[elasticsearch-data]: {"type": "server", "timestamp": "2022-03-07T15:41:50,642+0000", "level": "INFO", "component": "o.e.x.m.e.l.LocalExporter", "cluster.name": "elasticsearch", "node.name": "elasticsearch-data", "cluster.uuid": "w4yuNKxZRi2BxpDgrM37eg", "node.id": "lykb7kBAR5SvmTuSFs_O-g",  "message": "waiting for elected master node [{elasticsearch-master}{4D8M6FE7Tsqmml7IaddNww}{2CWU2-ZqTeK1gCd6uklb0A}{192.168.144.190}{192.168.144.190:9300}{m}{ml.machine_memory=8124866560, ml.max_open_jobs=20, xpack.installed=true}] to setup local exporter [default_local] (does it have x-pack installed?)"  }
  kube-logging/elasticsearch-client-578dd48f84-lnmx8[elasticsearch-client]: {"type": "server", "timestamp": "2022-03-07T15:41:50,928+0000", "level": "INFO", "component": "o.e.l.LicenseService", "cluster.name": "elasticsearch", "node.name": "elasticsearch-client", "cluster.uuid": "w4yuNKxZRi2BxpDgrM37eg", "node.id": "tHAltQHwSK-JAbfVGY-lTw",  "message": "license [1e86dffb-7ce3-40e5-b95f-e79a05cb5a40] mode [basic] - valid"  }
  ...

sniff : tcp dump 생성

파드내 TCP 덤프를 생성하여 MSA 개발시 서비스간 네트워크 활동을 기록하는 데 용이다.
$kubectl sniff my-nginx-6c6c46694f-qv69b
INFO[0000] using tcpdump path at: '/root/.krew/store/sniff/v1.6.2/static-tcpdump' 
INFO[0000] no container specified, taking first container we found in pod. 
INFO[0000] selected container: 'my-nginx'               
INFO[0000] sniffing method: upload static tcpdump       
INFO[0000] sniffing on pod: 'my-nginx-6c6c46694f-qv69b' [namespace: 'default', container: 'my-nginx', filter: '', interface: 'any'] 
INFO[0000] uploading static tcpdump binary from: '/root/.krew/store/sniff/v1.6.2/static-tcpdump' to: '/tmp/static-tcpdump' 
INFO[0000] uploading file: '/root/.krew/store/sniff/v1.6.2/static-tcpdump' to '/tmp/static-tcpdump' on container: 'my-nginx' 
INFO[0000] executing command: '[/bin/sh -c test -f /tmp/static-tcpdump]' on container: 'my-nginx', pod: 'my-nginx-6c6c46694f-qv69b', namespace: 'default' 
INFO[0000] command: '[/bin/sh -c test -f /tmp/static-tcpdump]' executing successfully exitCode: '1', stdErr :'' 
INFO[0000] file not found on: '/tmp/static-tcpdump', starting to upload 
INFO[0000] verifying file uploaded successfully         
INFO[0000] executing command: '[/bin/sh -c test -f /tmp/static-tcpdump]' on container: 'my-nginx', pod: 'my-nginx-6c6c46694f-qv69b', namespace: 'default' 
INFO[0000] command: '[/bin/sh -c test -f /tmp/static-tcpdump]' executing successfully exitCode: '0', stdErr :'' 
INFO[0000] file found: ''                               
INFO[0000] file uploaded successfully                   
INFO[0000] tcpdump uploaded successfully                
INFO[0000] spawning wireshark!                          
INFO[0000] starting sniffer cleanup                     
INFO[0000] sniffer cleanup completed successfully



tree : object 간 소유권 관계 정리

Linux tree -a 와 같이 관계를 정의해준다.



kubectl tree deployment my-nginx        
NAMESPACE  NAME                                 READY  REASON  AGE 
default    Deployment/my-nginx                  -              136m
default    ㄴ--ReplicaSet/my-nginx-6c6c46694f   -              136m
default      ㄴ--Pod/my-nginx-6c6c46694f-qv69b  True           136m

kubespy : kubespy는 kubernetes의 오브젝트에 대한 상태변화를 모니터링하는 도구이다.
  #install 
  $brew install kubespy
  or
  $wget https://github.com/pulumi/kubespy/releases/download/v0.6.0/kubespy-v0.6.0-linux-amd64.tar.gz
  $tar -xzvf kubespy-v0.6.0-linux-amd64.tar.gz
  $cp kubespy /usr/bin/
  #아래와 같이 추적하는 데 사용 대괄호를 통해 빠르게 표현 (added, deleted, modified)
  $kubespy trace deployment my-nginx
  [ADDED apps/v1/Deployment]  default/my-nginx
      Rolling out Deployment revision 1
      [55;8HDeployment is currently available
      [56;8HRollout successful: new ReplicaSet marked 'available'

  ROLLOUT STATUS:
  - [Current rollout | Revision 1] [ADDED]  default/my-nginx-65cff45899
      [60;8HReplicaSet is available [2 Pods available of a 2 minimum]
         - [Ready] my-nginx-65cff45899-cmf4w
         - [Ready] my-nginx-65cff45899-kvv2t
  $kubespy status apps/v1 Deployment my-nginx
  해당 yaml 파일과 비교하여 현재의 상태를 표현한다. yaml과 비교한기에 정확히 어떤 부분에 변화가 있는 지 파악가능


마치며
첫 블로그 포스팅이어서 뿌듯하기도 하다. 하지만, 실습관련되서 정리를 깔끔하게 하지 못한 것 같아 아쉽다.