dohyeon_an.log

Socket 통신과 HTTP 통신의 차이점

Thu, 13 Jul 2023 15:51:10 GMT

안녕하세요 여러분! 오늘은 네트워킹의 중심 개념인 'Socket 통신'과 'HTTP 통신'에 대해 이야기해보려 합니다. 이 두 가지 모두 데이터를 네트워크를 통해 전송하는 방법이지만, 동작 방식과 사용 사례에서 중요한 차이점이 있습니다. 이해를 돕기 위해 두 가지를 구분하는 핵심 요소를 아래에서 다루겠습니다.

Socket 통신이란?

Socket은 연결 지향형 네트워크 모델인 TCP/IP 네트워크에서 두 대의 컴퓨터간의 네트워크 연결을 활성화하는 엔드포인트입니다. 각각의 소켓은 고유한 주소를 가지며, 이는 IP 주소와 포트 번호의 조합으로 이루어져 있습니다. 이 두 정보를 통해 소켓은 데이터가 올바르게 도착하는 곳을 알 수 있습니다.

Socket 통신은 주로 실시간 시스템에서 사용되는데, 이는 양방향 통신이 가능하고 연결이 유지되는 동안에는 데이터를 지속적으로 전송할 수 있기 때문입니다. 즉, 클라이언트와 서버간에 연결이 활성화되고 난 후에는 양쪽 모두 데이터를 보내거나 받을 수 있습니다.

예를 들어, 채팅 앱을 생각해보세요. 실시간으로 메시지를 전송하고 받아야 하므로 Socket 통신이 이상적입니다. 한 유저가 메시지를 보내면, 서버는 해당 메시지를 받아 다른 유저의 소켓에 보냅니다.

HTTP 통신이란?

HTTP는 Hypertext Transfer Protocol의 약자로, 웹 브라우저와 웹 서버 간에 HTML 페이지나 이미지와 같은 웹 자원을 주고 받을 때 주로 사용하는 프로토콜입니다.

HTTP는 '요청-응답' 모델을 사용합니다. 클라이언트(보통 웹 브라우저)가 HTTP 요청을 서버에 보내면, 서버는 해당 요청에 따른 결과를 HTTP 응답으로 보냅니다. 이 응답은 웹 페이지의 HTML, CSS, JavaScript 코드, 이미지 등을 포함할 수 있습니다.

즉, 웹 페이지를 로드하거나 웹 서버에 데이터를 전송하는 등의 작업을 할 때는 HTTP 통신이 이루어집니다. HTTP는 또한 상태를 유지하지 않는(stateless) 프로토콜입니다. 즉, 각 요청과 응답은 독립적이며, 서버는 이전 요청에 대한 정보를 저장하지 않습니다.

Socket 통신과 HTTP 통신의 차이점 그리고 각자의 장점에 대해서

그렇다면 Socket 통신과 HTTP 통신의 차이점은 무엇일까요? 가장 주요한 차이점은 '연결의 유지'와 '데이터 전송 방식'에 있습니다.

연결의 유지: Socket 통신은 클라이언트와 서버 간에 지속적인 연결을 유지합니다. 이에 반해, HTTP 통신은 요청이 있을 때만 임시 연결이 형성되며, 응답이 전달되면 연결이 끊어집니다.
데이터 전송 방식: Socket 통신은 양방향 통신이 가능하여, 클라이언트와 서버 모두 언제든지 데이터를 보낼 수 있습니다. 반면에 HTTP는 단방향 통신으로, 클라이언트가 요청을 보내면 그에 대한 응답이 서버로부터 돌아옵니다.
상태 정보의 유지: HTTP는 stateless 프로토콜이므로 각 요청과 응답은 서로 독립적입니다. 서버는 클라이언트의 상태 정보를 유지하지 않습니다. 이에 반해, Socket 통신은 연결이 유지되는 한 상태 정보가 유지됩니다.

Socket 통신의 장점

실시간 통신: Socket 통신은 양방향 통신이 가능하므로, 데이터를 실시간으로 주고 받을 수 있습니다. 이는 채팅 앱, 게임, 실시간 데이타를 주고받는 IoT 기기 등에서 굉장히 유용합니다.
지속적인 연결: Socket 통신은 클라이언트와 서버간에 지속적인 연결을 유지합니다. 이로 인해 데이터를 주고받는 데 있어 속도가 빠르고, 높은 효율성을 가질 수 있습니다.
상태 정보 유지: Socket 통신은 연결이 유지되는 동안 클라이언트와 서버 사이의 상태 정보를 유지할 수 있습니다. 이는 예를 들어 게임 상태, 로그인 상태 등을 유지하거나 두 개체 간의 대화 흐름을 추적하는 데 유용합니다.

HTTP 통신의 장점

단순성과 확장성: HTTP는 웹의 기본 통신 프로토콜로서, 요청과 응답이라는 간단한 방식으로 동작합니다. 이로 인해 개발이 간단하고, 웹 서비스의 확장성이 뛰어납니다.
무상태성: HTTP는 무상태성(stateless)을 가집니다. 이는 서버가 클라이언트의 상태 정보를 저장하지 않아 각 요청이 독립적으로 처리됩니다. 이러한 특성은 서버의 메모리를 절약할 수 있으며, 서버가 다운되거나 새로운 서버가 추가되어도 클라이언트와의 통신에 문제가 없다는 것을 의미합니다.
캐싱 기능: HTTP는 캐싱 기능을 가지고 있습니다. 캐싱은 데이터나 자원을 재사용하는 것으로, 웹 성능 향상에 큰 역할을 합니다. 예를 들어, 웹 사이트를 방문할 때 로고 이미지나 자주 사용하는 스크립트 파일 등은 한 번 받아온 후 로컬에 저장해두었다가 재사용합니다. 이는 불필요한 데이터 전송을 줄여주고, 페이지 로딩 시간을 줄여줍니다.

결론

Socket 통신과 HTTP 통신은 각각 서로 다른 상황과 요구사항에 따라 최적화된 프로토콜입니다. 실시간 데이터 통신이 필요한 경우 Socket 통신을, 웹 페이지와 같은 자원을 요청하는 경우 HTTP 통신을 사용하게 됩니다. 이 두 가지 통신 방식을 이해하고 적절히 활용하면 네트워크 프로그래밍에 있어 더욱 다양한 문제 해결이 가능해집니다.

Elasticsearch와 MySQL에서의 날짜별 필드 합계 계산하기

Mon, 10 Jul 2023 13:17:58 GMT

데이터 분석을 하다 보면, 특정 기간 동안 특정 필드의 합계를 날짜별로 계산하는 경우가 자주 있습니다. 이번 포스트에서는 Elasticsearch와 MySQL에서 같은 작업을 어떻게 수행하는지를 비교하면서 설명하겠습니다.

먼저 다음과 같은 판매 데이터가 있다고 가정해봅시다:

#sales 인덱스:
[
  { "sale_id": 1, "date": "2023-01-01", "category": "Electronics", "amount": 200 },
  { "sale_id": 2, "date": "2023-01-02", "category": "Electronics", "amount": 150 },
  { "sale_id": 3, "date": "2023-01-07", "category": "Books", "amount": 20 },
  { "sale_id": 4, "date": "2023-02-01", "category": "Books", "amount": 25 },
  { "sale_id": 5, "date": "2023-02-02", "category": "Books", "amount": 30 },
  { "sale_id": 6, "date": "2023-02-07", "category": "Electronics", "amount": 300 }
]

Elasticsearch에서의 합계 계산

Elasticsearch에서는 date_histogram_과 _sum 집계를 이용해 날짜별 amount 합계를 계산할 수 있습니다. 다음 쿼리를 살펴봅시다.

#GET /sales/_search
{
  "size": 0,
  "query": {
    "bool": {
      "filter": [
        {
          "range": {
            "date": {
              "gte": "2023-01-01",
              "lte": "2023-02-28"
            }
          }
        }
      ]
    }
  },
  "aggs": {
    "sales_per_day": {
      "date_histogram": {
        "field": "date",
        "interval": "day",
        "format": "yyyy-MM-dd",
        "min_doc_count": 0
      },
      "aggs": {
        "amount_sum": {
          "sum": {
            "field": "amount"
          }
        }
      }
    }
  }
}

이 쿼리는 먼저 bool 쿼리의 filter 조건을 사용하여 2023년 1월 1일부터 2023년 2월 28일까지의 데이터만 선택합니다. 그런 다음 date_histogram 집계를 사용하여 날짜별로 데이터를 분할하고, 각 날짜 버킷 내에서 amount_의 합계를 계산하는 _sum 집계를 적용합니다.

MySQL에서의 합계 계산

MySQL에서는 GROUP BY와 SUM 함수를 사용하여 동일한 결과를 얻을 수 있습니다. 아래 쿼리를 확인해 보세요.

SELECT DATE(date) as sales_date, SUM(amount) as total_amount
FROM sales
WHERE date BETWEEN '2023-01-01' AND '2023-02-28'
GROUP BY sales_date
ORDER BY sales_date;

이 쿼리는 먼저 WHERE 절을 사용하여 2023년 1월 1일부터 2023년 2월 28일까지의 데이터를 필터링합니다. 그런 다음 GROUP BY 절을 사용하여 날짜별로 데이터를 그룹화하고, 각 그룹에서 _amount_의 합계를 계산하는 SUM 함수를 적용합니다.

결론

이번 시간에는 date_histogram_을 간단하게 소개한 지난 내용에서 한 발자국 더 나아가 날짜별로 특성 필드값의 합계를 계산하는 쿼리를 작성해 봤습니다. 다음 시간에는 elasticsearch 고유한 항목의 개수를 계산하는 _cardinality 라고 하는 집계 방식을 다루는 내용에 대한 포스트를 작성해 보겠습니다. 감사합니다 :)

Elasticsearch의 Date Histogram Aggregation과 MySQL 날짜 그룹화 비교하기

Mon, 10 Jul 2023 13:14:00 GMT

안녕하세요! 이전 포스팅에서는 Elasticsearch의 집계 기능과 MySQL의 GROUP BY를 비교하는 시간을 가졌습니다. 오늘은 Elasticsearch의 date_histogram 집계에 대해 이야기해보고, 이를 MySQL의 날짜 그룹화와 비교하겠습니다.

다음의 예시 데이터셋으로 시작해봅시다.

#sales 인덱스:
[
  { "sale_id": 1, "date": "2023-01-01", "category": "Electronics", "amount": 200 },
  { "sale_id": 2, "date": "2023-01-02", "category": "Electronics", "amount": 150 },
  { "sale_id": 3, "date": "2023-01-07", "category": "Books", "amount": 20 },
  { "sale_id": 4, "date": "2023-02-01", "category": "Books", "amount": 25 },
  { "sale_id": 5, "date": "2023-02-02", "category": "Books", "amount": 30 },
  { "sale_id": 6, "date": "2023-02-07", "category": "Electronics", "amount": 300 }
]

이 데이터셋은 각각의 판매 건에 대한 정보를 담고 있습니다. 각 판매는 sale_id, date, category, amount 필드를 가지고 있습니다.

Elasticsearch의 Date Histogram Aggregation

Elasticsearch에서 date_histogram 집계는 특정 시간 간격으로 날짜 필드를 버킷화하는 데 사용됩니다. 또한 bool 필터를 사용하여 특정 조건을 충족하는 문서만 대상으로 집계를 수행할 수 있습니다.

#GET /sales/_search
{
  "size": 0,
  "query": {
    "bool": {
      "filter": {
        "term": { "category.keyword": "Electronics" }
      }
    }
  },
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "date",
        "calendar_interval": "month"
      }
    }
  }
}

이 쿼리는 _category.keyword_가 "Electronics"인 판매 건만을 대상으로, 월별로 판매 건을 집계합니다.

반환된 응답은 다음과 같습니다.

{
  ...
  "aggregations": {
    "sales_over_time": {
      "buckets": [
        {
          "key_as_string": "2023-01-01",
          "key": 1672444800000,
          "doc_count": 2
        },
        {
          "key_as_string": "2023-02-01",
          "key": 1672531200000,
          "doc_count": 1
        }
      ]
    }
  }
}

MySQL의 날짜 그룹화

이제 같은 작업을 SQL을 사용하여 수행해보겠습니다. SQL에서는 WHERE 절과 GROUP BY 절을 사용하여 동일한 결과를 얻을 수 있습니다.

SELECT DATE_FORMAT(date, '%Y-%m') as month, COUNT(*) 
FROM sales 
WHERE category = 'Electronics'
GROUP BY month;

이 쿼리는 'category'가 'Electronics'인 판매 건만을 대상으로, 월별로 판매 건을 집계합니다. 결과는 다음과 같습니다.

+---------+----------+
| month   | COUNT(*) |
+---------+----------+
| 2023-01 | 2        |
| 2023-02 | 1        |
+---------+----------+

결론

Elasticsearch의 date_histogram 집계와 SQL의 날짜 그룹화는 동일한 목적을 위해 사용되지만, 그 구현 방식과 사용자 인터페이스에서 차이가 있습니다. Elasticsearch는 NoSQL 데이터베이스로서, 데이터의 분포를 그래픽으로 표현하거나 시간 별로 데이터를 분류하는 등의 분석에 더 효과적입니다. 반면에, SQL은 관계형 데이터베이스로서, 정형화된 데이터와 관계를 이용한 복잡한 쿼리에 더 강점을 가지고 있습니다. 이상으로 Elasticsearch와 SQL의 날짜 집계 방식에 대해 간략하게 살펴보았습니다. 향후에는 더 복잡한 집계와 분석을 위해 Elasticsearch의 다양한 집계 기능을 활용하는 방법에 대해 알아보겠습니다. 감사합니다!

Elasticsearch 집계(aggregation)와 MySQL GROUP BY 비교하기

Mon, 10 Jul 2023 12:53:09 GMT

안녕하세요, 오늘은 Elasticsearch의 집계 기능에 대해 알아보고, 이를 전통적인 SQL의 GROUP BY 절과 비교해보겠습니다. 이를 통해 Elasticsearch의 집계가 어떻게 동작하는지 이해하고, 관계형 데이터베이스와 NoSQL 데이터베이스 간의 차이점을 이해하는 데 도움이 될 것입니다.

먼저, 예시를 위해 다음과 같은 데이터셋을 가지고 있습니다라고 가정해봅시다.

#products 인덱스:
[
  { "product_id": 1, "category": "Electronics", "price": 200 },
  { "product_id": 2, "category": "Electronics", "price": 150 },
  { "product_id": 3, "category": "Books", "price": 20 },
  { "product_id": 4, "category": "Books", "price": 25 },
  { "product_id": 5, "category": "Books", "price": 30 },
  { "product_id": 6, "category": "Electronics", "price": 300 }
]

이 데이터셋은 간단한 제품 목록을 나타냅니다. 각 제품은 product_id, category, price 필드를 가지고 있습니다.

1. Elasticsearch 집계(Aggregation)

Elasticsearch에서는 집계를 사용하여 데이터에 대한 복잡한 분석을 수행할 수 있습니다. 'terms' 집계와 'stats' 집계를 결합하여 특정 필드를 기준으로 그룹을 만들고, 그룹별로 통계를 계산해봅시다.

#GET /products/_search
{
  "size": 0,
  "aggs": {
    "group_by_category": {
      "terms": {
        "field": "category.keyword"
      },
      "aggs": {
        "price_stats": {
          "stats": {
            "field": "price"
          }
        }
      }
    }
  }
}

💡 잠깐! 여기서 “size”: 0 의 의미는 무엇일까?

Elasticsearch 쿼리에서 "size" 파라미터는 반환할 검색 결과의 문서 수를 지정합니다. 기본적으로 "size"는 10으로 설정되어 있습니다. 이는 한 번의 검색 쿼리로 기본적으로 최대 10개의 문서를 반환한다는 의미입니다. 그러나 "size": 0를 설정하면, Elasticsearch는 검색 결과의 문서를 전혀 반환하지 않습니다. 대신, 요청한 집계 정보만 반환합니다. 이러한 설정은 문서 자체보다는 문서의 집계 정보가 필요한 경우, 예를 들어 문서의 개수, 평균, 합계 등을 계산하고 싶을 때 유용합니다. 이렇게 하면 불필요한 네트워크 트래픽과 처리 시간을 절약할 수 있습니다.
따라서 "size": 0는 "문서 검색 결과를 반환하지 말고, 집계 정보만 반환해라"라는 의미로 해석할 수 있습니다.

다시 쿼리문으로 돌아와서, 위 쿼리는 category.keyword 필드의 각 유일한 값에 대해 price 필드에 대한 통계를 계산합니다. 결과는 다음과 같습니다.

{
  ...
  "aggregations": {
    "group_by_category": {
      "buckets": [
        {
          "key": "Electronics",
          "doc_count": 3,
          "price_stats": {
            "count": 3,
            "min": 150,
            "max": 300,
            "avg": 216.67,
            "sum": 650
          }
        },
        {
          "key": "Books",
          "doc_count": 3,
          "price_stats": {
            "count": 3,
            "min": 20,
            "max": 30,
            "avg": 25,
            "sum": 75
          }
        }
      ]
    }
  }
}

2. MySQL의 Group by

이제 같은 작업을 SQL을 사용하여 수행해 보겠습니다. GROUP BY 절은 특정 열을 기준으로 행을 그룹화하고, 각 그룹에 대해 통계를 계산할 수 있게 해줍니다.

SELECT category, COUNT(*), MIN(price), MAX(price), AVG(price), SUM(price)
FROM products
GROUP BY category;

이 쿼리는 'category' 필드의 각 유일한 값에 대해 'price' 필드에 대한 통계를 계산합니다. 결과는 다음과 같습니다.

+-------------+----------+-----------+-----------+-----------+----------+
| category    | COUNT(*) | MIN(price)| MAX(price)| AVG(price)| SUM(price)|
+-------------+----------+-----------+-----------+-----------+----------+
| Electronics | 3        | 150       | 300       | 216.67    | 650      |
| Books       | 3        | 20        | 30        | 25        | 75       |
+-------------+----------+-----------+-----------+-----------+----------+

결론

Elasticsearch의 집계와 SQL의 GROUP BY는 비슷하게 동작하지만, Elasticsearch는 NoSQL 데이터베이스로써 스키마리스 데이터와 복잡한 중첩 데이터 구조를 처리하는 데 더 강점을 가지고 있습니다. 반면에, SQL은 관계형 데이터 모델에 최적화되어 있으며, 테이블 간의 관계를 기반으로 데이터를 조작하고 질의하는데 효율적입니다.

이상으로 Elasticsearch와 SQL의 차이와 그 사용 방법에 대해 간략하게 살펴보았습니다. 향후에는 더 복잡한 집계와 분석을 위해 Elasticsearch의 다양한 집계 기능을 활용하는 방법에 대해 알아보겠습니다. 감사합니다!

Python 패키지 관리자: Poetry와 Pip의 장단점 비교

Sat, 08 Jul 2023 10:11:57 GMT

Python 프로젝트를 관리하는 도구로써 많은 개발자들이 pip와 poetry를 널리 사용하고 있습니다. 이들은 프로젝트의 종속성을 관리하고, 패키지 설치 및 배포를 돕는 중요한 도구입니다. 이 글에서는 각각의 장단점에 대해 다루어보고자 합니다.

Pip

pip는 Python에서 가장 널리 쓰이는 패키지 관리 도구입니다. Python 커뮤니티에서 가장 많이 인식되고 사용되며, PyPI(Python Package Index)에서 패키지를 설치하고 관리하는 데 주로 사용됩니다.

Pip의 장점

간편함: pip는 Python에 기본적으로 내장되어 있으므로 별도의 설치 과정 없이 사용 가능합니다. 명령어가 직관적이어서 초보자도 쉽게 사용할 수 있습니다.

대중성: pip는 Python 패키지 설치의 표준 도구로 널리 사용되고 있습니다. 이는 많은 자료와 커뮤니티의 지원을 받을 수 있다는 것을 의미합니다.

Pip의 단점

종속성 관리의 한계: pip는 종속성을 잘 관리하지 못하는 문제가 있습니다. 특히, 다양한 프로젝트를 동시에 관리하려는 경우 복잡성이 증가하며, 이로 인해 종속성 충돌이 발생할 수 있습니다.

패키지 버전 관리의 어려움: pip는 설치한 패키지의 버전을 명시적으로 관리하는 데 어려움이 있습니다. 이로 인해 개발 환경과 배포 환경 사이에 차이가 생길 수 있습니다.

Poetry

Poetry는 Python의 종속성 및 패키지 관리를 위한 도구로, 프로젝트의 종속성을 보다 체계적으로 관리할 수 있게 해줍니다.

Poetry의 장점

철저한 종속성 관리: Poetry는 프로젝트의 종속성을 보다 체계적이고 엄격하게 관리합니다. pyproject.toml 파일을 통해 명시적으로 종속성을 관리하며, 이를 통해 개발 환경과 배포 환경의 일관성을 유지하는 데 도움이 됩니다.

가상 환경 자동 관리: Poetry는 프로젝트마다 독립적인 가상 환경을 생성하고 자동으로 관리합니다. 이를 통해 다양한 프로젝트의 종속성 충돌 문제를 피할 수 있습니다.

Poetry의 단점

학습 곡선: pip에 비해 Poetry는 사용법이 조금 더 복잡합니다. 따라서 사용법을 익히는 데 시간이 필요할 수 있습니다.

설치 과정 필요: pip와 달리 Poetry는 별도의 설치 과정이 필요합니다. 설치 과정이 복잡할 수 있으며, 특히 다양한 운영 체제에서의 호환성 문제가 있을 수 있습니다.

결론적으로, pip와 Poetry는 각각의 장단점을 가지고 있습니다. pip는 단순하고 널리 사용되지만, 복잡한 종속성 관리에는 한계가 있습니다. 반면 Poetry는 종속성 관리에 강점을 가지지만, 사용법의 복잡성과 설치 과정이 필요한 점이 단점으로 작용할 수 있습니다. 프로젝트의 요구사항과 개인의 선호에 따라 적절한 도구를 선택하는 것이 중요합니다.