짱구는 코딩중

[TIL] 인덕서(Indexer) & 인덱싱(Indexing)

Wed, 10 Apr 2024 00:37:08 GMT

인덕서 (Indexer)

인덱서(Indexer)는 데이터 구조에서 데이터를 선택(조작)하기 위한 인터페이스를 제공하는 객체이다. 판다스에서 주로 사용되는 인덱서에는 loc 및 iloc이 있다.

✅ 인덱스 (Indexer) vs 인덕서 (Indexer)

인덱스(Index)는 데이터 구조에서 행이나 열에 대한 레이블을 저장하는 객체로 데이터에 접근하고 행 또는 열을 고유하게 식별하는 데 사용된다.

인덱스와 인덕서의 개념 차이는 사용 방법과 이유에 따라 조금 틀려진다. 인덱스는 데이터에 대한 레이블을 저장하고 접근하는 객체이며, 인덱서는 데이터를 선택하고 조작하는 데 사용되는 인터페이스입니다.

인덱싱(Indexing)

인덱싱(Indexing)은 데이터 구조에서 특정 데이터를 선택하거나 접근하는 것을 말한다.

인덱싱은 일반적으로 행이나 열의 위치나 레이블을 사용하여 데이터를 선택(조작)하는 작업을 의미한다. 데이터프레임에서 특정 열이나 행을 선택하거나, 시리즈에서 특정 위치에 있는 값을 가져오는 것을 인덱싱이라 부른다.

인덱서의 종류

인덱스 값을 활용하여 특정 인덱스에 해당하는 값을 추출할 수 있다.

인덱스의 값이 라벨(문자타입)인 경우 .loc[ ]와 .at[ ]를 사용하며, 인덱스 값이 정수인 경우 .iloc[ ]와 .iat[ ]를 사용한다.

[ ]

Bracket Indexing 라벨(인덱스 이름) 혹은 인덱스의 번호를 사용하여 데이터에 접근하는 방법

.loc[ ]

Label-Based Indexing 라벨(인덱스 이름)을 사용하여 데이터에 접근

.iloc[ ]

Integer-Based Indexing 인덱스의 번호를 사용하여 데이터에 접근

.at[ ]

Fast Label-Based Indexing .loc[]와 유사한 기능을 가지고 있지만, 스칼라(Scalar) 값을 가져오는데 있어 최적화된 방법

.iat[ ]

Fast Integer-Based Indexing .iloc[]와 유사한 기능을 가지고 있지만, 스칼라(Scalar) 값을 가져오는데 있어 최적화된 방법

불리언(Boolean) 인덱싱

참 또는 거짓 값을 가지는 조건을 활용하여 데이터를 선택(조작) 하는 방법으로 다양한 조건문과 속성, 메서드 등을 활용하여 특정 데이터에 접근할 수 있다.

아래 판다스 공식 사이트에 들어가면 다양한 방법의 인덱싱 방법을 확인 할 수 있다. Pandas Indexing User Guide

[TIL]판다스(Pandas) (With 데이터 구조)

Tue, 09 Apr 2024 08:21:14 GMT

판다스(Pandas)

판다스(Pandas)는 파이썬 기반의 대표 라이브러리로 오늘날 데이터 분석(Data Analyst)과 데이터 사이언스(Data Science)에 핵심으로 사용되고 있다.

특히 표 형식의 데이터를 다루는 데 있어 효과적이다. 데이터를 불러오고, 처리하고, 조작, 필터링, 그룹화, 결합 등 다양한 작업에 활용되고 있다.

✅ 판다스(Pandas) 사용

conda를 활용하여 쉽게 설치할 수 있다.

(설치할 컴퓨터) xxx ~ % conda install pandas

정상 설치가 완료되었다면 import를 사용하여 pandas를 불러올 수 있다.

import pandas as pd

판다스(Pandas)의 데이터 구조

판다스(Pandas)에서는 대표적인 데이터 구조 2개가 존재한다.

하나는 1차원 데이터 구조로 이루어진 시리즈(Series)가 있고, 또 하나는 2차원 데이터 구조로 이루어진 데이터프레임(DataFrame)이 있다.

✅ 시리즈(Series)와 데이터프레임(DataFrame)

시리즈(Series)는 1차원 데이터 구조로, 인덱스(index)와 인덱스에 대응하는 데이터(values)로 이루어져 있다.

데이터프레임(DataFrame)은 2차원 데이터 구조로, 행(row)과 열(column)으로 이루어져 있다.

주피터 노트북(With Apple Silicon)

Mon, 08 Apr 2024 11:59:42 GMT

주피터 노트북(Jupyter Notebook)

주피터 노트북(Jupyter Notebook)은 데이터 분석, 머신러닝, 인공지능 등 다양한 작업을 수행할 수 있는 대화형 개발 환경이다. 또한 웹 브라우저에서 실행된다는 특징을 가지고 있으며 코드, 텍스트, 시각화 및 기타 내용을 하나의 문서에 통합할 수 있는 특징을 가지고 있다.

아나콘다(Anaconda)

데이터 작업에 사용되는 여러 패키지를 기본으로 포함하고 있는 파이썬 배포판이다. 또한, 아나콘다는 "conda"를 사용하여 파이썬 기반의 가상 환경을 쉽게 구축 및 관리할 수 있다.(프로젝트별로 패키지 의존성을 분리하여 작업)

환경 설정

✅ 1. maxOS 개발환경 구축

maxOS 환경에서 프로그래밍 언어를 사용하기 위해서 설치해야 한다.

## 설치
xxx ~ % xcode-select --install
>
## 설치 확인
xxx ~ % xcode-select --version

> ### ✅ 2. Homebrew macOS 소프트웨어 패키지를 관리하는 프로그램이다. Homebrew 설치를 통해 다양한 패키지를 쉽게 설치/삭제할 수 있다. > ![](https://velog.velcdn.com/images/shin-ms/post/8f2aee9b-140a-449a-9ccd-4dd97f74ae45/image.png) > 홈페이지에 나와있는 설치 코드를 복사하여 설치할 수 있다. ```linux ## 설치 xxx ~ % /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" > ## 설치 확인 xxx ~ % brew --version ``` >
> ### ✅ 3. minifoge(Apple Silicon에 최적화된 아나콘다 패키지) minifoge는 Apple Silicon에 최적화된 아나콘다 패키지이며, Homebrew를 설치했다면 코드 한 줄로 설치할 수 있다. ```linux ## 설치 xxx ~ % brew install miniforge ``` > 컴퓨터에 아나콘다 minifoge를 설치한 후 터미널에 들어가면 $기호 왼쪽에 "(base)"라는 문구가 추가된다. > 참고로 base는 기본(메인) 컴퓨터 환경을 의미한다. ``` ## 설치 후 모습 (base) xxx ~ % ``` >
> ### ✅ 4. 가상 환경 컴퓨터 만들기 가상 환경 컴퓨터는 conda를 사용하여 만들 수 있다. 프로젝트에 맞는 가상 환경 컴퓨터 이름과 파이썬 버전을 선택하여 구축할 수 있다. ``` ## 사용 문법 (base) xxx ~ % conda create -n <가상 환경 컴퓨터 이름> python=3.X > ## 예시 (base) xxx ~ % conda create -n data_project python=3.8 ``` >
> ### ✅ 5. 가상 환경 컴퓨터 동작 conda를 사용하여 특정 가상 환경 컴퓨터를 사용할 수 있다. ``` ## 사용 문법 (base) xxx ~ % conda activate <가상 환경 컴퓨터 이름> > ## 예시 (base) xxx ~ % conda activate data_project ``` >
> ### ✅ 6. 가상 환경 컴퓨터 중지 conda를 사용하여 특정 가상 환경 컴퓨터를 중지할 수 있다. `conda deactivate`명령어를 사용할 경우 기본(메인) 컴퓨터로 이동하게 된다. ``` ## 사용 문법 (data_project) xxx ~ % conda deactivate ``` >
> ### ✅ 7. 설치한 가상 환경 컴퓨터 확인 conda를 사용하여 사용자가 설치한 가상 환경 컴퓨터 리스트를 확인 할 수 있다. ``` ## 사용 문법 (base) xxx ~ % conda env list ``` >
> ### ✅ 8. 설치한 가상 환경 컴퓨터 삭제 conda를 사용하여 사용자가 설치한 가상 환경 컴퓨터를 삭제할 수 있다. ``` ## 사용 문법 (base) xxx ~ % conda env remove -n <가상 환경 컴퓨터 이름> > ## 예시 (base) xxx ~ % conda env remove -n data_project ``` >
> ### ✅ 9. 가상 컴퓨터에 주피터 노트북 설치 가상 컴퓨터에서 주피터 노트북을 사용하기 위해서는 아래와 같은 명령어를 입력해야 한다. (ipykernel의 경우 주피터 노트북을 사용하는 데 있어 필수 옵션(라이브러리)은 아니지만, 커널 간 빠른 이동을 위해 같이 설치하는 게 좋다.) ``` ## 사용 문법 (설치할 컴퓨터) xxx ~ % conda install -y jupyter ipykernel > ## 예시 (base) xxx ~ % conda install -y jupyter ipykernel ``` >
> ### ✅ 10. 주피터 노트북 실행 아래 명령어를 사용하면 기본으로 설정된 웹 브라우저를 통해 주피터 노트북 웹 페이지가 열리게 된다. ``` (실행할 컴퓨터) xxx ~ % jupyter notebook ```

PySpark

Mon, 01 Apr 2024 21:54:03 GMT

PySpark

Apache Spark는 기본적으로 JAVA 언어 기반으로 구동 가능한 프레임워크이다.

하지만 데이터 분석 작업의 경우 대부분 Python 또는 R 언어로 업무를 수행하기 때문에 해당 언어 환경에서 Apache Spark를 사용할 수 있는 전용 인터페이스를 사용해야 한다.

Python 환경에서 Apache Spark를 사용할 수 있는 인터페이스는 PySpark라 부른다.

✅ pyspark 환경 세팅(with Google Colab)

로컬(Local)환경에서 pyspark를 사용할 경우 JAVA 버전과 충돌이 발생할 수 있기 때문에 Google Colab을 활용하여 분석을 진행할 예정이다.

jdk 설치

PySpark는 Java 가상 머신 위에서 동작하기 때문에 JDK가 필요

!apt-get install openjdk-8-jdk-headless

spark file

Apache Spark의 압축 파일을 다운로드(Spark 3.0.0 버전을 사용)

!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

spark 압축풀기

다운로드 받은 Spark 압축 파일을 압축 해제

!tar -xf spark-3.0.0-bin-hadoop3.2.tgz

spark 찾기

PySpark를 Python 환경에서 사용할 수 있도록 하는 findspark 라이브러리를 설치

!pip install findspark

캐글 데이터를 다운받기 위해 kaggle library 설치

!pip install kaggle --upgrade

운영체제와의 상호작용을 돕는 다양한 기능을 제공하는 모듈

import os import findspark

환경변수에 path 지정

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64" os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"

spark의 경우 잘 찾지 못하는 경우가 있어 findsaprk를 이용

findspark.init()

✅ pyspark 사용(with Google Colab)

spark를 사용하기 위해서는** SparkSession 객체를 선언**해야 한다.

from pyspark.sql import SparkSession

spark = ( # "spark"란 이름의 SparkSession 객체 SparkSession .builder .appName("pyspark_test") .master("local[]") # local환경에서 사용, 모든 쓰레드()를 사용 .getOrCreate() # 객체 생성 )


---

## ✅ 데이터 불러오기(with Google Colab & Kaggle)

캐글 API를 활용하여 별도의 데이터 다운로드 없이(로컬 저장X) Google Colab에 데이터를 불러오려면 아래와 같은 코드를 활용하면 된다.
>```python
## 캐글에서 받아온 API Token file(kaggle.json)을 Google colab에 업로드
from google.colab import files
files.upload()
>
## kaggle 폴더 생성
!mkdir -p ~/.kaggle/
>
## kaggle 폴더에 kaggle.json 파일 복사 저장
!cp kaggle.json ~/.kaggle/ 
>
## file 접근 권한 할당(600: 소유자 읽기, 쓰기 권한 / 리눅스 퍼미션 참고)
!chmod 600 ~/.kaggle/kaggle.json 
>
## Data Download (캐글 Copy API command)
!<캐글 사이트에서 가져온 "Copy API command">
>
## 압축풀기
!unzip <압축 파일명>.zip

✅ 데이터 읽어오기(with Google Colab)

PySpark와 Pandas는 비슷한 문법을 가지고 있지만, 활용 목적과 용도에 따라 다르게 적합성이 다르다.

PySpark은 대규모 데이터 처리와 분석에 적합한 분산 컴퓨팅 프레임워크이며, Pandas는 상대적으로 작은 데이터셋에 대한 데이터 처리 및 분석에 적합한 라이브러리이다.

df = .read.<파일 확장자>(path="<파일명>", 옵션...)


---

## ✅ 데이터 저장하기(with Google Colab)
**Spark환경에서 대용량 데이터를 처리할 때는 .parquet 확장자로 저장하여 사용하는 것이 효율적이다.**
(parquet 파일은 고성능, 효율적인 압축 및 분산 환경에 최적화된 형식)
>```python
df.write.format("parquet").save(
    path = "",
    옵션...)

✅ PySpark SQL vs DataFrame api

PySpark에서는 두 가지 주요 데이터 처리 인터페이스인 PySpark SQL과 DataFrame API가 존재한다.

🟧 PySpark SQL

PySpark SQL은 Spark에서 구조화된 데이터 처리를 위한 모듈이며, 이 모듈은 SQL 쿼리를 사용하여 데이터를 처리할 수 있다. 또한, PySpark SQL은 SQL 쿼리문을 사용하여 데이터를 다룬다는 특징이 있다.

🟧 DataFrame API

DataFrame API는 분산 데이터 프레임을 다루기 위한 API이며, 데이터를 구조화된 형식으로 처리하고 변환할 수 있다. 또한, DataFrame API는 Python의 Pandas와 유사한 API를 가지고 있다는 특징이 있다.(Pandas에 익숙한 사용자들에게 쉽게 접근 가능)

🟧 PySpark SQL vs DataFrame API

PySpark SQL과 DataFrame API는 각각의 장단점을 가지고 있으며, 데이터 처리 작업에 따라 적합한 방식을 채택하여 사용하는 것을 지향해야 한다.

일반적으로 PySpark SQL의 경우 SQL 질의를 사용하여 간단한 데이터 분석 및 처리 작업을 수행하고, 대용량 데이터의 복잡한 변환 및 조작이 필요한 경우 DataFrame API를 사용하는 것이 일반적이다. (sql쿼리의 유지보수가 힘들다는 단점이 존재하기 때문에 대용량의 데이터를 처리할 때는 DataFrame API를 많이 사용한다.)

Apache Spark

Mon, 01 Apr 2024 21:15:38 GMT

Apache Spark

Apache Spark는 대규모 데이터 처리를 위한 오픈 소스 분산 클러스터 컴퓨팅 프레임워크로 빠른 속도와 유연성을 제공하며, 대규모 데이터 집합을 효율적으로 처리하고 분석할 수 있다.

시스템의 전반적인 성능을 향상시키기 위해 계산 부하량을 여러 노드에 분담하여 처리하는 병렬 처리방식으로 구동한다.

Spark의 데이터 처리방식

1. Partition 데이터를 처리하기 위해 논리적인 청크 단위로 분할하는 과정이며, 각 파티션은 클러스터의 여러 머신에 저장되어 처리되는 단계이다.

2. Transformation 데이터의 변경을 Spark에게 알리는 단계이며, 이때 실제 데이터 변경 연산은 수행되지 않고 논리적 실행 계획만 생성되는 단계이다.

3. Lazy Evaluation 연산 명령을 즉시 실행하지 않고, 원본 데이터에 적용할 연산 명령을 그래프 형태로만 세우는 단계이다. (Action 단계 전까지 전체 데이터 흐름을 최적화하는 역할)

4. Action 실제 연산을 수행하는 단계이며, Transformation으로부터 결과를 계산하도록 지시한다.

5. Catalyst Spark의 옵티마이저 엔진으로 사용자의 쿼리를 분석하고 최적화하여 실행 계획을 생성하는 단계이다.

[SQL 고득점 Kit] 특정 기간동안 대여 가능한 자동차들의 대여비용 구하기

Sun, 24 Mar 2024 22:11:32 GMT

❓ 문제

CAR_RENTAL_COMPANY_CAR 테이블과 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블과 CAR_RENTAL_COMPANY_DISCOUNT_PLAN 테이블에서 자동차 종류가 '세단' 또는 'SUV' 인 자동차 중 2022년 11월 1일부터 2022년 11월 30일까지 대여 가능하고 30일간의 대여 금액이 50만원 이상 200만원 미만인 자동차에 대해서 자동차 ID, 자동차 종류, 대여 금액(컬럼명: FEE) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 대여 금액을 기준으로 내림차순 정렬하고, 대여 금액이 같은 경우 자동차 종류를 기준으로 오름차순 정렬, 자동차 종류까지 같은 경우 자동차 ID를 기준으로 내림차순 정렬해주세요.

❗️ 문제 풀이

/*
조건1 : 자동차 종류가 '세단' 또는 'SUV' 인 자동차
조건2 : 2022년 11월 1일부터 2022년 11월 30일까지 대여 가능 (30일 full 대여)
조건3 : 대여 금액이 50만원 이상 200만원 미만
*/

with tb as( select CAR_ID from CAR_RENTAL_COMPANY_RENTAL_HISTORY where 1=1 and (START_DATE <= '2022-11-01' and END_DATE >= '2022-11-01') # 대여 기간이 30일 미만 + 11월 이전 대여 ~ 11월 이후 반납 )

select C.CAR_ID ,C.CAR_TYPE ,round((C.DAILY_FEE - (C.DAILY_FEE * (P.DISCOUNT_RATE * 0.01))) * 30, 0) as FEE from CAR_RENTAL_COMPANY_CAR as C, CAR_RENTAL_COMPANY_DISCOUNT_PLAN as P where 1=1 and C.CAR_TYPE = P.CAR_TYPE and C.CAR_ID not in (select CAR_ID from tb) and P.DURATION_TYPE = '30일 이상' and C.CAR_TYPE in ('세단', 'SUV') and round((C.DAILY_FEE - (C.DAILY_FEE * (P.DISCOUNT_RATE * 0.01))) * 30, 0) between 500000 and 1999999 order by 3 desc, 2, 1 desc

>

# 📚 느낀점
날짜 데이터를 다루는 데 있어 어색한 부분이 있었다.
이번 기회를 통해 SQL에서 날짜 데이터를 다루는 방법을 공부해야겠다.





---
# 🔗 Reference
https://school.programmers.co.kr/learn/courses/30/lessons/157339

[Error] "Cannot convert non-finite values (NA or inf) to integer"

Fri, 22 Mar 2024 12:59:41 GMT

🚨 에러 발생

구글 코랩 환경에서 실수형(float type) 데이터를 정수형(int type)으로 변환하려는 과정에서 아래와 같은 에러가 발생했다.

"Cannot convert non-finite values (NA or inf) to integer"

에러 내용을 해석해 보면 변환하려는 칼럼에 결측값(NULL/NA) 또는 무한대 값(Inf)이 존재하기 때문에 변환할 수 없다는 내용이다.

변환하려는 칼럼은 무한대 값이 존재할 수 없기 때문에 무한대 값(inf) 아닌 결측값(NULL/NA)이 에러의 원인으로 추측했다.

✅ 에러 해결

구글에 검색해 본 결과 다양한 블로그에서 아래와 같은 방법을 쉽게 찾을 수 있었다.

NULL 값을 -1로 치환 -> 데이터 타입 변경 -> -1로 치환한 데이터를 다시 NULL로 변환
import numpy as np
df.xxx = df.xxx.fillna(-1).astype('Int64').replace({-1: np.nan})


하지만 위의 방법으로 실수를 정수로 변환 할 수 없어서 다른 방법을 찾아 보던 중 `to_numeric()` 메서드를 발견했다.

`to_numeric()` 메서드는 판다스에서 제공하는 데이터 타입 변환 메서드로 오류에 대한 대처가 다양했다.
>
> ### to_numeric() 메서드 기본 문법
```sql
to_numeric(df.xxx, errors=raise, downcast=None)

errors
- raise(기본값): 오류를 발생시킵니다.
- coerce: 변환할 수 없는 값을 NaN으로 변환합니다.
- ignore: 변환할 수 없는 값을 그대로 유지합니다.
  
  나는 NULL 값을 유지한 채로 데이터 타입을 변환하고 싶어서 아래와 같이 코드를 작성해 보았다.
```
df.xxx = pd.to_numeric(df.xxx, errors='coerce').astype('Int64')
```

[SQL 고득점 Kit] 주문량이 많은 아이스크림들 조회하기

Fri, 22 Mar 2024 08:25:01 GMT

❓ 문제

7월 아이스크림 총 주문량과 상반기의 아이스크림 총 주문량을 더한 값이 큰 순서대로 상위 3개의 맛을 조회하는 SQL 문을 작성해주세요.

❗️ 문제 풀이

/*

상반기 주문 정보 FIRST_HALF
7월 아이스크림 주문 정보 JULY
7월에는 주문량이 많아 같은 아이스크림을 두 공장에서 출하하는 경우 발생 (출하 번호가 다름)
상반기 + 7월 아이스크림 총 주문량을 더한 값 중 상위 3개의 맛을 조회

with tb as ( select * from FIRST_HALF union all select * from JULY )

select FLAVOR from tb group by 1 order by sum(TOTAL_ORDER) desc limit 3```

📚 느낀점

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/lessons/133027

[SQL 고득점 Kit] 연간 평가점수에 해당하는 평가 등급 및 성과금 조회하기

Thu, 21 Mar 2024 22:14:08 GMT

❓ 문제

HR_DEPARTMENT, HR_EMPLOYEES, HR_GRADE 테이블을 이용해 사원별 성과금 정보를 조회하려합니다. 평가 점수별 등급과 등급에 따른 성과금 정보가 아래와 같을 때, 사번, 성명, 평가 등급, 성과금을 조회하는 SQL문을 작성해주세요.

평가등급의 컬럼명은 GRADE로, 성과금의 컬럼명은 BONUS로 해주세요. 결과는 사번 기준으로 오름차순 정렬해주세요.

기준 점수	평가 등급	성과금(연봉 기준)
96 이상	S	20%
90 이상	A	15%
80 이상	B	10%
이외	C	0%

❗️ 문제 풀이

select
    E.EMP_NO
    ,E.EMP_NAME
    ,case
        when avg(SCORE) >= 96 then 'S'
        when avg(SCORE) >= 90 then 'A' 
        when avg(SCORE) >= 80 then 'B' 
        else 'C'
    end as GRADE
    ,case
        when avg(SCORE) >= 96 then 0.2 * SAL
        when avg(SCORE) >= 90 then 0.15 * SAL
        when avg(SCORE) >= 80 then 0.1 * SAL
    else 0 * SAL
    end as BONUS
from HR_EMPLOYEES as E, HR_GRADE as G
where 1=1
    and E.EMP_NO = G.EMP_NO
group by 1

```

📚 느낀점

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/lessons/284528

[SQL 고득점 Kit] 언어별 개발자 분류하기

Thu, 21 Mar 2024 21:17:42 GMT

❓ 문제

DEVELOPERS 테이블에서 GRADE별 개발자의 정보를 조회하려 합니다. GRADE는 다음과 같이 정해집니다.

A : Front End 스킬과 Python 스킬을 함께 가지고 있는 개발자
B : C# 스킬을 가진 개발자
C : 그 외의 Front End 개발자

GRADE가 존재하는 개발자의 GRADE, ID, EMAIL을 조회하는 SQL 문을 작성해 주세요. 결과는 GRADE와 ID를 기준으로 오름차순 정렬해 주세요.

❗️ 문제 풀이

with tb as(
    select
        D.ID
        ,GROUP_CONCAT(S.NAME SEPARATOR '_') as skill
        ,GROUP_CONCAT(S.CATEGORY SEPARATOR '_') as skill_category
    from SKILLCODES as S, DEVELOPERS as D
    where S.CODE & D.SKILL_CODE > 0
    group by 1
    order by 1
)

select distinct case when tb.skill like '%Python%' and tb.skill_category like '%Front End%' then 'A' when tb.skill like '%C#%' then 'B' when tb.skill_category like '%Front End%' then 'C' end as GRADE ,D.ID ,D.EMAIL from SKILLCODES as S, DEVELOPERS as D, tb where 1=1 and D.ID = tb.ID HAVING 1=1 and GRADE IS NOT NULL order by 1, 2

```

📚 배운점/느낀점

SKILLCODES 테이블의 경우 테스트 케이스에 따라 스킬 CODE 값이 달라지기 때문에 문제를 푸는데 있어 조금 고생했다. (스킬 CODE 값이 고정값인 줄 알았다...)

추가로 해당 문제를 풀면서 불가피하게 GROUP BY 절 없이 HAVING 절을 사용했다. GROUP BY 절을 사용하면 데이터베이스가 먼저 그룹화하고 그 후에 조건(HAVING)을 적용할 수 있어서 필터링 작업을 최적화할 수 있다. 반면에 HAVING 절만 사용하는 경우에는 모든 행을 그룹화한 후에 조건(HAVING)을 적용하므로 성능에 영향을 줄 수 있다. 때문에 일반적으로 HAVING 절은 GROUP BY 절 뒤에 작성하는 것을 권장한다.

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/lessons/276036

[SQL 고득점 Kit] 입양 시각 구하기(2)

Thu, 21 Mar 2024 20:40:10 GMT

❓ 문제

보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다.

❗️ 문제 풀이

0시 ~ 23시 정보를 가지고 있는 테이블

with recursive tb as ( select 0 HOUR union all select HOUR + 1 from tb where HOUR < 23 )

select tb.HOUR as HOUR ,count(A.ANIMAL_ID) as COUNT from tb left join ANIMAL_OUTS as A # left join을 사용하여 모든 시간대(0~23시)를 출력 on tb.HOUR = hour(A.DATETIME) group by 1 order by 1


# 📚 배운점/느낀점
위 문제를 풀 때 "_모든 시간이 출력될 수 있도록 0시~23시 데이터를 일일이 작성해야 하는 건가??_" 라는 생각을 했다.

하지만, 아무리 생각해도 위 방법은 아닌 거 같아서 다른 방법을 찾아봤다.

찾아본 결과 재귀쿼리,계층커리 라고 불리는 `WITH RECURSIVE` 구문을 알게 되었다.

>
사용법
```sql
with recursive <가상 테이블명> as (
    select n <칼럼명>     # 초기값 설정
    union all
    select <칼럼명> + m   # 초기값 이후 값 설정
    from <가상 테이블명>
    where ~
)

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/lessons/59413

[SQL 고득점 Kit] 년, 월, 성별 별 상품 구매 회원 수 구하기

Thu, 21 Mar 2024 20:15:34 GMT

❓ 문제

USER_INFO 테이블과 ONLINE_SALE 테이블에서 년, 월, 성별 별로 상품을 구매한 회원수를 집계하는 SQL문을 작성해주세요. 결과는 년, 월, 성별을 기준으로 오름차순 정렬해주세요. 이때, 성별 정보가 없는 경우 결과에서 제외해주세요.

❗️ 문제 풀이

/*
조건1 : 년, 월, 성별 별로 상품 그룹화 하여 회원수 집계
조건2 : 년, 월, 성별을 기준으로 오름차순
조건3 : 성별 정보가 없는 경우 제외
*/

select year(O.SALES_DATE) as YEAR ,month(O.SALES_DATE) as MONTH ,U.GENDER ,count(distinct U.USER_ID) as USERS # 구매 횟수X, 구매 이력이 있는 회원수O from USER_INFO as U, ONLINE_SALE as O where 1=1 and U.USER_ID = O.USER_ID and U.GENDER is not null group by 1, 2, 3 order by 1, 2, 3

```

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/lessons/131532

[SQL 고득점 Kit] 식품분류별 가장 비싼 식품의 정보 조회하기

Wed, 20 Mar 2024 20:27:27 GMT

❓ 문제

FOOD_PRODUCT 테이블에서 식품분류별로 가격이 제일 비싼 식품의 분류, 가격, 이름을 조회하는 SQL문을 작성해주세요. 이때 식품분류가 '과자', '국', '김치', '식용유'인 경우만 출력시켜 주시고 결과는 식품 가격을 기준으로 내림차순 정렬해주세요.

❗️ 문제 풀이

/*
조건1 : 식품분류별 가격이 제일 비싼 식품
조건2 : 식품분류가 '과자', '국', '김치', '식용유'인 경우만 출력
조건3 : 식품 가격을 기준으로 내림차순
*/

식품분류별 높은 가격 데이터 테이블

with tb as ( select CATEGORY ,max(PRICE) as MAX_PRICE from FOOD_PRODUCT where 1=1 and CATEGORY in ('과자', '국', '김치', '식용유') group by 1 )

select F.CATEGORY ,F.PRICE as MAX_PRICE ,F.PRODUCT_NAME from tb, FOOD_PRODUCT as F where 1=1 and tb.CATEGORY = F.CATEGORY and tb.MAX_PRICE = F.PRICE order by 2 desc



# 📚 느낀점
문제를 풀 때 서브쿼리, JOIN 방법 등의 다양한 방법이 존재하는데,
나의 경우 필요한 정보를 담은 가상 테이블을 만든 다음 기존 테이블과 조인하는 방법을 선호한다. (개인적으로 위 방법이 가독성이 높다고 생각하기 때문...)

하지만, 위 방법이 좋은 방법인지 아직은 잘 모르겠다.

SQL의 성능적인 부분을 고려하여 코드를 작성하는 연습과 공부가 필요하다는 생각이 드는 문제였다.




---
# 🔗 Reference
https://school.programmers.co.kr/learn/courses/30/lessons/131116

[SQL 고득점 Kit] 자동차 대여 기록에서 대여중 / 대여 가능 여부 구분하기

Wed, 20 Mar 2024 19:10:30 GMT

❓ 문제

CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 2022년 10월 16일에 대여 중인 자동차인 경우 '대여중' 이라고 표시하고, 대여 중이지 않은 자동차인 경우 '대여 가능'을 표시하는 컬럼(컬럼명: AVAILABILITY)을 추가하여 자동차 ID와 AVAILABILITY 리스트를 출력하는 SQL문을 작성해주세요. 이때 반납 날짜가 2022년 10월 16일인 경우에도 '대여중'으로 표시해주시고 결과는 자동차 ID를 기준으로 내림차순 정렬해주세요.

❗️ 문제 풀이

/*
조건1 : 2022년 10월 16일 기준 대여 중인 차량은 "대여중", 그렇지 않은 경우 "대여 가능"
조건2 : 반납 날짜가 2022년 10월 16일인 경우 "대여중"으로 표기
조건3 : 자동차ID 내림차순
*/

select CAR_ID ,if(date_format(max(END_DATE), '%Y-%m-%d') < '2022-10-16' ,'대여 가능' ,'대여중' )as AVAILABILITY from CAR_RENTAL_COMPANY_RENTAL_HISTORY where 1=1 and date_format(START_DATE, '%Y-%m-%d') <= '2022-10-16' group by 1 order by 1 desc

이 문제를 풀 때 `where`문에 START_DATE 값을 '2022-10-16' 이전값으로 조건 거는 것이 중요 포인트라 생각된다.
>

# 📚 느낀점
문제를 풀 때 IF문과 CASE문을 고민했는데, 사용 편의상 IF문을 활용하여 문제를 풀었다.
하지만, 성능적인 부분을 고려하면 어느 조건문이 좋을지 궁금했다.

구긍링 + ChatGPT에 물어본 결과 큰 차이는 없다는 정보를 알게 되었다.





---
# 🔗 Reference
https://school.programmers.co.kr/learn/courses/30/lessons/157340

[SQL 고득점 Kit] 카테고리 별 도서 판매량 집계하기

Wed, 20 Mar 2024 18:28:24 GMT

❓ 문제

2022년 1월의 카테고리 별 도서 판매량을 합산하고, 카테고리(CATEGORY), 총 판매량(TOTAL_SALES) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 카테고리명을 기준으로 오름차순 정렬해주세요.

❗️ 문제 풀이

/*
조건1 : 2022년 1월 기준
조건2 : 카테고리 별 도서 판매량 합산
조건3 : 카테고리명 오름차순
*/

select B.CATEGORY ,sum(S.SALES) as TOTAL_SALES from BOOK as B, BOOK_SALES as S where 1=1 and B.BOOK_ID = S.BOOK_ID and date_format(S.SALES_DATE, '%Y-%m') = '2022-01' group by 1 order by 1

```

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/lessons/144855

[SQL 고득점 Kit] 대여 횟수가 많은 자동차들의 월별 대여 횟수 구하기

Wed, 20 Mar 2024 18:26:02 GMT

❓ 문제

CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 대여 시작일을 기준으로 2022년 8월부터 2022년 10월까지 총 대여 횟수가 5회 이상인 자동차들에 대해서 해당 기간 동안의 월별 자동차 ID 별 총 대여 횟수(컬럼명: RECORDS) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 월을 기준으로 오름차순 정렬하고, 월이 같다면 자동차 ID를 기준으로 내림차순 정렬해주세요. 특정 월의 총 대여 횟수가 0인 경우에는 결과에서 제외해주세요.

❗️ 문제 풀이

1차 풀이

select
    month(START_DATE) as MONTH
    ,CAR_ID
    ,count(HISTORY_ID) as RECORDS
from CAR_RENTAL_COMPANY_RENTAL_HISTORY
where 1=1
    and date_format(START_DATE, '%Y-%m') between '2022-08' and '2022-10'
group by 1, 2
having count(HISTORY_ID) >= 5
order by 1, 2 desc

코드 실행 결과 "틀렸습니다!" 라는 문구를 받았다 ㅎㅎ...

문제를 곰곰이 다시 읽고 왜 틀린 이유를 파악했다.

문제에서는 8~10월 동안 총대여 횟수가 5회 이상인 자동차를 조회하는 것이었지만, 내가 풀이한 방식은 매달(8월, 9월, 10월) 대여 횟수가 5회 이상인 자동차를 조회한 것이었다. (즉, 8월 대여 + 9월 대여 + 10월 대여 > = 5대 대여)

2차 풀이

/*
조건1 : 시작일을 기준으로 2022년 8월부터 2022년 10월까지 총 대여 횟수가 5회 이상인 자동차
조건2 : 결과는 월을 기준으로 오름차순 정렬하고, 월이 같다면 자동차 ID를 기준으로 내림차순 정렬
조건3 : 특정 월의 총 대여 횟수가 0인 경우에는 결과에서 제외
*/
>
# 8월~10월 동안 차량별 대여 횟수가 5회 이상인 데이터 테이블 
with tb as (
    select 
        CAR_ID
        ,count(HISTORY_ID) as RECORDS
    from CAR_RENTAL_COMPANY_RENTAL_HISTORY 
    where 1=1
        and date_format(START_DATE, '%Y-%m') between '2022-08' and '2022-10'
    group by 1
    having count(HISTORY_ID) >= 5
)
>
# 위 테이블을 활용하여 결과 추출
select 
     month(C.START_DATE) as MONTH
    ,C.CAR_ID
    ,count(C.HISTORY_ID) as RECORDS
from tb, CAR_RENTAL_COMPANY_RENTAL_HISTORY as C
where 1=1 
    and tb.CAR_ID = C.CAR_ID   # 8월~10월 동안 차량별 대여 횟수가 5회 이상 차량ID 정보만을 JOIN
    and date_format(C.START_DATE, '%Y-%m') between '2022-08' and '2022-10'
group by 1, 2
order by 1, 2 desc

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/lessons/151139

[SQL 고득점 Kit] 저자 별 카테고리 별 매출액 집계하기

Tue, 19 Mar 2024 19:28:05 GMT

❓ 문제

2022년 1월의 도서 판매 데이터를 기준으로 저자 별, 카테고리 별 매출액(TOTAL_SALES = 판매량 * 판매가) 을 구하여, 저자 ID(AUTHOR_ID), 저자명(AUTHOR_NAME), 카테고리(CATEGORY), 매출액(SALES) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 저자 ID를 오름차순으로, 저자 ID가 같다면 카테고리를 내림차순 정렬해주세요.

❗️ 문제 풀이

/*
도서 정보         BOOK
저자 정보         AUTHOR
도서 판매 정보     BOOK_SALES

도서 판매 데이터를 기준으로 저자별, 카테고리별 매출액(총합 매출액), 저자ID, 저자명, 카테고리, 매출액 출력

조건1: 2022년 1월 판매 도서 조건2: 저자 ID 오름차순, 카테고리 내림차순 */

select BOOK.AUTHOR_ID # 저자ID ,AUTHOR.AUTHOR_NAME # 저자명 ,BOOK.CATEGORY # 카테고리 ,sum(BOOK.PRICE * BOOK_SALES.SALES) as TOTAL_SALES # 총합 매출액 from BOOK, AUTHOR, BOOK_SALES where 1=1 and BOOK.AUTHOR_ID = AUTHOR.AUTHOR_ID # self join and BOOK.BOOK_ID = BOOK_SALES.BOOK_ID and date_format(SALES_DATE, '%Y-%m') = '2022-01' group by 2, 3 # 저자 별, 카테고리 별 그룹화 order by 1, 3 desc # 저자ID 오름차순, 카테고리 내림차순

```

📚 느낀점

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/parts/17044

[SQL 고득점 Kit] 조건에 맞는 사용자와 총 거래금액 조회하기

Mon, 18 Mar 2024 18:28:17 GMT

❓ 문제

USED_GOODS_BOARD와 USED_GOODS_USER 테이블에서 완료된 중고 거래의 총금액이 70만 원 이상인 사람의 회원 ID, 닉네임, 총거래금액을 조회하는 SQL문을 작성해주세요. 결과는 총거래금액을 기준으로 오름차순 정렬해주세요.

❗️ 문제 풀이

/*
USED_GOODS_BOARD    게시판 정보 
USED_GOODS_USER     사용자 정보
조건1. 완료된 중고 거래
조건2. 총금액 70만 이상
조건3. 총거래금액 기준 오름차순
*/
select
    U.USER_ID
    ,U.NICKNAME
    ,sum(B.PRICE) as TOTAL_SALES
from USED_GOODS_BOARD as B, USED_GOODS_USER as U
where 1=1
    and B.WRITER_ID = U.USER_ID
    and B.STATUS = 'DONE'
group by U.USER_ID
having sum(B.PRICE) >= 700000
order by 3

```

📚 느낀점

문제를 꼼꼼하게 읽자!!! "완료된 중고 거래" 조건을 확인하지 못해서 10분 정도 고생했다 ㅎㅎ.. :)

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/lessons/164668

[SQL 고득점 Kit] 월별 잡은 물고기 수 구하기

Mon, 18 Mar 2024 18:11:42 GMT

❓ 문제

월별 잡은 물고기의 수와 월을 출력하는 SQL문을 작성해주세요.

잡은 물고기 수 컬럼명은 FISH_COUNT, 월 컬럼명은 MONTH로 해주세요. 결과는 월을 기준으로 오름차순 정렬해주세요. 단, 월은 숫자형태 (1~12) 로 출력하며 9 이하의 숫자는 두 자리로 출력하지 않습니다. 잡은 물고기가 없는 월은 출력하지 않습니다.

❗️ 문제 풀이

select 
    count(date_format(TIME, '%c')) as FISH_COUNT,
    cast(date_format(TIME, '%c') as unsigned) as MONTH
from FISH_INFO
group by 2
order by 2

``` cast() 함수를 사용하여 문자 타입의 데이터를 숫자 타입으로 변경한 뒤 정렬해 보았다.

📚 느낀점

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/lessons/293260

[SQL 고득점 Kit] 노선별 평균 역 사이 거리 조회하기

Mon, 18 Mar 2024 17:59:06 GMT

❓ 문제

SUBWAY_DISTANCE 테이블에서 노선별로 노선, 총 누계 거리, 평균 역 사이 거리를 노선별로 조회하는 SQL문을 작성해주세요.

총 누계거리는 테이블 내 존재하는 역들의 역 사이 거리의 총 합을 뜻합니다. 총 누계 거리와 평균 역 사이 거리의 컬럼명은 각각 TOTAL_DISTANCE, AVERAGE_DISTANCE로 해주시고, 총 누계거리는 소수 둘째자리에서, 평균 역 사이 거리는 소수 셋째 자리에서 반올림 한 뒤 단위(km)를 함께 출력해주세요. 결과는 총 누계 거리를 기준으로 내림차순 정렬해주세요.

❗️ 문제 풀이

/*
TOTAL_DISTANCE     총 누계 거리(역 사이 거리의 총합)
AVERAGE_DISTANCE   평균 역 사이 거리
*/
select
    ROUTE
    ,concat(round(sum(D_BETWEEN_DIST), 1), 'km') as TOTAL_DISTANCE
    ,concat(round(avg(D_BETWEEN_DIST), 2), 'km') as AVERAGE_DISTANCE
from SUBWAY_DISTANCE
group by ROUTE
order by round(sum(D_BETWEEN_DIST), 1) desc;

```

📚 느낀점

concat()함수에 의해 값이 문자열로 변하였기 때문에 정렬 할 때는 숫자 타입의 값만을 추출하여 정렬해야 한다.

디테일한 부분 까지 신경 쓰자!! :)

🔗 Reference

https://school.programmers.co.kr/learn/courses/30/lessons/284531