Eunseo Park

[SQL , 프로그래머스] 역순 정렬하기, 아픈 동물 찾기

Wed, 04 Dec 2024 15:06:30 GMT

1. 역순 정렬하기

https://school.programmers.co.kr/learn/courses/30/lessons/59035

문제 설명

ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다.

NAME	TYPE	NULLABLE
ANIMAL_ID	VARCHAR(N)	FALSE
ANIMAL_TYPE	VARCHAR(N)	FALSE
DATETIME	DATETIME	FALSE
INTAKE_CONDITION	VARCHAR(N)	FALSE
NAME	VARCHAR(N)	TRUE
SEX_UPON_INTAKE	VARCHAR(N)	FALSE

동물 보호소에 들어온 모든 동물의 이름과 보호 시작일을 조회하는 SQL문을 작성해주세요. 이때 결과는 ANIMAL_ID 역순으로 보여주세요. SQL을 실행하면 다음과 같이 출력되어야 합니다.

NAME	DATETIME
Rocky	2016-06-07 09:17:00
Shelly	2015-01-29 15:01:00
Benji	2016-04-19 13:28:00
Jackie	2016-01-03 16:25:00
*Sam	2016-03-13 11:17:00

코드

SELECT NAME, DATETIME
FROM ANIMAL_INS
ORDER BY ANIMAL_ID DESC

2. 아픈 동물 찾기

https://school.programmers.co.kr/learn/courses/30/lessons/59036

문제 설명

NAME	TYPE	NULLABLE
ANIMAL_ID	VARCHAR(N)	FALSE
ANIMAL_TYPE	VARCHAR(N)	FALSE
DATETIME	DATETIME	FALSE
INTAKE_CONDITION	VARCHAR(N)	FALSE
NAME	VARCHAR(N)	TRUE
SEX_UPON_INTAKE	VARCHAR(N)	FALSE

동물 보호소에 들어온 동물 중 아픈 동물1의 아이디와 이름을 조회하는 SQL 문을 작성해주세요. 이때 결과는 아이디 순으로 조회해주세요.

예시

예를 들어 ANIMAL_INS 테이블이 다음과 같다면

ANIMAL_ID	ANIMAL_TYPE	DATETIME	INTAKE_CONDITION	NAME	SEX_UPON_INTAKE
A365172	Dog	2014-08-26 12:53:00	Normal	Diablo	Neutered Male
A367012	Dog	2015-09-16 09:06:00	Sick	Miller	Neutered Male
A365302	Dog	2017-01-08 16:34:00	Aged	Minnie	Spayed Female
A381217	Dog	2017-07-08 09:41:00	Sick	Cherokee	Neutered Male

이 중 아픈 동물은 Miller와 Cherokee입니다.
따라서 SQL문을 실행하면 다음과 같이 나와야 합니다

ANIMAL_ID	NAME
A367012	Miller
A381217	Cherokee

코드

SELECT ANIMAL_ID, NAME
FROM ANIMAL_INS
WHERE INTAKE_CONDITION = 'Sick'

[DE] Spark 개념

Tue, 03 Dec 2024 15:57:32 GMT

1. Apache Spark란?

Spark는 대규모 데이터 처리를 빠르고 효율적으로 수행할 수 있는 오픈 소스 분산 처리 시스템이다.

Spark의 주요 특징:

1) 빠른 속도: 메모리 기반 연산으로 디스크 I/O를 최소화해 빠른 데이터 처리 가능 2) 다양한 언어 지원: Python, Scala, Java, R 등 다수의 언어를 지원 3) 유연성: 배치, 스트리밍, SQL, 머신러닝, 그래프 처리 등 다양한 워크로드 지원 4) 확장성: 클러스터 환경에서 대규모 데이터 처리 가능

2. Spark의 아키텍처

1) Driver: 애플리케이션을 실행하고, 작업(Job)을 나누어 Executor에 분배하는 역할

2) Executor: 각 노드에서 할당된 작업(Task)을 수행하고 결과를 반환하는 역할

3) Cluster Manager: 자원을 관리하며, Spark가 클러스터에 접근할 수 있도록 지원 (예: YARN, Mesos, Standalone)

3. RDD (Resilient Distributed Dataset)

RDD는 Spark의 핵심 데이터 구조로, 불변(Immutable)하며 분산된 데이터 셋을 처리하는 데 최적화된 구조다.

RDD의 주요 특징:

1) 불변성: 생성된 RDD는 변경할 수 없음. 새로운 RDD를 생성해야 함 2) 분산성: 데이터를 클러스터 노드에 분산 저장 및 처리 3) 내결함성: 노드 장애 발생 시 데이터 복구 가능

4. RDD의 생성 방법

기존 데이터에서 생성: 파일 시스템(HDFS, 로컬 파일)이나 데이터베이스에서 데이터를 읽어 RDD 생성

컬렉션에서 생성: Python이나 Scala의 리스트 등 컬렉션을 RDD로 변환

5. RDD의 주요 연산

Transformation: 기존 RDD에서 새로운 RDD를 생성하는 연산

*map(), filter(), flatMap() *등이 대표적 Action: RDD에서 결과를 반환하거나 출력하는 연산

collect(), count(), first() 등이 대표적

6. Spark의 데이터 처리 방식

Batch Processing: 대량의 정적 데이터를 한 번에 처리 Stream Processing: 실시간 데이터 스트림을 지속적으로 처리

[DE] ETL, ELT가 뭘까?

Mon, 02 Dec 2024 14:58:33 GMT

데이터 엔지니어링에서 흔히 등장하는 ETL과 ELT, 과연 어떤 차이가 있을까? 데이터 파이프라인 구축에서 필수적인 두 프로세스를 비교해보자

출처: Blog de Bismart

1. E, T, L 이란?

Extract(추출) : 원시 데이터에서 데이터 소스를 가져오는 것이다.
Transformation(변환) : 데이터 구조를 변경하는 프로세스다. 용도에 맞는 필터링, Resahping, 정재 등의 단계를 통해 필요한 형태로 변환한다.
Loading(적재) : 데이터를 스토리지에 저장하는 프로세스다.

2. ETL/ELT를 진행하는 이유

우리가 원하는 건 쓸모있는 데이터다. 데이터를 그냥 쌓아두기만 하면 무의미한 숫자 덩어리에 불과하다. 회사마다, 시스템마다 제각각인 데이터를 하나로 통합하고, 그 과정에서 중복된 값, 오류, 불필요한 데이터들을 걸러내는 정제 과정이 필요하다. 이 정제된 데이터가 있어야만 비로소 의미 있는 분석과 인사이트 도출이 가능해진다. 그렇기 때문에 ETL이나 ELT 같은 데이터 처리 과정이 데이터 파이프라인 구축에서 중요한 역할을 한다.

3. 데이터 웨어하우스(Data Warehouse)와 ETL

출처 : Modern Data Architecture (Source: Beyond “Modern” Data Architecture, Jeremiah Hansen, 2020.04.09.)

데이터 웨어하우스는 정제된 정형 데이터를 저장하는 시스템으로 분석 및 보고 목적으로 설계되었다. 데이터는 구조화된 형태로 저장되며, BI(Business Intelligence) 도구와 통합되어 빠르고 효율적인 분석을 가능하게 한다. 주로 SQL 기반으로 데이터를 쿼리한다.

ex) 매출 보고서, 고객 분석, 재고 관리 데이터.

4. 데이터 레이크 (Data Lake)와 ELT

데이터 레이크는 정형, 반정형, 비정형 데이터를 원본 그대로 저장하는 시스템으로 데이터의 형태와 구조에 구애받지 않는다. 다양한 분석 기법과 머신러닝 모델을 활용하기 위한 데이터를 저장하며 대규모 데이터를 빠르게 저장하고 처리할 수 있는 유연성을 제공한다.

ex) IoT 센서 데이터, 소셜 미디어 피드, 이미지나 영상 데이터

5. ETL과 ELT의 차이

구분	ETL (Extract, Transform, Load)	ELT (Extract, Load, Transform)
프로세스 순서	데이터 추출 → 변환 → 적재	데이터 추출 → 적재 → 변환
변환 위치	ETL 도구 또는 별도 서버에서 데이터 변환	데이터 웨어하우스 내부에서 변환
데이터 적재 형태	변환된 데이터만 적재	원본 데이터 그대로 적재
장점	데이터가 정제된 상태로 적재되므로 즉시 사용 가능	빠른 데이터 적재, 유연한 변환 및 분석 가능
단점	복잡한 변환 로직이 많으면 속도 저하 및 유지보수 어려움	대용량 원본 데이터 저장 시 스토리지 비용 증가 가능
주요 도구	Informatica, Talend, SSIS 등	Snowflake, BigQuery, Redshift 등
적합한 환경	데이터가 정형적이고 변환 규칙이 명확한 경우	대용량 데이터, 실시간 분석, 클라우드 환경

참고 https://dining-developer.tistory.com/50 https://spidyweb.tistory.com/263 https://blog.bizspring.co.kr/%ED%85%8C%ED%81%AC/etl-vs-elt/

[SQL] SELECT, WHERE, HAVING

Sat, 30 Nov 2024 15:38:17 GMT

한국 사람과 대화하려면 한국어를 알아야 하고 일본 사람과 대화하려면 일본어를 알아야 한다. 데이터베이스와 대화하려면? SQL 언어를 할 줄 알아야 한다. 그러니 SQL 공부를 차근차근 해보자

SQL 연습은 무료 사이트인 이곳에서 진행했다.

아래의 코드는 SQL에서 가장 기초가 되는 코드이다. SELECT, WHERE, HAVING절이 어떤 역할을 하는지 설명해보겠다.

SELECT 열
FROM 데이터셋
WHERE
GROUP BY
HAVING
ORDER BY

1. SELECT절 : 데이터 선택

DB에서 특정 column을 조회할 때 사용하는 명령어다. 예를 들어 내가 Customers 데이터셋에서 전체 데이터를 보고 싶을 수도, 고객의 이름과 주소만 보고 싶을 수도 있다. 이럴 때 사용하는 것이** select **절이다.

Customers 데이터셋에서 모든(*) 열 조회

SELECT * FROM Customers;

Customers 데이터셋에서 Address 열만 조회
```
SELECT Address FROM Customers;
```

Address 열 이름을 Ad 열 이름으로 변경하여 조회 (AS)
```
SELECT Address AS Ad FROM Customers;
```

2. WHERE절 : 조건에 따른 데이터 필터링

특정 조건을 만족하는 데이터만 조회한다. 예를 들어 사장인 내가 10개 이상 팔린 물품 목록 리스트를 보고 싶거나 이름이 A로 시작하는 고객 리스트만 보고 싶을 때 where 절을 사용한다.

수량이 40개 이상 팔린 물품만 조회

SELECT * 
FROM OrderDetails
WHERE Quantity >= 40;

이름이 A로 시작하는 고객 리스트 조회

SELECT * 
FROM Customers
WHERE CustomerName LIKE 'A%' ;

✅ WHERE 절 조건 연산자

연산자	설명	예시
`AND`	두 개 이상의 조건이 모두 참일 경우 선택	`SELECT * FROM users WHERE age > 18 AND city = 'Seoul';`
`OR`	두 개 이상의 조건 중 하나라도 참일 경우 선택	`SELECT * FROM users WHERE age < 18 OR city = 'Busan';`
`LIKE`	문자열 패턴 매칭 (`%` )	`SELECT * FROM products WHERE name LIKE 'Samsung%';`
`NOT`	조건이 참이 아닌 경우 선택	`SELECT * FROM users WHERE NOT city = 'Seoul';`
`%`	임의의 여러 문자를 대체하는 와일드카드	`SELECT * FROM products WHERE name LIKE 'S%g';`
`_`	단일 문자를 대체하는 와일드카드	`SELECT * FROM products WHERE code LIKE 'A_123';`

3. HAVING 절: 집계 함수 결과에 조건 적용

집계 함수(SUM, AVG, COUNT 등)를 사용한 결과에 조건을 걸 때 활용한다.
WHERE과 다른 점은 집계된 결과를 조건에 적용한다는 점이다. 예를 들어 1년 중 총 매출이 1000만원이 넘는 달이 어느 달인지 볼 때 Having 절이 사용된다.

카테고리별 판매 금액이 300 이상인 경우

SELECT category, SUM(amount) AS total_amount
FROM sales
GROUP BY category
HAVING SUM(amount) >= 300;


2. 특정 지역에서 판매된 제품 수가 2개 이상인 경우
```sql
SELECT region, COUNT(product) AS product_count
FROM sales
GROUP BY region
HAVING COUNT(product) >= 2;

자료구조(2) : 선형 자료구조 (배열, 연결 리스트)

Thu, 28 Nov 2024 14:09:44 GMT

출처: 한빛출판네트워크

자료구조에는 선형 자료구조와 비선형 자료구조가 있으며 자료를 순차적으로 나열한 구조를 선형 자료구조라 말한다. 이번 글에서는 선형 자료구조 중 배열과, 링크드 리스트에 대해 공부해 보고자 한다.

1. 배열 (Array)

💡 배열의 개념

배열은 연속된 메모리 공간에 순차적으로 데이터를 저장한다. 배열은 선언할 때 크기를 저장하면 고정이 된다. 따라서 크기를 변경하고 싶다면 재선언을 해야 한다.

배열은 인덱스로 접근이 가능하며 인덱스는 0 부터 시작한다.

# 예시
array = [ '지수', '제니', '리사' , '로제']
for i in range(len(array)):
    print(f'index {i} 번째는 {array[i]}입니다.')

출력값 : 
index 0 번째는 지수입니다.
index 1 번째는 제니입니다.
index 2 번째는 리사입니다.
index 3 번째는 로제입니다.

💡 배열의 시간 복잡도

연산	시간 복잡도	설명
접근 (Access)	O(1)	인덱스를 사용해 특정 위치의 요소를 바로 참조 가능.
탐색 (Search)	O(n)	배열 전체를 순회해야 하므로, 최악의 경우 모든 요소를 확인해야 함.
삽입 (Insert)	O(n)	배열 중간에 삽입 시 나머지 요소를 이동해야 하기 때문에 최악의 경우 O(n).
삭제 (Delete)	O(n)	배열 중간에서 삭제 시 나머지 요소를 이동해야 함.
추가 (Append)	O(1)	배열 끝에 요소를 추가하는 경우(크기 조정이 필요하지 않다면) O(1).

💡 배열의 장단점

1) 장점

탐색 시 접근이 O(1)로 빠르다.

2) 단점

크기 변경이 불가능해 메모리 낭비나 부족 현상이 일어날 수 있다.
삽입/삭제 시 많은 데이터 이동이 필요하다.

2. 연결 리스트 (Linked List)

💡 연결 리스트의 개념

출처: Find Todays Notes

연결 리스트는 노드가 포인터로 연결된 구조로, 데이터와 다음 노드의 주소를 저장한다.

쉽게 예시를 들자면 우리가 전국 여행을 할 때 지도에다가 방문할 도시를 선으로 연결한 것도 연결 리스트가 될 수 있다.

ex) 1일차 : 서울 -> 2일차 : 대전 -> 3일차 : 부산 -> 4일차 : 제주도

연결 리스트는 노드구조로 되어 있다. 노드(Node)는 데이터와 링크로 이루어져있다.

💡 단순 연결리스트

노드 정의

class Node():
    def __init__(self):
        self.data = None # 노드 
        self.link = None # 링크

데이터 삽입

def insertNode(findData, insertData):
 global memory, head, current, pre

 # case 1: head 앞에 삽입 (맨 앞에 삽입)
 if head.data == findData:
     node = Node()
     node.data = insertData
     node.link = head
     head = node
     return 

 #case 2: 중간에 삽입
 current = head 
 while (current.link != None ):
     pre = current
     current = current.link
     if (current.data == findData ) :
         node = Node()
         node.data = insertData
         node.link = current
         pre.link = node
         return

 #case 3: 찾는 데이터가 없을 때 = 마지막에 추가 
 node = Node()
 node.data = insertData
 current.link = node
 return


3. 데이터 삭제
```python
def deleteNode(deleteData):
    global memory, head, current, pre

    #case1 : head를 삭제할 때 
    if (head.data == deleteData) : 
        current = head
        head = head.link
        del(current)
        return

    #case2 : 중간 데이터 삭제
    current = head
    while (current.link != None ):
        pre = current
        current = current.link
        if (current.data == deleteData):
            pre.link = current.link
            del(current)
            return 

    #case3 : 지울 데이터가 없을 때
    return

데이터 검색

def findNode(findData):
 global memory, head, current, pre
 current = head
 if current.data == findData : 
     return current #노드 형태로 반환 
 while(current.link != None ):
     current = current.link
     if current.link == findData:
         return current

 return Node()

```

💡 연결리스트 시간복잡도

연산	시간 복잡도	설명
접근 (Access)	O(n)	특정 인덱스로 직접 접근 불가, 첫 노드부터 순차 탐색 필요.
탐색 (Search)	O(n)	원하는 값을 찾기 위해 모든 노드를 순회해야 함.
삽입 (Insert)	O(1) (노드 위치 알고 있을 때) / O(n) (탐색 포함)	노드 위치를 알고 있다면 O(1), 중간 위치 삽입 시 탐색 필요하므로 O(n).
삭제 (Delete)	O(1) (노드 위치 알고 있을 때) / O(n) (탐색 포함)	노드 위치를 알고 있다면 O(1), 삭제할 노드를 찾기 위해 O(n) 탐색 필요.
추가 (Append)	O(1) (단일 연결 리스트, 마지막 노드 포인터가 있을 경우) / O(n)	마지막 노드에 접근해야 하므로 O(n), 포인터가 있다면 O(1).

💡 연결리스트 장단점

1) 장점

크기 변경이 자유롭고, 삽입/삭제가 O(1)로 빠르다(노드를 직접 참조할 경우).

2) 단점

인덱스 접근이 O(n)으로 느리다.
추가 메모리(포인터) 사용으로 공간 낭비 가능하다.

자료구조 (1) : 왜 알아야 하는데? , 자료구조 종류

Wed, 27 Nov 2024 14:21:40 GMT

출처: Dev Genius

자료구조(Data structure) 꼭 알아야 하나?

데이터를 다루는 직업이라면 자료구조는 꼭 알아야 한다.

우리는 하루에 얼마나 많은 데이터를 생성하고 있을까?

카톡을 보내고, 구글에서 검색하고, 쿠팡에서 쇼핑할 때, 출근길에 버스 카드를 찍고, 캐치테이블에서 웨이팅을 걸 때마다 끊임없이 쌓이는 데이터들을 어떻게 관리하는지 생각해 본 적이 있는가?

이러한 방대한 데이터를 효과적으로 관리하는데 '자료구조'가 기반이 된다.

그래서 자료구조가 뭔데? 🤔

자료구조: 데이터를 효과적으로 보관하고 관리하기 위한 방법이다.

자료구조는 크게 선형 구조 (Linear)와 비선형 구조(Non Linear)로 나뉘어져 있다.

출처: :BaseClass

1. 선형 구조

선형 구조는 데이터가 일렬로 나열된 형태다. 각 원소가 순서대로 연결되어 있어, 앞뒤 관계가 명확하다(1:1 관계).

종류 : 배열, 링크드리스트, 스택 , 큐

예시)

배열 - 담은 순서대로 나열되어 있는 쇼핑몰 장바구니 링크드리스트 - 중간에 곡을 추가, 삭제가 가능한 음악 재생 목록 스택 - 브라우저의 뒤로 가기 기능 큐 - 레스토랑 대기 명단

2. 비선형 구조

비선형 구조는 데이터들이 계층적이거나 복잡하게 연결된 형태다. 각 원소 간의 관계가 1:n 혹은 n:n 로 이루어질 수 있어 계층적 혹은 망형 구조를 가진다.

종류: 트리, 그래프

예시)

트리 - 웹 사이트 네비게이션 메뉴 그래프 - 지하철 노선도