rudin_.log

[MicrosoftDataSchool] 87일차 - AzureDB Server RBAC, Defender, 사용량 경고

Wed, 13 May 2026 03:16:38 GMT

Azure SQL Database Hands-on - 데이터베이스 인증 및 권한 부여 구성

Microsoft DP-300 기반 Azure SQL Database 인증 및 권한 관리 실습 정리 Azure SQL Database에서 Microsoft Entra ID 기반 인증과 사용자·역할·권한 관리를 실습한다.

1. 실습 개요

시나리오

AdventureWorks 환경의 보안을 담당하는 DBA 역할로, Azure SQL Database에 Microsoft Entra ID 기반 인증을 구성하고 최소 권한 원칙(Least Privilege)을 적용한다.

Azure SQL Database에 Entra Admin 지정
Microsoft Entra MFA 인증으로 SSMS 접속
Contained User 생성
사용자 정의 Role 생성
Stored Procedure 실행 권한 부여
EXECUTE AS USER를 이용한 권한 테스트

2. 핵심 개념 정리

Microsoft Entra ID

기존 Azure AD(Azure Active Directory)의 새로운 이름이다. Azure SQL Database의 인증 백엔드로 사용할 수 있으며 MFA, 조건부 액세스 등을 적용할 수 있다.

Entra Admin

Azure SQL Logical Server 단위로 지정되는 관리자 계정이다. 해당 사용자는 서버 내 데이터베이스에 대한 최고 수준 권한을 가진다.

Contained User

Master DB 로그인 없이 특정 데이터베이스 내부에서만 인증되는 사용자이다.

CREATE USER [username] WITH PASSWORD = 'password';

이 방식은 데이터베이스 이동성을 높인다.

Database Role

권한을 묶어서 관리하기 위한 역할(Role)이다.

CREATE ROLE RoleName;
ALTER ROLE RoleName ADD MEMBER UserName;

EXECUTE AS USER

현재 세션의 실행 컨텍스트를 특정 사용자로 변경하여 권한을 테스트한다.

EXECUTE AS USER = 'UserName'

원래 권한으로 돌아갈 때는 다음을 사용한다.

REVERT;

3. 실습 환경 준비

준비물

Azure SQL Logical Server
AdventureWorksLT 샘플 데이터베이스
SSMS 또는 Azure Data Studio
Microsoft Entra 계정

AdventureWorksLT 샘플 DB 생성 시:

워크로드 환경: 개발
샘플 데이터 사용: AdventureWorksLT

선택하여 생성한다.

4. Microsoft Entra Admin 구성

Azure Portal에서 관리자 지정

절차

Azure Portal 접속
All resources 선택
SQL Server 선택
구성되지 않음 클릭
Microsoft Entra ID 사용자 검색
사용자 선택 후 Save

이 과정을 통해 해당 계정이 Azure SQL Server의 Entra Admin이 된다.

5. SSMS에서 Microsoft Entra MFA 인증 연결

서버 이름 복사

Azure Portal → SQL Server → Overview 에서 서버 이름 복사

예시:

myserver.database.windows.net

SSMS 연결

인증 방식 설정

SSMS에서:

Connect → Database Engine
Server name 입력
Authentication:
- Microsoft Entra MFA
- 또는 Azure Active Directory - Universal with MFA

선택

방화벽 이슈

처음 접속 시 클라이언트 IP를 방화벽에 추가해야 할 수 있다.

SSMS가 자동으로 추가 기능을 제공하기도 한다.

6. 데이터베이스 사용자 생성

AdventureWorksLT 데이터베이스에서 새 쿼리를 생성한다.

사용자 생성

CREATE USER [DP300User1] WITH PASSWORD = 'Azur3Pa$$';
GO

CREATE USER [DP300User2] WITH PASSWORD = 'Azur3Pa$$';
GO

이 사용자들은 AdventureWorksLT 데이터베이스 범위(scope) 안에서만 동작한다.

7. 사용자 정의 Role 생성

Role 생성

CREATE ROLE [SalesReader];
GO

사용자 추가

ALTER ROLE [SalesReader] ADD MEMBER [DP300User1];
GO

ALTER ROLE [SalesReader] ADD MEMBER [DP300User2];
GO

8. Stored Procedure 생성

DemoProc 생성

CREATE OR ALTER PROCEDURE SalesLT.DemoProc
AS
SELECT
    P.Name,
    SUM(SOD.LineTotal) AS TotalSales,
    SOH.OrderDate
FROM SalesLT.Product P
INNER JOIN SalesLT.SalesOrderDetail SOD
    ON SOD.ProductID = P.ProductID
INNER JOIN SalesLT.SalesOrderHeader SOH
    ON SOH.SalesOrderID = SOD.SalesOrderID
GROUP BY P.Name, SOH.OrderDate
ORDER BY TotalSales DESC
GO

이 프로시저는 상품별 매출 데이터를 조회한다.

9. 권한 테스트

EXECUTE AS USER 실행

EXECUTE AS USER = 'DP300User1'
EXECUTE SalesLT.DemoProc

실행 시 권한 오류가 발생한다.

The EXECUTE permission was denied on the object 'DemoProc'

왜냐하면 SalesReader 역할에는 아직 아무 권한도 없기 때문이다.

10. EXECUTE 권한 부여

권한 추가

REVERT;

GRANT EXECUTE ON SCHEMA::SalesLT TO [SalesReader];
GO

REVERT
- 원래 권한 컨텍스트로 복귀
GRANT EXECUTE
- SalesLT 스키마 내 프로시저 실행 권한 부여

11. 다시 실행

EXECUTE AS USER = 'DP300User1'
EXECUTE SalesLT.DemoProc

이번에는 정상적으로 결과가 반환된다.

12. 핵심 심화 개념 - Ownership Chain

이번 실습에서 가장 중요한 개념이다.

왜 EXECUTE 권한만 줬는데 SELECT가 되었을까?

DP300User1에게는 다음 테이블에 대한 SELECT 권한이 없다.

SalesLT.Product
SalesLT.SalesOrderDetail
SalesLT.SalesOrderHeader

그런데도 Stored Procedure는 정상 동작했다.

이유는 SQL Server의 Ownership Chain(소유권 체인) 때문이다.

Ownership Chain 원리

SQL Server는 Stored Procedure 실행 시:

프로시저 자체의 EXECUTE 권한만 검사
내부 객체들이 동일한 owner이면
내부 SELECT 권한 검사를 생략

즉:

사용자
→ 프로시저 실행 권한 검사
→ 내부 테이블 권한 검사 생략
→ 실행 성공

이번 실습에서 체인이 유지된 이유

다음 객체들의 owner가 모두 dbo이다.

SalesLT.DemoProc
SalesLT.Product
SalesLT.SalesOrderDetail
SalesLT.SalesOrderHeader

따라서 Ownership Chain이 끊기지 않는다.

13. 운영 관점에서 중요한 점

Ownership Chain은 운영 환경에서 매우 많이 사용된다.

대표 패턴:

사용자에게 테이블 직접 권한은 주지 않음
↓
Stored Procedure 실행만 허용
↓
프로시저 내부에서 데이터 접근

이 방식의 장점:

최소 권한 원칙 적용 가능
테이블 직접 접근 차단 가능
API 형태의 DB 접근 구조 구현 가능

하지만 주의할 점

권한이 강력한 만큼 위험성도 존재한다.

특히:

프로시저 내부에서 민감 컬럼 노출 가능
동적 SQL 사용 시 Ownership Chain 깨질 수 있음

운영 환경 권장 사항:

스키마 owner 표준화
WITH EXECUTE AS OWNER 사용
정기 권한 감사 수행

14. 실습 검증 체크리스트

다음 항목이 모두 성공하면 실습 완료이다.

Entra ID 관리자가 서버에 지정됨
DP300User1 / DP300User2 생성 완료
SalesReader Role 생성 완료
권한 부여 전 EXECUTE 실패 확인
GRANT EXECUTE 후 실행 성공 확인

15. 정리(Clean-up)

실습 종료 후 삭제 가능:

DROP USER DP300User1;
DROP USER DP300User2;
DROP ROLE SalesReader;

운영 환경에서는 Entra Admin을 개인 계정보다는 보안 그룹 기반으로 관리하는 것이 일반적이다.

마무리

Microsoft Entra ID 인증
MFA 기반 SSMS 연결
Contained User 생성
Database Role 기반 권한 관리
Stored Procedure 실행 권한
EXECUTE AS USER 권한 테스트
Ownership Chain 동작 원리

Azure SQL Database Hands-on - Microsoft Defender for SQL 활성화 및 데이터 분류

Azure SQL Database에서 Microsoft Defender for SQL을 활성화하고, 데이터 분류(Data Discovery & Classification), 취약성 평가(VA), Threat Detection, Auditing, Dynamic Data Masking까지 실습한다.

1. 실습 개요

시나리오

Microsoft Defender for SQL 활성화
민감 정보 자동 분류
Vulnerability Assessment(VA)
Threat Detection 알림
SQL Auditing
Dynamic Data Masking(DDM)

발견 → 경고 → 추적 → 보호

2. 핵심 개념 정리

Microsoft Defender for SQL

Azure SQL Database의 보안 기능이다.

주요 기능:

SQL Injection 탐지
이상 로그인 탐지
Brute-force 탐지
Vulnerability Assessment(VA)
Threat Detection

등을 제공한다.

Data Discovery & Classification

DB 내부 컬럼을 스캔하여:

이메일
전화번호
개인정보
금융정보

같은 민감 데이터를 자동 식별하고 분류(Label)를 부여한다.

Vulnerability Assessment(VA)

보안 취약점을 자동 분석하는 기능이다.

예시:

과도한 권한
위험한 설정
오래된 구성
감사 미설정

등을 탐지한다.

SQL Auditing

데이터베이스 내부 이벤트를 기록하는 기능이다.

저장 위치:

Storage Account
Log Analytics
Event Hub

등으로 전송 가능하다.

Dynamic Data Masking(DDM)

실제 데이터를 변경하지 않고:

조회 결과만 가려서 표시

하는 기능이다.

예시:

test@example.com
↓
tXXX@XXXX.com

3. Microsoft Defender for SQL 활성화

Azure Portal 접속

Azure Portal 접속
SQL servers 검색
대상 SQL Server 선택

Defender 활성화

경로:

SQL Server
→ Security
→ Microsoft Defender for Cloud

이후:

사용(Enable)

클릭

토글 확인

Configure 진입 후:

MICROSOFT DEFENDER FOR SQL = ON

상태인지 확인한다.

4. Data Discovery & Classification

데이터 분류 기능 진입

경로:

AdventureWorksLT
→ Security
→ Data Discovery & Classification

자동 분류 추천 수락

포털에서 다음 메시지가 표시된다.

15개의 열에서 민감 정보 발견

이후:

Select All
Accept selected recommendations
Save

를 실행한다.

결과

총:

5개 테이블
15개 컬럼

이 자동 분류된다.

5. Vulnerability Assessment(VA)

목적

보안 취약점을 자동 스캔한다.

예시:

약한 설정
과도 권한
감사 미설정
공개 접근

등을 탐지한다.

실습 흐름

Defender for SQL 활성화
VA 실행
Findings 확인
일부 Remediation 수행
Passed 상태 확인

6. Threat Detection 알림 시뮬레이션

목적

실제 보안 알림 흐름을 테스트한다.

이메일 알림 설정

Defender for Cloud 설정에서:

이메일 주소 등록
알림 유형 선택

후 저장한다.

Brute-force 시뮬레이션

SSMS에서:

잘못된 비밀번호로 4~5회 로그인

시도

SQL Injection 패턴 시뮬레이션

EXEC sp_executesql
N'SELECT * FROM sys.databases WHERE name = ''anything'' OR 1=1';
GO

또는:

DECLARE @sql NVARCHAR(MAX) =
N'SELECT * FROM sys.tables WHERE name LIKE ''%'' OR 1=1';

EXEC (@sql);

이후 Defender for Cloud의:

Security alerts

에서 알림을 확인한다.

예시:

Brute force attack
Potential SQL injection

7. 민감도 분류 메타데이터 확인

시스템 카탈로그 조회

분류 정보는:

sys.sensitivity_classifications

에 저장된다.

조회 쿼리

SELECT 
    SCHEMA_NAME(o.schema_id) AS [schema],
    o.name AS [table],
    c.name AS [column],
    sc.label,
    sc.information_type,
    sc.rank_desc
FROM sys.sensitivity_classifications sc
INNER JOIN sys.objects o
    ON sc.major_id = o.object_id
INNER JOIN sys.columns c
    ON sc.major_id = c.object_id
   AND sc.minor_id = c.column_id
ORDER BY [schema], [table], [column];

수동 분류 추가

ADD SENSITIVITY CLASSIFICATION TO
    SalesLT.Customer.MiddleName
WITH (
    LABEL = 'Confidential',
    LABEL_ID = '332211aa-bbcc-ddee-ff00-112233445566',
    INFORMATION_TYPE = 'Name',
    INFORMATION_TYPE_ID = '5b56518b-5a91-490b-9300-983344497a82',
    RANK = MEDIUM
);

결과 확인

기존:

15개 컬럼

↓

추가 후:

16개 컬럼

으로 증가한다.

8. SQL Auditing + Log Analytics

목적

민감 데이터 접근 이력을 추적한다.

Auditing 활성화

경로:

AdventureWorksLT
→ Auditing
→ Enable Azure SQL Auditing

이후:

Log Analytics 연결
Diagnostic Settings 추가

를 수행한다.

감사 이벤트 발생

SELECT TOP 10
    EmailAddress,
    FirstName,
    LastName
FROM SalesLT.Customer;
GO

KQL 조회

AzureDiagnostics
| where Category == "SQLSecurityAuditEvents"
| take 10

핵심 포인트

감사 로그 내부에:

data_sensitivity_information_s

필드가 자동 포함된다.

즉:

누가 민감 데이터를 조회했는가

를 추적할 수 있다.

9. Dynamic Data Masking(DDM)

목적

민감 데이터를 일반 사용자에게 숨긴다.

마스킹 규칙 추가

Email 마스킹

ALTER TABLE SalesLT.Customer
    ALTER COLUMN EmailAddress
    ADD MASKED WITH (FUNCTION = 'email()');
GO

Phone 마스킹

ALTER TABLE SalesLT.Customer
    ALTER COLUMN Phone
    ADD MASKED WITH (
        FUNCTION = 'partial(0,"XXX-XXX-",4)'
    );
GO

10. 일반 사용자 관점 테스트

EXECUTE AS USER

EXECUTE AS USER = 'DP300User1';

SELECT TOP 5
    FirstName,
    LastName,
    EmailAddress,
    Phone
FROM SalesLT.Customer;

REVERT;

결과

일반 사용자는:

aXXX@XXXX.com
XXX-XXX-1234

형태로 보인다.

11. UNMASK 권한 부여

권한 추가

GRANT UNMASK TO DP300User1;

다시 조회

EXECUTE AS USER = 'DP300User1';

SELECT TOP 5
    EmailAddress,
    Phone
FROM SalesLT.Customer;

REVERT;

이번에는 실제 원본 데이터가 보인다.

원상 복구

REVOKE UNMASK FROM DP300User1;

ALTER TABLE SalesLT.Customer
    ALTER COLUMN EmailAddress DROP MASKED;

ALTER TABLE SalesLT.Customer
    ALTER COLUMN Phone DROP MASKED;

12. 실무적으로 중요한 포인트

DDM의 한계

DDM은:

표시값만 가리는 기능

이다.

즉:

실제 데이터는 그대로 존재
관리자 권한자는 원본 조회 가능

하다.

실제 운영에서는

다음 조합으로 다층 방어를 구성한다.

Classification
→ DDM
→ TDE / Always Encrypted
→ RLS(Row-Level Security)

13. 실습 검증 체크리스트

다음 항목이 모두 성공하면 실습 완료이다.

Defender for SQL 활성화
15개 컬럼 자동 분류
VA Findings 확인
Threat Detection 알림 확인
sys.sensitivity_classifications 증가 확인
SQLSecurityAuditEvents 수집 확인
DDM 마스킹 동작 확인
UNMASK 후 원본 노출 확인

14. 정리(Clean-up)

실습 종료 후:

DROP MASKED
REVOKE UNMASK
추가 분류 제거
Log Analytics 삭제
VA Storage 삭제

등을 수행할 수 있다.

마무리

이번 실습에서는 Azure SQL Database 보안 기능 전반을 실습했다.

Defender 활성화
→ 민감 데이터 발견
→ Threat Detection
→ 감사 로그 수집
→ Dynamic Data Masking 보호

발견 → 탐지 → 감사 → 보호

Azure SQL Database Hands-on - CPU 사용률 식별 및 경고

Azure Monitor를 활용하여 Azure SQL Database의 CPU 사용률을 모니터링하고, 평균 CPU 사용량이 80%를 초과할 경우 이메일 알림을 전송하는 Alert Rule을 구성한다.

1. 실습 개요

시나리오

AdventureWorksLT 데이터베이스의 평균 CPU 사용률이 80%를 초과하면 자동으로 이메일 경고를 전송하도록 Azure Monitor Alert를 구성한다.

이번 실습에서는:

CPU percentage 메트릭 기반 경고 생성
Alert Rule 구성
Action Group 생성
이메일 알림 설정
실제 CPU 부하 테스트

까지 수행한다.

2. 핵심 개념 정리

Azure Monitor Alert Rule

Azure 리소스의 메트릭 또는 로그를 주기적으로 평가하여:

조건 충족 시 자동 작업(Action) 실행

하는 기능이다.

구성 요소:

Signal
Condition
Action Group

으로 이루어진다.

CPU percentage

Azure SQL Database의 평균 CPU 사용률 메트릭이다.

기본적으로:

1분 단위 집계

가 사용된다.

Aggregation Type

메트릭 집계 방식이다.

대표 유형:

Average
Minimum
Maximum
Total

이번 실습에서는:

Average

를 사용한다.

Action Group

경고 발생 시 수행할 작업 묶음이다.

예시:

Email
SMS
Push
Voice
Webhook
Azure Function

등을 연결할 수 있다.

3. 실습 환경 준비

준비물

AdventureWorksLT 데이터베이스
Azure Portal 접근 권한
이메일 수신 가능 계정

4. Azure Monitor Alert 생성

Alerts 메뉴 진입

경로:

AdventureWorksLT
→ Monitoring
→ Alerts

이후:

+ Create alert rule

선택

5. CPU Signal 설정

Signal 선택

CPU percentage

선택

조건 설정

다음과 같이 설정한다.

항목	값
Threshold Type	Static
Aggregation Type	Average
Operator	Greater than
Threshold Value	80

즉:

평균 CPU 사용률 > 80%

조건이 되면 경고가 발생한다.

6. Action Group 생성

Actions 탭 이동

Alert Rule 생성 화면에서:

Actions
→ Create action group

선택

기본 정보 입력

항목	값
Action group name	emailgroup
Display name	emailgroup

입력 후:

Next: Notifications

선택

7. 이메일 알림 설정

Notifications 설정

다음과 같이 입력한다.

항목	값
Notification type	Email/SMS message/Push/Voice
Name	DemoLab

이후 이메일 주소 입력

생성 완료

Review + create
→ Create

를 눌러 Alert Rule과 Action Group을 생성한다.

8. 이메일 알림 확인

구성이 완료되면:

You've been added to an Azure Monitor action group

형태의 이메일을 수신할 수 있다.

이후 실제 CPU 사용량이 80%를 초과하면 Azure Monitor Alert 메일이 전송된다.

9. 실제 CPU 부하 발생 테스트

실습 문서에서는 CPU 부하를 강제로 발생시키기 위한 쿼리를 제공한다.

대량 카테시안 곱 쿼리

SELECT
    COUNT(*) AS TotalCount,
    SUM(CAST(ABS(CHECKSUM(NEWID())) AS FLOAT)) AS RandomSum
FROM SalesLT.SalesOrderDetail a
CROSS JOIN SalesLT.SalesOrderDetail b
CROSS JOIN SalesLT.SalesOrderDetail c
WHERE
    SQRT(POWER(a.UnitPrice, 2) + POWER(b.UnitPrice, 2)) > 100
    AND a.OrderQty * b.OrderQty * c.OrderQty > 0;

왜 CPU 사용률이 높아질까?

이 쿼리는:

CROSS JOIN
수학 연산
문자열/랜덤 함수

를 동시에 수행한다.

특히:

N × N × N

형태의 카테시안 곱이 발생하므로 CPU 부하가 매우 커진다.

10. CPU 지속 사용 루프

루프 기반 CPU 사용

DECLARE @StartTime DATETIME = GETDATE();
DECLARE @EndTime DATETIME = DATEADD(SECOND, 60, @StartTime);
DECLARE @Dummy FLOAT;

WHILE GETDATE() < @EndTime
BEGIN
    SET @Dummy =
        SQRT(PI() * RAND()) * POWER(RAND(), 2);
END;

특징

약 1분 동안 지속적으로 CPU를 사용한다.

특징:

반복 수학 연산
랜덤 함수 호출
지속 루프 실행

으로 인해 CPU 사용률을 강제로 상승시킨다.

11. 실습 검증

다음 항목이 모두 성공하면 실습 완료이다.

AdventureWorksLT > Alerts에 새 규칙 생성
Action Group(emailgroup) 생성
Notification(DemoLab) 생성
이메일 수신 확인

12. 운영 관점에서 중요한 포인트

Evaluation Frequency

경고 평가 주기이다.

예시:

1분
5분

주기를 사용할 수 있다.

짧을수록 민감하지만 비용과 false positive가 증가한다.

Static vs Dynamic Threshold

Static

CPU > 80%

처럼 고정값 사용

Dynamic

Azure가 과거 패턴을 학습하여 자동 임계값을 계산한다.

트래픽 변동성이 큰 시스템에서는 Dynamic Threshold가 false positive를 줄여준다.

13. 실무에서 자주 사용하는 패턴

운영 환경에서는 보통:

Severity	용도
Sev0	장애 수준
Sev1	긴급
Sev2	일반 경고

형태로 Action Group을 분리해 관리한다.

예시:

cpu-sev0-email
cpu-sev1-teams
cpu-sev2-monitoring

같은 형태로 표준화한다.

14. 정리(Clean-up)

실습 종료 후 비용 절약을 위해:

Alert Rule 삭제
Action Group 삭제

를 수행할 수 있다.

마무리

이번 실습에서는 Azure SQL Database의 CPU 사용률을 기준으로 Azure Monitor Alert를 구성했다.

핵심 흐름은 다음과 같다.

CPU percentage 메트릭 선택
→ 임계값 설정
→ Action Group 생성
→ 이메일 알림 연결
→ 실제 CPU 부하 테스트

Azure Monitor Alert는 단순 이메일 기능이 아니라:

운영 자동화
장애 탐지
비용 감시
성능 이상 탐지

등 Azure 운영 전반의 핵심 기능으로 활용된다.

Azure Architecture Seminar 정리

Azure 아키텍처를 단순 서비스 나열이 아니라 프레임워크 기반으로 설계하는 방법을 다룬 세미나 자료 정리 핵심 주제는 CAF(Cloud Adoption Framework), WAF(Well-Architected Framework), 그리고 Azure Reference Architecture이다.

1. 세미나 핵심 목표

프레임워크 기반으로 아키텍처를 평가하고 설계하는 사고방식

WAF·CAF 기반으로 설계 평가
안티패턴 ↔ 대응패턴 구분
실제 Azure Reference Architecture 분석

2. 온프렘과 클라우드의 결정적 차이

세미나에서는 클라우드 아키텍처 사고방식이 온프렘과 근본적으로 다르다고 설명한다.

1) 장애를 가정하고 설계

온프렘

장애가 안 나도록 비싸게 설계

Azure

장애는 반드시 발생한다고 가정

따라서:

Availability Zone
Region 분산
Backup
Site Recovery

기반으로 설계한다.

2) 비용은 운영 행위

온프렘은:

CapEx

중심

클라우드는:

OpEx

중심이다.

즉:

어떤 SKU를 쓰는가
언제 끄는가
얼마나 자동화하는가

자체가 비용 설계가 된다.

3) 보안은 경계가 아니라 신원

온프렘:

방화벽 중심

Azure:

Zero Trust

즉:

누가
어떤 신원으로
어디서 접근했는가

가 핵심 기준이 된다.

3. CAF vs WAF

이번 세미나의 핵심이다.

CAF (Cloud Adoption Framework)

조직 차원의 프레임워크

CAF는:

회사가 클라우드를 어떻게 도입하는가

를 다룬다.

구성 단계:

전략
계획
준비
도입
거버넌스
관리

즉:

회사 전체의 클라우드 여정

을 정의한다.

WAF (Well-Architected Framework)

워크로드 차원의 프레임워크

WAF는:

이 시스템 하나를 어떻게 잘 만들 것인가

를 평가한다.

즉:

웹앱
데이터 파이프라인
AI 서비스

각 워크로드마다 적용된다.

4. WAF 5+1 기둥

Azure WAF는 총 6개 관점으로 시스템을 평가한다.

기둥	핵심 질문
Reliability	장애가 나도 돌아가는가
Security	신원·데이터를 어떻게 보호하는가
Cost Optimization	필요한 만큼만 쓰는가
Operational Excellence	변경·관측이 자동화되어 있는가
Performance Efficiency	부하 변화에 맞게 확장되는가
Sustainability	자원·탄소를 줄이고 있는가

5. 왜 프레임워크가 필요한가

프레임워크 없이 설계하면:

사람마다 기준이 다름
비용·보안·성능 트레이드오프 추적 불가
시간이 지나면 왜 그렇게 설계했는지 잊어버림

반대로 프레임워크를 사용하면:

공통 언어 생성
체크리스트 기반 리뷰 가능
트레이드오프 기록 가능
자기 진단 가능

해진다.

6. WAF 기둥별 핵심 패턴

Reliability (신뢰성)

안티패턴

단일 리전
단일 VM
복구 테스트 없음
단일 Load Balancer

대응 패턴

Availability Zone 분산
Geo-redundant
Backup + ASR
Front Door 멀티리전

Security (보안)

안티패턴

IP 기반 신뢰
Secret 하드코딩
Owner 권한 남발

대응 패턴

Zero Trust
Managed Identity
Key Vault
RBAC 최소 권한
PIM

Cost Optimization (비용 최적화)

안티패턴

모든 리소스 Pay-as-you-go
Dev/Test 24시간 켜둠
과도한 SKU

대응 패턴

Reservation
Savings Plan
Spot VM
Auto-shutdown
Cost Alert

Operational Excellence (운영 우수성)

안티패턴

포털 클릭 기반 운영
수동 배포
로그 분산

대응 패턴

Terraform / Bicep IaC
GitHub Actions
Canary / Blue-Green 배포
Log Analytics 중앙화

Performance Efficiency (성능 효율성)

안티패턴

모든 요청이 DB로 직행
수직 확장만 사용
앱 서버가 정적 자산 직접 제공

대응 패턴

Redis Cache
Read Replica
Autoscale
CDN
Front Door

Sustainability (지속가능성)

안티패턴

탄소 효율 고려 없는 리전 선택
낮은 사용률 VM 유지
피크 시간대 배치

대응 패턴

Right-sizing
유휴 리소스 자동 정리
탄소 인지 스케줄링

7. 가장 중요한 개념 — 트레이드오프

세미나에서 가장 강조하는 부분이다.

모든 기둥을 동시에 완벽하게 만족하는 아키텍처는 없다

예시:

충돌	이유
신뢰성 ↔ 비용	멀티리전은 비쌈
보안 ↔ 성능	Private Endpoint는 홉 증가
성능 ↔ 비용	Premium SKU 비용 증가
운영 ↔ 성능	관측 시스템 자체 부하

즉:

좋은 아키텍처란
어떤 기둥을 왜 양보했는지 설명할 수 있는 아키텍처

이다.

8. 레퍼런스 아키텍처 1 — 표준 웹 애플리케이션

구조

Front Door
→ App Service
→ Azure SQL

보조 구성:

Key Vault
Managed Identity
App Insights
Blob + CDN

핵심 의사결정

App Service vs AKS

단순 웹앱 → App Service
복잡한 컨테이너 운영 → AKS

Active-Active vs Active-Passive

낮은 RTO/RPO → Active-Active
비용 절감 → Active-Passive

SQL vs Cosmos DB

트랜잭션 중심 → Azure SQL
글로벌 분산 중심 → Cosmos DB

9. 레퍼런스 아키텍처 2 — 데이터 파이프라인

Medallion Architecture

구조:

Bronze
→ Silver
→ Gold

흐름:

Event Hubs
→ ADLS Gen2
→ Databricks
→ Synapse
→ Power BI

핵심 개념

Bronze

원본 보존

Silver

정제·검증

Gold

비즈니스 집계

왜 Medallion을 쓰는가

원본 보존 가능
재처리 용이
데이터 품질 추적 가능
계층별 책임 분리

10. 레퍼런스 아키텍처 3 — AI 추론 / RAG

구조

Container Apps
→ Azure OpenAI
→ AI Search
→ Cosmos DB

보조 서비스:

Front Door
Content Safety
Blob Storage
App Insights

RAG 흐름

질문 임베딩
AI Search 벡터 검색
관련 문서 검색
GPT 응답 생성
Content Safety 필터링
대화 저장

11. AI 아키텍처 핵심 의사결정

PTU vs PAYG

PTU

일정한 트래픽
낮은 지연 요구

PAYG

초기 구축
변동 트래픽

Container Apps vs AKS

Container Apps

서버리스
빠른 자동 스케일

AKS

복잡한 운영
세밀한 네트워크 제어

AI Search vs Cosmos vs PostgreSQL

서비스	특징
AI Search	하이브리드 검색
Cosmos DB	글로벌 분산
PostgreSQL + pgvector	비용 효율

12. 세 가지 아키텍처 비교

워크로드	주요 우선순위
표준 웹앱	신뢰성·보안
데이터 파이프라인	비용·성능
AI 추론(RAG)	보안·운영

가장 큰 위험 요소

워크로드	위험
웹앱	DR 미검증
데이터	데이터 품질
AI	프롬프트 주입·비용 폭주

13. WAF 자체 평가 체크리스트

세미나 마지막에는 자신의 시스템을 WAF 기준으로 평가한다.

기둥	체크 항목
신뢰성	DR / AZ / RPO / RTO
보안	Managed Identity / Key Vault
비용	Reservation / 자동 종료
운영	IaC / 중앙 로그
성능	캐시 / Autoscale
지속가능성	Right-sizing

14. 핵심 결론

이번 세미나의 핵심 메시지는 다음 한 문장으로 정리된다.

좋은 아키텍처는
완벽한 아키텍처가 아니라,
어떤 기둥을 왜 양보했는지 설명할 수 있는 아키텍처

그리고 WAF는:

서비스를 외우기 위한 프레임워크가 아니라,
좋은 질문을 하기 위한 프레임워크

이다.

[MicrosoftDataSchool] 86일차 - AzureVM에 Spark(2)

Tue, 12 May 2026 06:21:33 GMT

실시간 데이터 파이프라인 — Kafka + PostgreSQL + Spark Structured Streaming + 배치 ML 추론

2. PostgreSQL 16 설치 및 초기화

Ubuntu 24.04 기본 저장소에서 PostgreSQL 16을 apt로 설치하고 systemd로 관리한다.

운영용 사용자(handson)와 데이터베이스(onestore)를 생성하고, .pgpass로 비밀번호 입력을 자동화한다.
보안 기본값을 적용한다 (외부 네트워크 차단, scram-sha-256 인증).
B2ms 8GB 환경에 맞는 메모리 튜닝을 적용한다.

용어	정의
PostgreSQL Cluster	한 서버 인스턴스 안의 모든 DB·role을 묶는 단위. 보통 1 서버 = 1 cluster.
Role	사용자 + 그룹 통합 개념. `CREATE USER`는 사실 role 생성.
peer 인증	Unix 소켓 접속 시 Linux 사용자명과 PG role이 일치하면 비번 없이 통과.
scram-sha-256	PG14+ 기본 비번 인증 방식. TCP 접속(127.0.0.1 포함)에 적용.
pg_hba.conf	"누가, 어디서, 어떻게 접속 가능한가"를 정의하는 인증 규칙 파일.
postgresql.conf	서버 동작 설정 (메모리·로그·복제 등).
shared_buffers	PG가 페이지 캐시처럼 쓰는 공유 메모리. B2ms에선 PG 할당분(1.2GB)의 절반 수준으로.
work_mem	정렬·해시 조인 한 단위가 쓸 메모리. 너무 크면 OOM.
.pgpass	홈 디렉터리의 권한 600 파일에 비번을 저장해 매번 입력 안 하게 함.

개념 설명: cluster / database / role

┌──────────────────────────────────────────────────────────┐ │ Linux user "azureuser" (나) │ │ │ │ ① Unix 소켓 접속: sudo -u postgres psql │ │ → peer 인증 (Linux user == PG role 매칭) │ │ → 슈퍼유저 postgres로 진입, 관리용 │ │ │ │ ② TCP 접속 127.0.0.1:5432: │ │ psql -h 127.0.0.1 -U handson -d onestore │ │ → scram-sha-256 (비밀번호) │ │ → 운영 DB 작업용 │ └──────────────────────────────────────────────────────────┘

개념 설명: 메모리 튜닝 룰 오브 썸

파라미터	의미	B2ms 설정값	근거
`shared_buffers`	PG 공유 메모리 캐시	`768MB`	PG 할당 1.2GB의 약 60%
`work_mem`	쿼리당 정렬·해시 메모리	`16MB`	동시 쿼리 5개 × 16MB = 80MB로 안전
`maintenance_work_mem`	VACUUM·CREATE INDEX용	`128MB`	학습 환경 충분
`effective_cache_size`	OS 페이지 캐시 추정치 (플래너 힌트)	`2GB`	실제 메모리 점유 X
`max_connections`	동시 연결 한도	`20`	학습 환경. 한 연결당 ~10MB 점유

PostgreSQL 16 설치

sudo apt update
sudo apt install -y postgresql-16 postgresql-client-16 postgresql-contrib-16

psql --version
sudo systemctl status postgresql --no-pager

슈퍼유저 진입 및 운영 사용자/DB 생성

-- 운영 사용자 생성 (비밀번호는 학습용. 운영 시엔 강력한 값으로)
CREATE ROLE handson WITH LOGIN PASSWORD '비밀번호';

-- 운영 DB 생성 (소유자 handson)
CREATE DATABASE onestore OWNER handson ENCODING 'UTF8';

-- 추가 권한 (DB 안 모든 객체에 대한 풀권한)
GRANT ALL PRIVILEGES ON DATABASE onestore TO handson;

\l onestore
\du handson
\q

TCP 접속 테스트

psql -h 127.0.0.1 -U handson -d onestore -c "SELECT current_user, current_database(), version();"
# 비밀번호 프롬프트 → handson_pw_2026

.pgpass로 비밀번호 자동화

cat > ~/.pgpass << 'EOF'
127.0.0.1:5432:onestore:handson:비밀번호
127.0.0.1:5432:*:handson:비밀번호
EOF

chmod 600 ~/.pgpass
ls -l ~/.pgpass

# 비번 입력 없이 접속되는지 확인
psql -h 127.0.0.1 -U handson -d onestore -c "SELECT 'pgpass works' AS status;"

환경변수로 접속 정보 설정

grep -q "PGUSER=handson" ~/.bashrc || cat >> ~/.bashrc << 'EOF'

# === PostgreSQL 접속 (Part 3) ===
export PGHOST=127.0.0.1
export PGPORT=5432
export PGDATABASE=onestore
export PGUSER=handson
# 비밀번호는 .pgpass가 처리 (PGPASSWORD 환경변수 사용 X — ps에 노출됨)
EOF

source ~/.bashrc

# 환경변수 만으로 psql 접속되는지 확인
psql -c "SELECT current_user, current_database();"

메모리 튜닝(postgresql.conf)

# 백업 (필수)
sudo cp /etc/postgresql/16/main/postgresql.conf \
        /etc/postgresql/16/main/postgresql.conf.original

# 사용자 정의 설정을 별도 파일로
sudo tee /etc/postgresql/16/main/conf.d/99-handson.conf > /dev/null << 'EOF'
# === Handson Part 3 메모리 튜닝 (B2ms 8GB) ===
# PG 할당 예산 ~1.2GB

shared_buffers = 768MB
work_mem = 16MB
maintenance_work_mem = 128MB
effective_cache_size = 2GB
max_connections = 20

# WAL / 체크포인트 (학습 환경 안정성)
wal_buffers = 16MB
checkpoint_completion_target = 0.9
min_wal_size = 80MB
max_wal_size = 1GB

# SSD 가정 (Azure VM은 SSD)
random_page_cost = 1.1

# 로그 (트러블슈팅 편의)
log_min_duration_statement = 1000   # 1초 이상 쿼리 로깅
log_line_prefix = '%t [%p]: user=%u,db=%d,app=%a '
EOF

# include_dir 확인
grep -A1 "^include_dir" /etc/postgresql/16/main/postgresql.conf

# 서비스 재시작
sudo systemctl restart postgresql@16-main

# 적용 확인
psql -c "SHOW shared_buffers; SHOW work_mem; SHOW max_connections;"

psql 기본 사용법

\?              -- psql 명령어 도움말 전체
\h SELECT       -- SELECT SQL 도움말
\l              -- 데이터베이스 목록
\dt             -- 현재 DB의 테이블 목록 (Section 3 후 채워짐)
\d 테이블명      -- 테이블 스키마 상세
\du             -- role 목록
\timing         -- 쿼리 실행 시간 표시 토글
\x              -- 결과 가로/세로 출력 토글
\!              -- 셸 명령 실행 (예: \! ls)
\i 파일.sql      -- SQL 파일 실행
\q              -- 종료

3. 스키마 설계 및 테이블 생성

데이터 모델링 결과를 SQL 스크립트로 작성하고 psql -f로 일괄 실행한다.

PRIMARY KEY / FOREIGN KEY / CHECK / INDEX의 의미와 선택 근거를 이해한다.
\d 테이블명으로 스키마를 검증한다.

용어	정의
dim / fact	데이터 웨어하우스의 별 모양 스키마 명명. dim = 차원, fact = 사실.
PRIMARY KEY	행을 유일하게 식별. `NOT NULL + UNIQUE` 자동 부여.
FOREIGN KEY	다른 테이블의 PK를 참조. 무결성 보장.
CHECK 제약	행 단위 조건식. 위반 시 INSERT/UPDATE 거부.
NUMERIC(p, s)	정확한 십진수. 금액 표현엔 FLOAT 대신 NUMERIC.
INDEX	검색 가속용 보조 자료구조. INSERT 비용 ↑ / SELECT 비용 ↓.

Float이 아닌 Numeric을 쓰는 이유

-- FLOAT 함정
SELECT 0.1::float8 + 0.2::float8;
-- 결과: 0.30000000000000004 (반올림 오차)

-- NUMERIC은 정확
SELECT 0.1::numeric + 0.2::numeric;
-- 결과: 0.3

개념 설명: 인덱스 선택 근거

쿼리 패턴:

-- 1) 특정 고객의 거래 조회
SELECT * FROM transactions_fact WHERE customer_id = 'C001234';
-- 2) 최근 N분간 전체 거래
SELECT * FROM transactions_fact WHERE ts > NOW() - INTERVAL '5 min';
-- 3) 고객별 거래 수 집계
SELECT customer_id, COUNT(*) FROM transactions_fact GROUP BY customer_id;

customer_id에 인덱스: 1번·3번 가속
ts에 인덱스: 2번 가속 (시계열 슬라이싱)
transaction_id는 PK라 자동 인덱스

DDL

cat > ~/spark-handson/sql/init.sql << 'EOF'
-- =====================================================================
-- OneStore Hands-on Part 3 — 초기 스키마
-- 실행: psql -f ~/spark-handson/sql/init.sql
-- 멱등: IF NOT EXISTS 절 사용. 재실행해도 안전.
-- =====================================================================

\set ON_ERROR_STOP on

BEGIN;

-- ----------------------------
-- 1) customers_dim — Part 2 정제본 적재 대상
-- ----------------------------
CREATE TABLE IF NOT EXISTS customers_dim (
    customer_id  VARCHAR(20) PRIMARY KEY,
    age          INT,
    gender       VARCHAR(10),
    country      VARCHAR(10),
    plan_type    VARCHAR(20),
    signup_date  DATE,
    loaded_at    TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

COMMENT ON TABLE customers_dim IS 'Part 2 customers_clean 정제본 적재 (배치 1회)';

-- ----------------------------
-- 2) transactions_fact — 스트리밍 적재 대상
-- ----------------------------
CREATE TABLE IF NOT EXISTS transactions_fact (
    transaction_id  VARCHAR(30) PRIMARY KEY,
    customer_id     VARCHAR(20) NOT NULL
                    REFERENCES customers_dim(customer_id),
    ts              TIMESTAMP NOT NULL,
    amount          NUMERIC(10, 2) CHECK (amount >= 0),
    category        VARCHAR(20),
    status          VARCHAR(20)
                    CHECK (status IN ('COMPLETED','PENDING','FAILED','REFUNDED')),
    ingested_at     TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

CREATE INDEX IF NOT EXISTS idx_tx_customer ON transactions_fact(customer_id);
CREATE INDEX IF NOT EXISTS idx_tx_ts       ON transactions_fact(ts);

COMMENT ON TABLE transactions_fact IS 'Spark Structured Streaming이 Kafka에서 적재';

-- ----------------------------
-- 3) ml_predictions — 배치 추론 결과
-- ----------------------------
CREATE TABLE IF NOT EXISTS ml_predictions (
    customer_id     VARCHAR(20) PRIMARY KEY
                    REFERENCES customers_dim(customer_id),
    predicted_at    TIMESTAMP NOT NULL,
    churn_proba     NUMERIC(5, 4) CHECK (churn_proba BETWEEN 0 AND 1),
    churn_label     INT CHECK (churn_label IN (0, 1)),
    model_version   VARCHAR(50)
);

CREATE INDEX IF NOT EXISTS idx_pred_at ON ml_predictions(predicted_at);

COMMENT ON TABLE ml_predictions IS 'cron 배치 추론 결과 (UPSERT, 고객당 1행)';

COMMIT;

-- 확인용
\echo ''
\echo '=== 생성된 테이블 ==='
\dt
EOF

ls -l ~/spark-handson/sql/init.sql

#실행
psql -f ~/spark-handson/sql/init.sql

PySpark에서 PostgreSQL 연결 (JDBC)

PostgreSQL JDBC 드라이버를 PySpark에 통합 (--packages 자동 다운로드 / 수동 jar).

안전한 비밀번호 처리 패턴(.pgpass 파싱)을 적용.
Part 2의 customers_clean Parquet을 customers_dim 테이블에 적재.
PySpark에서 PostgreSQL 데이터를 다시 읽어 검증하는 양방향 패턴.

용어	정의
JDBC	Java Database Connectivity. JVM이 RDBMS와 통신하는 표준 API. PySpark는 내부 JVM이 사용.
JDBC URL	DB 위치 + 옵션. 예: `jdbc:postgresql://127.0.0.1:5432/onestore`
Maven Coordinates	`groupId:artifactId:version`. PostgreSQL JDBC는 `org.postgresql:postgresql:42.7.4`.
`--packages`	Maven Central에서 자동 다운로드 + `~/.ivy2/cache` 저장.
`--jars`	받아둔 jar 파일 경로 직접 지정. 오프라인용.
Write Mode	`append` / `overwrite` / `error`(기본) / `ignore`. RDBMS 적재엔 `append` + 멱등성 코드.
`batchsize`	JDBC INSERT 한 번에 묶는 행 수 (기본 1000).

--packages vs --jars

┌─────────────────────────────────────────────────────────────┐
│  ① --packages org.postgresql:postgresql:42.7.4              │
│     → Maven Central → ~/.ivy2/cache → 자동 클래스패스        │
│   (장점: 의존성 transitively 해결, 첫 실행 후 캐시됨)          │
│   (단점: 외부 네트워크 필요, 첫 실행 1~3분)                   │
│                                                             │
│  ② --jars /path/to/postgresql-42.7.4.jar                    │
│   (장점: 오프라인 가능, 즉시 시작)                            │
│   (단점: 의존성 수동 관리)                                    │
└─────────────────────────────────────────────────────────────┘

개념 설명: Spark JDBC 적재 동작

PySpark DataFrame (10,000 rows)
        │
        │ .write.format("jdbc").mode("append")
        │   .option("batchsize", 1000)
        ▼
JDBC Driver (postgresql-42.7.4.jar)
        │ INSERT INTO customers_dim VALUES (...) -- 1000행 묶음 × 10
        ▼
PostgreSQL

왜 mode("overwrite")가 위험한가? Spark JDBC overwrite는 기본 DROP TABLE + CREATE TABLE. 우리 customers_dim엔 PK·CHECK·FK 메타데이터가 붙어 DROP하면 다 사라진다. 그래서 append + 멱등성 패턴.

JDBC 드라이버 사전 캐싱

cat > /tmp/cache_jdbc.py << 'PYEOF'
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("cache_jdbc").getOrCreate()
print("PostgreSQL JDBC 드라이버 다운로드 완료")
spark.stop()
PYEOF

spark-submit \
  --packages org.postgresql:postgresql:42.7.4 \
  --conf spark.driver.memory=1g \
  /tmp/cache_jdbc.py 2>&1 | grep -E "(SUCCESSFUL|downloaded|완료|ERROR)"

# 캐시 확인
ls -la ~/.ivy2/jars/ | grep postgresql

적재

cat > ~/spark-handson/jobs/load_customers_dim.py << 'PYEOF'
#!/usr/bin/env python3
"""
load_customers_dim.py
Part 2의 customers_clean Parquet을 PostgreSQL customers_dim 테이블에 적재.
"""
import os
import sys
from pathlib import Path

from pyspark.sql import SparkSession
from pyspark.sql.functions import col


def get_pgpass(host: str, port: str, db: str, user: str) -> str:
    pgpass = Path.home() / ".pgpass"
    if not pgpass.exists():
        sys.exit("ERROR: ~/.pgpass not found. See Section 2 Step 2-4.")
    if oct(pgpass.stat().st_mode)[-3:] != "600":
        sys.exit("ERROR: ~/.pgpass permission must be 600.")
    for line in pgpass.read_text().splitlines():
        if not line or line.startswith("#"):
            continue
        parts = line.split(":")
        if len(parts) != 5:
            continue
        h, p, d, u, pw = parts
        if h in (host, "*") and p in (port, "*") \
           and d in (db, "*") and u in (user, "*"):
            return pw
    sys.exit(f"ERROR: no matching .pgpass entry for {user}@{host}:{port}/{db}")


PG_HOST = os.environ.get("PGHOST", "127.0.0.1")
PG_PORT = os.environ.get("PGPORT", "5432")
PG_DB   = os.environ.get("PGDATABASE", "onestore")
PG_USER = os.environ.get("PGUSER", "handson")
PG_PW   = get_pgpass(PG_HOST, PG_PORT, PG_DB, PG_USER)

JDBC_URL = f"jdbc:postgresql://{PG_HOST}:{PG_PORT}/{PG_DB}"
JDBC_PROPS = {
    "user": PG_USER,
    "password": PG_PW,
    "driver": "org.postgresql.Driver",
}

CUSTOMERS_PARQUET = os.path.expanduser("~/spark-handson/data/customers_clean")


def main():
    spark = (
        SparkSession.builder
        .appName("load_customers_dim")
        .getOrCreate()
    )
    spark.sparkContext.setLogLevel("ERROR")

    print(f"[INFO] reading parquet: {CUSTOMERS_PARQUET}")
    df = spark.read.parquet(CUSTOMERS_PARQUET)

    df_to_load = df.select(
        col("customer_id"),
        col("age").cast("int"),
        col("gender"),
        col("country"),
        col("plan_type"),
        col("signup_date").cast("date"),
    )

    src_count = df_to_load.count()
    print(f"[INFO] source rows: {src_count}")

    existing = (
        spark.read.jdbc(url=JDBC_URL, table="customers_dim",
                        properties=JDBC_PROPS).count()
    )
    print(f"[INFO] customers_dim existing rows: {existing}")

    if existing > 0:
        print("[WARN] customers_dim is not empty. Skipping load.")
        print("       To reload, run reset SQL first:")
        print("       psql -c 'TRUNCATE customers_dim, transactions_fact, ml_predictions CASCADE;'")
        spark.stop()
        return

    print("[INFO] loading into customers_dim ...")
    (
        df_to_load.write
        .format("jdbc")
        .option("url", JDBC_URL)
        .option("dbtable", "customers_dim")
        .option("user", PG_USER)
        .option("password", PG_PW)
        .option("driver", "org.postgresql.Driver")
        .option("batchsize", 1000)
        .mode("append")
        .save()
    )

    loaded = (
        spark.read.jdbc(url=JDBC_URL, table="customers_dim",
                        properties=JDBC_PROPS).count()
    )
    print(f"[OK] loaded rows: {loaded} (expected: {src_count})")

    spark.stop()


if __name__ == "__main__":
    main()
PYEOF

chmod +x ~/spark-handson/jobs/load_customers_dim.py
ls -l ~/spark-handson/jobs/load_customers_dim.py

실행

spark-submit \
  --packages org.postgresql:postgresql:42.7.4 \
  --conf spark.driver.memory=2g \
  ~/spark-handson/jobs/load_customers_dim.py \
  2>&1 | tee ~/spark-handson/logs/load_customers_dim.log | grep -E "INFO|WARN|OK|ERROR"

(선택) 재적재

# 1) 자식 테이블 + customers_dim 모두 비우기 (CASCADE)
psql -c "TRUNCATE customers_dim, transactions_fact, ml_predictions CASCADE;"

# 2) 다시 적재
spark-submit \
  --packages org.postgresql:postgresql:42.7.4 \
  ~/spark-handson/jobs/load_customers_dim.py

Kafka 3.7 단일 노드 설치(KRaft 모드)

Apache Kafka 3.7을 tarball로 설치하고 /opt/kafka에 배치.

KRaft(Kafka Raft) 모드로 클러스터 초기화 (ZooKeeper 미사용).
B2ms 8GB 환경에 맞게 JVM 힙을 1GB로 제한.
systemd unit으로 등록.
transactions-raw 토픽 생성 + 콘솔 producer/consumer 검증.

용어	정의
Broker	메시지를 저장·전송하는 Kafka 서버 노드.
Controller	클러스터 메타데이터(토픽·파티션·리더 선출) 관리. KRaft에선 broker와 통합 가능.
Topic	메시지가 발행되는 논리적 스트림 이름.
Partition	토픽을 물리적으로 쪼갠 단위. 파티션 수 = 병렬 consume 가능 수.
Offset	한 파티션 안에서 메시지의 순차 ID.
Consumer Group	같은 그룹 consumer들이 토픽 파티션을 분담. Spark Streaming은 자체 그룹.
KRaft	"Kafka Raft" 메타데이터 합의 프로토콜. ZooKeeper 대체. Kafka 3.3+ production-ready.
`process.roles`	한 프로세스가 어떤 역할인지. 단일 노드는 `broker,controller` 둘 다.
`log.dirs`	Kafka가 메시지를 디스크에 저장하는 디렉터리.
`retention.ms`	메시지 디스크 유지 시간. 우리는 1시간(3,600,000ms).

KRaft vs ZooKeeper

┌─── 기존 (ZooKeeper 모드) ───┐    ┌─── KRaft 모드 ───────────┐
│   ┌─────────────┐            │    │   ┌────────────────────┐  │
│   │ ZooKeeper   │  메타데이터  │    │   │ Kafka 프로세스      │  │
│   │ (별도 클러스터) │            │    │   │  ├─ broker        │  │
│   └──────┬──────┘            │    │   │  └─ controller     │  │
│          │                   │    │   │  (메타데이터 = Raft) │  │
│   ┌──────▼──────┐            │    │   └────────────────────┘  │
│   │ Kafka brokers│            │    │                           │
│   └─────────────┘            │    │   프로세스 1개로 끝         │
│   프로세스 2종류 운영 부담       │    │   메모리 절약 + 단순성      │
└──────────────────────────────┘    └───────────────────────────┘

B2ms 8GB에 KRaft가 적합한 이유: ZooKeeper 모드는 별도 JVM(~512MB) 추가. KRaft는 통합 → 메모리·복잡도 절약.

Topic/Partition/Offset

Topic: transactions-raw   (partitions=3)
┌───────────────────────────────────────────────────────────┐
│ Partition 0:  [m0][m1][m2][m3][m4][m5]...                 │
│ Partition 1:  [m0][m1][m2]...                              │
│ Partition 2:  [m0][m1][m2][m3]...                          │
└───────────────────────────────────────────────────────────┘

Producer가 메시지 발행:
  - key 없음 → 라운드로빈/스티키
  - key 있음 → hash(key) % partitions로 같은 key는 같은 파티션 (순서 보장)

Consumer가 메시지 소비:
  - 같은 Consumer Group 안의 consumer들이 파티션 분담
  - Spark Streaming도 내부적으로 Consumer Group 사용

KRaft 단일 노드의 listeners

listener	포트	용도
`PLAINTEXT`	9092	클라이언트(Producer·Consumer) ↔ broker
`CONTROLLER`	9093	controller ↔ controller (메타데이터 합의용 Raft)

단일 노드라도 controller listener 필수.

메모리 예산

컴포넌트	설정값
JVM Heap (`-Xmx1g`)	1GB 고정
Page Cache	동적 (남은 메모리)
Direct Memory	~256MB 추가

Kafka는 JVM 힙을 작게 유지하고 OS page cache에 의존. -Xmx1g로도 충분.

tarball 다운로드

mkdir -p ~/dl && cd ~/dl

KAFKA_VER=3.7.0
KAFKA_FILE=kafka_2.13-${KAFKA_VER}.tgz
KAFKA_URL_PRIMARY="https://archive.apache.org/dist/kafka/${KAFKA_VER}/${KAFKA_FILE}"
KAFKA_URL_FALLBACK="https://dlcdn.apache.org/kafka/${KAFKA_VER}/${KAFKA_FILE}"

curl -fLO "$KAFKA_URL_PRIMARY" || curl -fLO "$KAFKA_URL_FALLBACK"

ls -lh ${KAFKA_FILE}
file ${KAFKA_FILE}

압축 해제 + /opt/kafka 배치

cd ~/dl
sudo tar -xzf kafka_2.13-3.7.0.tgz -C /opt/
sudo mv /opt/kafka_2.13-3.7.0 /opt/kafka-3.7.0
sudo ln -sfn /opt/kafka-3.7.0 /opt/kafka
ls -la /opt/ | grep -E "kafka|->"

환경변수 등록

grep -q "KAFKA_HOME" ~/.bashrc || cat >> ~/.bashrc << 'EOF'

# === Kafka (Part 3) ===
export KAFKA_HOME=/opt/kafka
export PATH=$PATH:$KAFKA_HOME/bin
EOF

source ~/.bashrc
echo "KAFKA_HOME=$KAFKA_HOME"
which kafka-topics.sh

데이터, 로그 디렉터리 준비

mkdir -p ~/spark-handson/kafka-data
mkdir -p ~/spark-handson/logs/kafka
ls -ld ~/spark-handson/kafka-data ~/spark-handson/logs/kafka

server.properties 작성

sudo cp /opt/kafka/config/kraft/server.properties \
        /opt/kafka/config/kraft/server.properties.original

sudo tee /opt/kafka/config/kraft/server.properties > /dev/null << 'EOF'
# ===========================================================================
# Kafka 3.7 KRaft Single-Node — Hands-on Part 3
# ===========================================================================

# ---- KRaft Roles ---------------------------------------------------------
process.roles=broker,controller
node.id=1
controller.quorum.voters=1@localhost:9093

# ---- Listeners -----------------------------------------------------------
listeners=PLAINTEXT://:9092,CONTROLLER://:9093
inter.broker.listener.name=PLAINTEXT
controller.listener.names=CONTROLLER
listener.security.protocol.map=CONTROLLER:PLAINTEXT,PLAINTEXT:PLAINTEXT
advertised.listeners=PLAINTEXT://localhost:9092

# ---- Storage -------------------------------------------------------------
log.dirs=/home/azureuser/spark-handson/kafka-data

# ---- Topic Defaults (단일 노드용 축소) -----------------------------------
num.partitions=3
default.replication.factor=1
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1
min.insync.replicas=1

# ---- Retention (학습용 기본 1h, 토픽별 재정의 가능) ----------------------
log.retention.hours=1
log.segment.bytes=104857600
log.retention.check.interval.ms=300000

# ---- Performance (단일 노드 학습 환경) ------------------------------------
num.network.threads=3
num.io.threads=4
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600

# ---- Auto Topic Creation (학습 편의, 운영에선 false 권장) ----------------
auto.create.topics.enable=false
EOF

grep -E "^(process.roles|node.id|listeners|log.dirs|num.partitions|log.retention)" \
     /opt/kafka/config/kraft/server.properties

KAFKA_HEAP_OPTS 정착

sudo tee /etc/default/kafka > /dev/null << 'EOF'
KAFKA_HEAP_OPTS="-Xmx1g -Xms1g"
LOG_DIR=/home/azureuser/spark-handson/logs/kafka
EOF

cat /etc/default/kafka

Cluster ID 생성 + Storage Format

KAFKA_CLUSTER_ID=$(/opt/kafka/bin/kafka-storage.sh random-uuid)
echo "Cluster ID: $KAFKA_CLUSTER_ID"

echo "$KAFKA_CLUSTER_ID" > ~/spark-handson/kafka-data/CLUSTER_ID.txt

/opt/kafka/bin/kafka-storage.sh format \
  -t "$KAFKA_CLUSTER_ID" \
  -c /opt/kafka/config/kraft/server.properties

ls ~/spark-handson/kafka-data/
cat ~/spark-handson/kafka-data/meta.properties

systemd unit 작성

sudo tee /etc/systemd/system/kafka.service > /dev/null << 'EOF'
[Unit]
Description=Apache Kafka (KRaft single-node)
Documentation=https://kafka.apache.org/documentation/
After=network.target

[Service]
Type=simple
User=azureuser
Group=azureuser
EnvironmentFile=/etc/default/kafka
Environment=JAVA_HOME=/usr/lib/jvm/java-17-openjdk-amd64

ExecStart=/opt/kafka/bin/kafka-server-start.sh /opt/kafka/config/kraft/server.properties
ExecStop=/opt/kafka/bin/kafka-server-stop.sh

Restart=on-failure
RestartSec=5s
LimitNOFILE=100000
TimeoutStopSec=60s

[Install]
WantedBy=multi-user.target
EOF

sudo systemctl daemon-reload
sudo systemctl enable kafka
sudo systemd-analyze verify /etc/systemd/system/kafka.service

Kafka 기동

sudo systemctl start kafka
sleep 5
sudo systemctl status kafka --no-pager | head -15

# 포트 LISTEN 확인 (9092 + 9093)
ss -tlnp 2>/dev/null | grep -E ':9092 |:9093 '

# Kafka 자체 로그
tail -20 ~/spark-handson/logs/kafka/server.log 2>/dev/null \
  || tail -20 /opt/kafka/logs/server.log

로그 마지막에 Kafka Server started 확인. 실패시 다음과 같이 fix.

1) 환경 파일을 올바른 변수명으로 다시 작성

sudo tee /etc/default/kafka > /dev/null << 'EOF'
KAFKA_HEAP_OPTS="-Xmx1g -Xms1g"
LOG_DIR=/home/azureuser/spark-handson/logs/kafka
EOF

# 2) 재시작 카운터 초기화 (41번 실패한 거 리셋)
sudo systemctl reset-failed kafka

# 3) 시작
sudo systemctl restart kafka
sleep 8
sudo systemctl status kafka --no-pager | head -8

다시 확인

# Kafka 자체 로그
tail -20 ~/spark-handson/logs/kafka/server.log 2>/dev/null \
  || tail -20 /opt/kafka/logs/server.log

토픽 생성

kafka-topics.sh --bootstrap-server localhost:9092 \
  --create --topic transactions-raw \
  --partitions 3 \
  --replication-factor 1 \
  --config retention.ms=3600000 \
  --config segment.ms=600000

kafka-topics.sh --bootstrap-server localhost:9092 --list
kafka-topics.sh --bootstrap-server localhost:9092 \
  --describe --topic transactions-raw

콘솔 Producer/Consumer 검증

터미널:

printf 'msg-1\nmsg-2\nmsg-3\n' | \
  kafka-console-producer.sh --bootstrap-server localhost:9092 \
    --topic transactions-raw

kafka-console-consumer.sh --bootstrap-server localhost:9092 \
  --topic transactions-raw \
  --from-beginning \
  --max-messages 3 \
  --timeout-ms 10000

Python Producer

kafka-python 클라이언트로 Producer 구현.

customers_dim에서 추출한 실제 customer_id로 외래키 정합성 유지.
발행률(rate), 실행 시간(duration), 이상치 비율(dirty rate) 인자로 제어.
의도적으로 1% 비율로 깨진 데이터를 섞어 Section 7 정제 로직 검증 재료를 만든다.

용어	정의
`KafkaProducer`	kafka-python의 Producer 클라이언트. `send()` 비동기, `flush()`로 강제 전송.
`send(topic, key, value)`	메시지 발행. 백그라운드 스레드가 배치로 broker에 전송.
`key`	같은 key는 같은 파티션. 고객별 순서 보장에 사용.
`value_serializer`	dict → bytes 변환 함수. `json.dumps().encode()`.
`acks`	broker ack 요구 수준. `all` / `1` / `0`. 학습은 `all`.
`linger_ms`	배치 전송 대기 시간. 10ms가 throughput/latency 균형점.
Dirty Data	일부러 위반시킨 데이터. 다운스트림 정제 검증용.

Application 스레드           kafka-python 내부            Kafka Broker
─────────────────            ─────────────────            ─────────────
producer.send(...)  ──→  [accumulator 큐]
producer.send(...)  ──→  [accumulator 큐]
                              │
                              │                 linger_ms 또는 batch.size 도달
                              ▼    
                         [Sender 스레드] ──→     TCP ─→         [9092]
                              │
                              │                 broker ack 대기 (acks=all)
                              ▼
                         [retry 또는 done]

producer.flush()    ──→  큐 비울 때까지 블록
producer.close()    ──→  flush + 연결 종료

flush()를 안 부르면? 스크립트 종료 시 큐에 남은 메시지 손실 가능. 본 가이드는 try/finally에서 호출.

key 사용 전략

key=None 또는 매번 다른 key:
  Partition 0: [t1][t4][t7]...    ← 라운드로빈
  Partition 1: [t2][t5]...
  Partition 2: [t3][t6]...

key=customer_id ("C001234"):
  hash("C001234") % 3 = 1
  → 이 고객의 모든 거래는 항상 Partition 1
  → 순서 보장

key=customer_id. 이유:

같은 고객의 거래 순서 보장 (이상 거래 탐지 시 유용)
파티션 분포가 customer_id 분포에 따름 → 자연스러운 부하 분산

4종 dirty 패턴

패턴	위반 종류	Section 7 정제에서 어떻게 걸러지나
`negative_amount`	도메인 (amount ≥ 0)	`WHERE amount >= 0` 또는 PG CHECK
`invalid_status`	열거형	`WHERE status IN (...)` 또는 PG CHECK
`unknown_customer`	외래키	PG FK 거부 → 7-2의 화이트리스트로 사전 차단
`missing_field`	스키마	Spark `from_json` 시 NULL → 필터

`kafka-python` 설치

echo $VIRTUAL_ENV
# /home/azureuser/sparkenv 가 나와야 함

pip install --quiet "kafka-python>=2.0.0,<3.0.0"

python -c "import kafka; print('kafka-python', kafka.__version__)"

customer_id 샘플 파일 생성

Producer가 매번 PG에 쿼리하면 비싸다. 시작 시 한 번 추출.

psql -tAc "SELECT customer_id FROM customers_dim ORDER BY customer_id" \
  > ~/spark-handson/streaming/customer_ids.txt

wc -l ~/spark-handson/streaming/customer_ids.txt
head -3 ~/spark-handson/streaming/customer_ids.txt
tail -3 ~/spark-handson/streaming/customer_ids.txt

# 기대 출력:
10000 ~/spark-handson/streaming/customer_ids.txt
C000001
C000002
...
C009998
C009999

`gen_events.py` 작성

cat > ~/spark-handson/streaming/gen_events.py << 'PYEOF'
#!/usr/bin/env python3
"""
gen_events.py — OneStore 가짜 거래 이벤트 생성기 (Kafka Producer)

실행 예시:
  # 기본: 초당 5건, 무한, dirty 1%
  python ~/spark-handson/streaming/gen_events.py

  # 60초간 초당 10건
  python ~/spark-handson/streaming/gen_events.py --rate 10 --duration 60

  # systemd가 호출할 때 (로그 파일 분리)
  python ~/spark-handson/streaming/gen_events.py \
    --rate 5 --log-file ~/spark-handson/logs/gen_events.log
"""
import argparse
import json
import logging
import os
import random
import signal
import sys
import time
from datetime import datetime, timezone
from pathlib import Path
from typing import List

from kafka import KafkaProducer
from kafka.errors import KafkaError

# ── 도메인 정의 ────────────────────────────────────────────────────────
CATEGORIES = [
    ("GROCERY",      35),
    ("FASHION",      20),
    ("ELECTRONICS",  15),
    ("BOOKS",        10),
    ("SPORTS",       10),
    ("BEAUTY",        5),
    ("FOOD_DELIVERY", 5),
]
STATUS = [
    ("COMPLETED", 85),
    ("PENDING",   10),
    ("FAILED",     3),
    ("REFUNDED",   2),
]
DIRTY_PATTERNS = [
    "negative_amount",
    "invalid_status",
    "unknown_customer",
    "missing_field",
]

logger = logging.getLogger("gen_events")


# ── 유틸 ────────────────────────────────────────────────────────────────
def load_customer_ids(path: str) -> List[str]:
    p = Path(os.path.expanduser(path))
    if not p.exists():
        sys.exit(f"ERROR: customer sample file not found: {p}")
    ids = [ln.strip() for ln in p.read_text().splitlines() if ln.strip()]
    if len(ids) < 100:
        sys.exit(f"ERROR: too few customer ids ({len(ids)}). Expected 100+.")
    logger.info(f"loaded {len(ids)} customer ids")
    return ids


def make_tx_id(seq: int) -> str:
    """T + YYYYMMDDHHMMSS + 3-digit sequence (max 30 chars)."""
    now = datetime.now(timezone.utc)
    return f"T{now.strftime('%Y%m%d%H%M%S')}{seq:03d}"


def amount_for_category(cat: str) -> float:
    if cat == "ELECTRONICS":
        return round(random.uniform(50_000, 2_000_000), 2)
    if cat == "GROCERY":
        return round(random.uniform(3_000, 80_000), 2)
    if cat == "FASHION":
        return round(random.uniform(15_000, 300_000), 2)
    return round(random.uniform(5_000, 150_000), 2)


def gen_clean(customer_ids: List[str], seq: int) -> dict:
    cat = random.choices(
        [c for c, _ in CATEGORIES],
        weights=[w for _, w in CATEGORIES], k=1
    )[0]
    st = random.choices(
        [s for s, _ in STATUS],
        weights=[w for _, w in STATUS], k=1
    )[0]
    return {
        "transaction_id": make_tx_id(seq),
        "customer_id": random.choice(customer_ids),
        "timestamp": datetime.now(timezone.utc).isoformat(),
        "amount": amount_for_category(cat),
        "category": cat,
        "status": st,
    }


def gen_dirty(customer_ids: List[str], seq: int) -> dict:
    ev = gen_clean(customer_ids, seq)
    pat = random.choice(DIRTY_PATTERNS)
    if pat == "negative_amount":
        ev["amount"] = -abs(ev["amount"])
    elif pat == "invalid_status":
        ev["status"] = "ZZZ_INVALID"
    elif pat == "unknown_customer":
        ev["customer_id"] = "C999999"          # customers_dim에 없는 ID
    elif pat == "missing_field":
        ev.pop("category", None)
    ev["_dirty"] = pat                          # _ 시작 필드는 다운스트림 무시
    return ev


# ── Producer ────────────────────────────────────────────────────────────
def make_producer(bootstrap: str) -> KafkaProducer:
    return KafkaProducer(
        bootstrap_servers=bootstrap,
        value_serializer=lambda v: json.dumps(v, default=str).encode("utf-8"),
        key_serializer=lambda k: (k or "").encode("utf-8"),
        acks="all",
        linger_ms=10,
        retries=3,
        max_in_flight_requests_per_connection=1,  # 순서 보장
    )


# ── 메인 루프 ───────────────────────────────────────────────────────────
def main():
    ap = argparse.ArgumentParser()
    ap.add_argument("--bootstrap",   default="localhost:9092")
    ap.add_argument("--topic",       default="transactions-raw")
    ap.add_argument("--sample-file", default="~/spark-handson/streaming/customer_ids.txt")
    ap.add_argument("--rate",        type=float, default=5.0,
                    help="events per second")
    ap.add_argument("--duration",    type=int,   default=0,
                    help="seconds; 0 = infinite")
    ap.add_argument("--dirty-rate",  type=float, default=0.01)
    ap.add_argument("--log-file",    default=None)
    args = ap.parse_args()

    # 로깅
    handlers = [logging.StreamHandler()]
    if args.log_file:
        Path(args.log_file).parent.mkdir(parents=True, exist_ok=True)
        handlers.append(logging.FileHandler(args.log_file))
    logging.basicConfig(
        level=logging.INFO,
        format="%(asctime)s %(levelname)s %(message)s",
        handlers=handlers,
    )

    customer_ids = load_customer_ids(args.sample_file)
    producer = make_producer(args.bootstrap)
    logger.info(f"connected to {args.bootstrap}, topic={args.topic}, "
                f"rate={args.rate}/s, dirty={args.dirty_rate*100:.1f}%")

    # 그레이스풀 종료
    stop = {"flag": False}
    def handle(sig, _frame):
        logger.info(f"signal {sig} received, stopping...")
        stop["flag"] = True
    signal.signal(signal.SIGINT, handle)
    signal.signal(signal.SIGTERM, handle)

    interval = 1.0 / args.rate if args.rate > 0 else 0.0
    seq = 0
    sent_clean = sent_dirty = sent_err = 0
    start = time.time()

    try:
        while not stop["flag"]:
            if args.duration and (time.time() - start) >= args.duration:
                break

            seq = (seq + 1) % 1000
            is_dirty = random.random() < args.dirty_rate
            ev = (gen_dirty if is_dirty else gen_clean)(customer_ids, seq)

            try:
                producer.send(args.topic,
                              key=ev.get("customer_id"),
                              value=ev)
                if is_dirty:
                    sent_dirty += 1
                else:
                    sent_clean += 1
            except KafkaError as e:
                sent_err += 1
                logger.warning(f"send error: {e}")

            total = sent_clean + sent_dirty
            if total and total % 100 == 0:
                el = time.time() - start
                logger.info(
                    f"sent={total} clean={sent_clean} dirty={sent_dirty} "
                    f"err={sent_err} elapsed={el:.1f}s rate={total/el:.1f}/s"
                )

            if interval > 0:
                time.sleep(interval)
    finally:
        logger.info("flushing remaining messages...")
        producer.flush(timeout=10)
        producer.close(timeout=10)
        el = time.time() - start
        total = sent_clean + sent_dirty
        logger.info(
            f"DONE total={total} clean={sent_clean} dirty={sent_dirty} "
            f"err={sent_err} elapsed={el:.1f}s avg_rate={total/max(el,0.01):.1f}/s"
        )


if __name__ == "__main__":
    main()
PYEOF

chmod +x ~/spark-handson/streaming/gen_events.py
ls -l ~/spark-handson/streaming/gen_events.py
wc -l ~/spark-handson/streaming/gen_events.py

짧은 실행 (10초간 초당 5건)

터미널 1 (Producer):

python ~/spark-handson/streaming/gen_events.py \
  --rate 5 --duration 10 --dirty-rate 0.10
# (학습용으로 dirty-rate 10%로 올려 dirty 패턴 가시성 ↑)

메시지 수신 확인 (Consumer)

kafka-console-consumer.sh --bootstrap-server localhost:9092 \
  --topic transactions-raw \
  --from-beginning \
  --max-messages 50 \
  --timeout-ms 5000 \
  | head -5

dirty 데이터 패턴 분포 확인

kafka-console-consumer.sh --bootstrap-server localhost:9092 \
  --topic transactions-raw --from-beginning \
  --max-messages 50 --timeout-ms 5000 2>/dev/null \
  | grep '^{' \
  | jq -r '._dirty // "clean"' \
  | sort | uniq -c

Spark Structured Streaming — Kafka Consume + 정제

Spark Structured Streaming의 micro-batch 모델 이해.

Kafka source(format="kafka")에서 binary value를 JSON으로 파싱.
명시적 스키마(StructType)로 타입 안전성 확보.
4종 dirty 패턴을 정제 로직으로 걸러낸다.
콘솔 sink로 적재 전 결과를 시각적으로 검증.

용어	정의
Structured Streaming	DataFrame/Dataset API로 스트리밍 처리. 내부는 micro-batch.
Micro-batch	일정 간격(trigger)으로 누적된 데이터를 한 번에 배치 처리.
Trigger	"언제 다음 배치를 실행할지". `processingTime='5 seconds'` / `available now` 등.
Source / Sink	입력/출력. 우리는 Kafka → 최종 PG (7-2) / 검증용 console (7-1).
Schema-on-read	Kafka는 binary만 저장. consumer가 읽을 때 명시.
`from_json`	JSON 문자열을 StructType 스키마에 따라 컬럼으로 펼침.
`foreachBatch`	각 micro-batch DataFrame에 임의 로직 적용 (7-2에서 사용).
`checkpointLocation`	offset·메타데이터 저장 디렉터리. 재시작 시 정확히 끊긴 지점부터 재개.

Micro-batch 모델

시간축 →

  Trigger 1 (t=5s)        Trigger 2 (t=10s)        Trigger 3 (t=15s)
       │                       │                       │
       ▼                       ▼                       ▼
   ┌────────┐             ┌────────┐             ┌────────┐
   │ batch  │            │ batch  │             │ batch  │
   │  ID=0  │            │  ID=1  │             │  ID=2  │
   │ 25 msg │            │ 27 msg │             │ 24 msg │
   └────┬───┘             └────┬───┘             └────┬───┘
        │ DataFrame           │ DataFrame            │ DataFrame
        ▼                      ▼                      ▼
    [정제 로직]            [정제 로직]            [정제 로직]
        │                      │                      │
        ▼                      ▼                      ▼
    [Sink]                  [Sink]                  [Sink]
        │                      │                      │
        ▼                      ▼                      ▼
   checkpoint 갱신       checkpoint 갱신        checkpoint 갱신

핵심: 매 trigger마다 받은 메시지가 정적 DataFrame. 이후 처리는 일반 Spark 연산과 동일.

Kafka source의 raw 스키마

spark.readStream.format("kafka")가 반환하는 DataFrame은 항상 다음 7개 컬럼.

컬럼	타입	의미
`key`	binary	Producer가 보낸 key (우리는 customer_id)
`value`	binary	Producer가 보낸 value (우리는 JSON bytes)
`topic`	string	토픽 이름
`partition`	int	파티션 번호
`offset`	long	메시지의 offset
`timestamp`	timestamp	broker가 메시지를 받은 시각
`timestampType`	int	timestamp의 의미

4종 dirty 패턴 정제 매핑

원본 메시지 (JSON)
     │ CAST(value AS STRING) → from_json(payload, SCHEMA)
     ▼
struct
     │ ① missing_field (category null) → IS NOT NULL 필터
     │ ② negative_amount → amount >= 0 필터
     │ ③ invalid_status → status IN (...) 필터
     │ ④ unknown_customer → 7-2에서 화이트리스트로 차단
     ▼
정제된 DataFrame
     │
     ▼
sink (7-1: 콘솔, 7-2: PostgreSQL)

Kafka 패키지 사전 캐싱


cat > /tmp/cache_kafka_pg.py << 'PYEOF'
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("cache_kafka_pg").getOrCreate()
print("Kafka + PostgreSQL packages loaded")
spark.stop()
PYEOF

spark-submit \
  --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.5.8,org.postgresql:postgresql:42.7.4 \
  --conf spark.driver.memory=1g \
  /tmp/cache_kafka_pg.py 2>&1 | grep -E "(SUCCESSFUL|downloaded|loaded|ERROR)"

# 캐시 확인 — Step 4-1과 같은 경로 패턴 (~/.ivy2/jars/, 평탄 구조)
ls -la ~/.ivy2/jars/ | grep -E "spark-sql-kafka|spark-token|kafka-clients|postgresql"

정제 검증용 스크립트 (콘솔 sink)

cat > ~/spark-handson/streaming/streaming_console.py << 'PYEOF'
#!/usr/bin/env python3
"""
streaming_console.py — Section 7-1 검증용
Kafka transactions-raw 구독 → 정제 → 콘솔 출력.
"""
import os
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, from_json, to_timestamp
from pyspark.sql.types import StructType, StringType, DoubleType

KAFKA_BOOTSTRAP = "localhost:9092"
KAFKA_TOPIC     = "transactions-raw"
VALID_STATUS    = ["COMPLETED", "PENDING", "FAILED", "REFUNDED"]


PAYLOAD_SCHEMA = (
    StructType()
    .add("transaction_id", StringType())
    .add("customer_id",    StringType())
    .add("timestamp",      StringType())
    .add("amount",         DoubleType())
    .add("category",       StringType())
    .add("status",         StringType())
)


def main():
    spark = (
        SparkSession.builder
        .appName("streaming_console")
        .getOrCreate()
    )
    spark.sparkContext.setLogLevel("ERROR")

    # 1) Kafka 소스 구독
    raw = (
        spark.readStream
        .format("kafka")
        .option("kafka.bootstrap.servers", KAFKA_BOOTSTRAP)
        .option("subscribe", KAFKA_TOPIC)
        .option("startingOffsets", "earliest")  # 운영은 latest
        .option("failOnDataLoss", "false")
        .load()
    )

    # 2) JSON 파싱
    parsed = (
        raw
        .select(
            col("partition").alias("kafka_partition"),
            col("offset").alias("kafka_offset"),
            col("timestamp").alias("kafka_ts"),
            from_json(col("value").cast("string"), PAYLOAD_SCHEMA).alias("p"),
        )
        .select("kafka_partition", "kafka_offset", "kafka_ts", "p.*")
    )

    # 3) 타입 변환 + 정제
    cleaned = (
        parsed
        .withColumn("ts", to_timestamp(col("timestamp")))
        .where(col("transaction_id").isNotNull())
        .where(col("customer_id").isNotNull())
        .where(col("ts").isNotNull())
        .where(col("amount").isNotNull() & (col("amount") >= 0))
        .where(col("category").isNotNull())
        .where(col("status").isin(VALID_STATUS))
        .select(
            "transaction_id", "customer_id", "ts",
            "amount", "category", "status",
            "kafka_partition", "kafka_offset",
        )
    )

    # 4) 콘솔 sink
    query = (
        cleaned.writeStream
        .format("console")
        .outputMode("append")
        .option("truncate", "false")
        .option("numRows", 10)
        .trigger(processingTime="5 seconds")
        .queryName("console_q")
        .start()
    )

    print(f"[INFO] streaming started. trigger=5s, topic={KAFKA_TOPIC}")
    print(f"[INFO] press Ctrl-C to stop")
    query.awaitTermination()


if __name__ == "__main__":
    main()
PYEOF

chmod +x ~/spark-handson/streaming/streaming_console.py

두 터미널 실행 패턴

터미널 A: Producer

python ~/spark-handson/streaming/gen_events.py \
  --rate 5 --duration 120 --dirty-rate 0.20

터미널 B: Streaming consumer

spark-submit \
  --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.5.8 \
  --conf spark.driver.memory=2g \
  ~/spark-handson/streaming/streaming_console.py

dirty 메시지가 사라진 게 보이는가? Producer는 dirty 20%를 보냈지만 콘솔엔 정상만. 즉 dirty는 정제 단계에서 모두 제거.

종료

터미널 B에서 Ctrl-C. graceful shutdown.

Spark Structured Streaming — foreachBatch + PostgreSQL 적재 + 체크포인트

foreachBatch로 micro-batch DataFrame을 JDBC로 적재.

customers_dim 화이트리스트로 unknown_customer 사전 차단.
ON CONFLICT DO NOTHING 패턴으로 멱등성 확보 (재처리 시 중복 PK 무시).
checkpointLocation으로 정확히 끊긴 지점부터 재개 (exactly-once 효과).
운영 환경 권장 옵션(maxOffsetsPerTrigger, retry 정책) 적용.

용어	정의
`foreachBatch(func)`	각 micro-batch의 DataFrame과 batchId를 인자로 사용자 함수 실행.
psycopg2	Python의 PostgreSQL 클라이언트. UPSERT 쓸 때 사용.
UPSERT	INSERT ... ON CONFLICT (...) DO ... PostgreSQL 9.5+ 문법.
Checkpoint	offset, state, batch metadata 저장. 재시작 시 복구.
Exactly-once	메시지가 sink에 정확히 1번 반영. (멱등 sink + checkpoint 조합)
Whitelist	허용 대상만 통과. customers_dim에 있는 customer_id만.

개념 설명: 화이트리스트 사전 차단 vs FK 거부

방어선 1: Spark에서 화이트리스트 (선제 차단)
   df.join(customers_broadcast, "customer_id", "inner")
   → unknown_customer 메시지 사전 제거

방어선 2: PostgreSQL FK (최종 차단)
   FOREIGN KEY (customer_id) REFERENCES customers_dim(customer_id)
   → 만에 하나 통과해도 INSERT 거부

방어선 1만으로 거의 끝. 2는 안전망.

왜 broadcast? customers_dim 10,000건 (~1MB)은 작아서 모든 executor에 broadcast 가능. shuffle 없이 빠른 join.

개념 설명: ON CONFLICT DO NOTHING의 멱등성

INSERT INTO transactions_fact (transaction_id, customer_id, ts, amount, category, status)
VALUES (...)
ON CONFLICT (transaction_id) DO NOTHING;

같은 transaction_id 다시 들어오면 무시.
Streaming 재시작 후 일부 메시지가 재처리되어도 중복 안 됨.
이것이 Streaming의 "exactly-once 효과"의 핵심.

개념 설명: Checkpoint 동작

첫 실행:
  Kafka offset 0 → batch 0 → PG 적재 → checkpoint 갱신 (offset=25)
  Kafka offset 25 → batch 1 → PG 적재 → checkpoint 갱신 (offset=52)
  ...

재시작 (마지막 checkpoint=52):
  Kafka offset 52 부터 재개
  → batch 마지막에 미완료 적재가 있어도 ON CONFLICT가 멱등성 보장

Checkpoint 구조:

~/spark-handson/checkpoints/streaming_to_pg/
├── offsets/         ← 매 batch의 시작 offset
├── commits/         ← batch 완료 표시
├── sources/         ← Kafka source 메타
└── state/           ← (stateful 연산 시 사용; 본 가이드는 stateless)

체크포인트 디렉터리는 절대 수동 삭제 X (의도적 reset 외엔). 삭제 시 처음부터 다시 처리 → 중복 가능.

psycopg2-binary 설치

pip install --quiet "psycopg2-binary>=2.9.0,<3.0.0"
python -c "import psycopg2; print('psycopg2', psycopg2.__version__)"

`streaming_to_pg.py` 작성

cat > ~/spark-handson/streaming/streaming_to_pg.py << 'PYEOF'
#!/usr/bin/env python3
"""
streaming_to_pg.py — Section 7-2 본 적재 스크립트
Kafka → 정제 → customers_dim 화이트리스트 → PostgreSQL UPSERT.
checkpoint로 정확한 재시작 보장.
"""
import os
import sys
from pathlib import Path

import psycopg2
from psycopg2.extras import execute_values

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, from_json, to_timestamp, broadcast
from pyspark.sql.types import StructType, StringType, DoubleType


# ── 설정 ────────────────────────────────────────────────────────────────
KAFKA_BOOTSTRAP = "localhost:9092"
KAFKA_TOPIC     = "transactions-raw"
VALID_STATUS    = ["COMPLETED", "PENDING", "FAILED", "REFUNDED"]
CHECKPOINT_DIR  = os.path.expanduser("~/spark-handson/checkpoints/streaming_to_pg")

PAYLOAD_SCHEMA = (
    StructType()
    .add("transaction_id", StringType())
    .add("customer_id",    StringType())
    .add("timestamp",      StringType())
    .add("amount",         DoubleType())
    .add("category",       StringType())
    .add("status",         StringType())
)


# ── PG 접속 정보 (.pgpass 파싱) ─────────────────────────────────────────
def get_pg_password() -> str:
    pgpass = Path.home() / ".pgpass"
    if oct(pgpass.stat().st_mode)[-3:] != "600":
        sys.exit("ERROR: ~/.pgpass permission must be 600")
    for ln in pgpass.read_text().splitlines():
        parts = ln.split(":")
        if len(parts) == 5 and parts[3] == "handson":
            return parts[4]
    sys.exit("ERROR: handson entry missing in ~/.pgpass")


PG_HOST, PG_PORT = "127.0.0.1", 5432
PG_DB,   PG_USER = "onestore", "handson"
PG_PASS = get_pg_password()


# ── customers_dim 화이트리스트 로드 ─────────────────────────────────────
def load_customer_whitelist(spark: SparkSession):
    jdbc_url = f"jdbc:postgresql://{PG_HOST}:{PG_PORT}/{PG_DB}"
    props = {"user": PG_USER, "password": PG_PASS,
             "driver": "org.postgresql.Driver"}
    df = (
        spark.read.jdbc(jdbc_url,
                        "(SELECT customer_id FROM customers_dim) AS sub",
                        properties=props)
    )
    cnt = df.count()
    print(f"[INFO] customers_dim whitelist loaded: {cnt} rows")
    if cnt == 0:
        sys.exit("ERROR: customers_dim is empty. Run Section 4 first.")
    return df


# ── foreachBatch 함수 ───────────────────────────────────────────────────
def write_batch_to_pg(batch_df, batch_id):
    """매 micro-batch마다 호출."""
    if batch_df.rdd.isEmpty():
        print(f"[batch {batch_id}] empty, skip")
        return

    # Spark Driver로 행 수집 (batch당 보통 수십~수백건)
    rows = batch_df.collect()
    print(f"[batch {batch_id}] received {len(rows)} valid rows")

    if not rows:
        return

    # psycopg2로 UPSERT
    conn = None
    try:
        conn = psycopg2.connect(
            host=PG_HOST, port=PG_PORT,
            dbname=PG_DB, user=PG_USER, password=PG_PASS,
            connect_timeout=5,
        )
        conn.autocommit = False
        with conn.cursor() as cur:
            data = [
                (r.transaction_id, r.customer_id, r.ts,
                 float(r.amount), r.category, r.status)
                for r in rows
            ]
            sql = """
                INSERT INTO transactions_fact
                  (transaction_id, customer_id, ts, amount, category, status)
                VALUES %s
                ON CONFLICT (transaction_id) DO NOTHING
            """
            execute_values(cur, sql, data, page_size=500)
            inserted = cur.rowcount
            conn.commit()
            print(f"[batch {batch_id}] inserted={inserted} (skip on conflict)")
    except Exception as e:
        if conn:
            conn.rollback()
        # 에러 raise → Spark가 batch를 retry. 너무 자주면 max retry 후 query 실패.
        print(f"[batch {batch_id}] ERROR: {e}")
        raise
    finally:
        if conn:
            conn.close()


def main():
    spark = (
        SparkSession.builder
        .appName("streaming_to_pg")
        .getOrCreate()
    )
    spark.sparkContext.setLogLevel("ERROR")

    # 1) 화이트리스트 (broadcast로 변환)
    whitelist = broadcast(load_customer_whitelist(spark))

    # 2) Kafka 소스
    raw = (
        spark.readStream
        .format("kafka")
        .option("kafka.bootstrap.servers", KAFKA_BOOTSTRAP)
        .option("subscribe", KAFKA_TOPIC)
        .option("startingOffsets", "latest")           # 운영: latest
        .option("failOnDataLoss", "false")
        .option("maxOffsetsPerTrigger", 1000)          # 백프레셔 보호
        .load()
    )

    # 3) JSON 파싱 + 정제
    parsed = (
        raw.select(
            from_json(col("value").cast("string"), PAYLOAD_SCHEMA).alias("p")
        )
        .select("p.*")
        .withColumn("ts", to_timestamp(col("timestamp")))
        .where(col("transaction_id").isNotNull())
        .where(col("customer_id").isNotNull())
        .where(col("ts").isNotNull())
        .where(col("amount").isNotNull() & (col("amount") >= 0))
        .where(col("category").isNotNull())
        .where(col("status").isin(VALID_STATUS))
    )

    # 4) 화이트리스트 join (unknown_customer 차단)
    cleaned = parsed.join(whitelist, "customer_id", "inner") \
                    .select("transaction_id", "customer_id", "ts",
                            "amount", "category", "status")

    # 5) foreachBatch sink
    query = (
        cleaned.writeStream
        .foreachBatch(write_batch_to_pg)
        .option("checkpointLocation", CHECKPOINT_DIR)
        .trigger(processingTime="10 seconds")
        .queryName("kafka_to_pg")
        .start()
    )

    print(f"[INFO] streaming started")
    print(f"[INFO] checkpoint: {CHECKPOINT_DIR}")
    print(f"[INFO] press Ctrl-C to stop gracefully")

    query.awaitTermination()


if __name__ == "__main__":
    main()
PYEOF

chmod +x ~/spark-handson/streaming/streaming_to_pg.py
ls -l ~/spark-handson/streaming/streaming_to_pg.py

Producer

Streaming → PG

PG에서 실시간 적재 확인

checkpoint 디렉터리 확인

재시작 검증 (exactly-once 효과)

터미널 B에서 Ctrl-C → 30초 대기 → 같은 명령으로 재실행.

# 재실행 전 PG의 전체 행 수
COUNT_BEFORE=$(psql -tAc "SELECT COUNT(*) FROM transactions_fact")
echo "before restart: $COUNT_BEFORE"

# 30초간 더 실행 후 종료, 다시 행 수 확인
# (재시작 시 [INFO] starting from checkpoint ... 로그 보임)

예상: checkpoint 덕분에 끊긴 지점에서 재개. 약간의 중복은 ON CONFLICT가 흡수.

적재 데이터 검증 SQL

psql << 'SQL'
\echo '== 전체 행 수 =='
SELECT COUNT(*) FROM transactions_fact;

\echo '== status별 분포 =='
SELECT status, COUNT(*) FROM transactions_fact GROUP BY status ORDER BY 2 DESC;

\echo '== 가장 활발한 고객 5명 =='
SELECT customer_id, COUNT(*) AS tx_count, SUM(amount) AS total_spent
FROM transactions_fact
GROUP BY customer_id
ORDER BY tx_count DESC
LIMIT 5;

\echo '== category별 평균 금액 =='
SELECT category, COUNT(*) AS n, ROUND(AVG(amount)::numeric, 0) AS avg_amount
FROM transactions_fact
GROUP BY category
ORDER BY avg_amount DESC;

\echo '== 최근 1분간 처리량 =='
SELECT COUNT(*) AS recent_count
FROM transactions_fact
WHERE ingested_at >= NOW() - INTERVAL '1 minute';
SQL

cron

항목	cron	Airflow
설치	OS에 기본 내장	별도 설치 (DB·webserver·scheduler·worker)
메모리	< 10MB	1.5~3GB 이상
잡 정의	1줄 (`m h dom mon dow command`)	Python DAG 파일 (수십~수백 줄)
재시도	직접 구현 (wrapper에 retry 로직)	빌트인 (`retries`, `retry_delay`, exponential backoff)
잡 의존성	없음 (시간으로 순서 강제)	DAG 그래프로 명시 (A → B → C)
백필 (backfill)	없음	`airflow dags backfill` 한 줄
부분 실패 복구	잡 전체 재실행	실패한 task만 재실행
모니터링 UI	없음 (로그 파일 직접)	웹 UI, 시각화, SLA 알림
알림	직접 구현 (mail, webhook)	EmailOperator, SlackOperator 등 빌트인
분산 실행	없음 (단일 호스트)	CeleryExecutor·KubernetesExecutor
시각화	없음	Gantt, Graph, Calendar 뷰
학습 곡선	30분	며칠~몇 주
운영 비용	거의 0	별도 클러스터 운영

cron으로 충분한 경우

다음 모두 해당하면 cron 유지.

잡 수 < 10개
잡 의존성 없음 (또는 시간 순서로 강제 가능)
모든 잡의 실행 시간 < 다음 호출 간격 (락으로 보강)
실패 시 다음 회차 재실행으로 충분 (즉시 복구 불요)
단일 호스트에서 처리 가능
한국 시간 기준 일정한 시각으로 충분 (윈도우·캘린더 복잡도 없음)

Airflow가 필요한 시점

다음 신호가 하나라도 등장하면 Airflow(또는 Dagster, Prefect) 도입 고려.

신호	예시	Airflow 해결책
DAG 의존성	"추출 끝나면 변환, 변환 끝나면 적재, 적재 끝나면 알림"	Operator chaining (`A >> B >> C`)
잡 수 증가	매일 50개 이상의 잡, 일부는 매시간·일부는 매일	DAG 단위 관리, 폴더 구조
부분 실패	5단계 ETL 중 3단계 실패 시 1·2를 재실행하기 싫음	task 단위 재실행
백필	"지난 30일치 다시 돌려야 함"	`backfill --start-date ...`
동적 분기	입력 크기에 따라 다른 처리 경로	Branch Operator
다른 시스템 트리거	"Kafka 메시지 수가 임계 초과 시 잡 실행"	Sensor (Kafka·HTTP·File)
알림 통합	실패 시 Slack·PagerDuty	EmailOperator·SlackWebhook
SLA 추적	"이 잡은 30분 안에 완료해야 함"	sla 파라미터 + 알림
분산 실행	한 호스트로 부족	Celery·Kubernetes Executor

Phase 1 :
  cron + bash wrapper (락·메모리 가드·로그)
  → Part 3 수준에 적합

Phase 2:
  cron + Python orchestrator
  - 더 복잡한 wrapper (DB로 잡 상태 추적)
  - Slack 알림
  → 잡 수 5~15개

Phase 3:
  Airflow (LocalExecutor, single host)
  - DAG, retry, UI
  → 잡 수 15~50개, 의존성 등장

Phase 4:
  Airflow (CeleryExecutor 또는 KubernetesExecutor)
  - 분산 워커
  → 50개 이상, 멀티 팀

kafka 다중 브로커

현재 (단일):
  ┌─────────┐
  │ broker1 │ partitions: P0, P1, P2 (모두 leader)
  └─────────┘ replication: 1

확장 (3 broker, RF=3):
  ┌─────────┐  ┌─────────┐  ┌─────────┐
  │ broker1 │  │ broker2 │  │ broker3 │
  │ P0 (L)  │  │ P1 (L)  │  │ P2 (L)  │
  │ P2 (F)  │  │ P0 (F)  │  │ P0 (F)  │
  │ P1 (F)  │  │ P2 (F)  │  │ P1 (F)  │
  └─────────┘  └─────────┘  └─────────┘
  L=Leader, F=Follower (replica)

도입 시 필요한 작업:

추가 VM 2대 또는 컨테이너
모든 broker가 같은 controller quorum 공유 (controller.quorum.voters=1@host1:9093,2@host2:9093,3@host3:9093)
토픽 재생성 또는 kafka-reassign-partitions.sh로 replication 추가
min.insync.replicas=2 (3 broker, RF=3 권장)
Producer acks=all (이미 본 가이드 적용)

Spark 분산 모드

현재 (local):
  spark-submit --master local[*]
  → driver = executor = 한 JVM
  → 메모리 = VM RAM

확장 옵션:
  ① Spark Standalone Cluster
     spark-submit --master spark://master:7077 \
                  --deploy-mode cluster \
                  --executor-memory 4g --executor-cores 2 \
                  --num-executors 5
     → 별도 master + worker 노드 (Spark 자체 클러스터 매니저)

  ② Kubernetes
     spark-submit --master k8s://https://... \
                  --deploy-mode cluster \
                  --conf spark.kubernetes.container.image=...
     → Pod로 동적 executor 생성·소멸

  ③ YARN (Hadoop 환경)
     spark-submit --master yarn --deploy-mode cluster
     → 기존 Hadoop 클러스터 자원 활용

Delta Lake 도입

Parquet의 한계 → Delta Lake로 ACID·time travel.

기능	Parquet (현재)	Delta Lake
ACID 트랜잭션	없음 (실패 시 부분 파일)	있음 (`_delta_log`로 commit)
Time Travel	없음	`VERSION AS OF` / `TIMESTAMP AS OF`
Schema Evolution	수동 (파일 재생성)	`MERGE SCHEMA` 자동
Upsert (MERGE)	없음	`MERGE INTO ... WHEN MATCHED ...`
Optimize·Z-order	없음	빌트인
Streaming + Batch 통합	어려움	"Lambda 통합"

전환 예시

# Streaming sink를 Delta로 변경
parsed.writeStream \
  .format("delta") \
  .option("checkpointLocation", "/.../checkpoints/delta") \
  .start("/.../delta/transactions_fact")

# UPSERT (배치 추론에서 사용 가능)
from delta.tables import DeltaTable
delta_pred = DeltaTable.forPath(spark, "/.../delta/ml_predictions")
delta_pred.alias("p").merge(
    new_pred.alias("n"),
    "p.customer_id = n.customer_id"
).whenMatchedUpdate(set={...}).whenNotMatchedInsert(values={...}).execute()

도입 비용: --packages io.delta:delta-spark_2.12:3.0.0. PostgreSQL은 그대로 두고, 분석·아카이브 레이어를 Delta로 분리하는 패턴이 일반적.

Schema Registry

현재 Producer가 임의 JSON. → 스키마 레지스트리로 contract 강제.

Producer        Schema Registry         Consumer
   │                 ▲                     │
   │ schema_id 조회  │  ┌─schemas:─┐       │
   ├────────────────▶│  │ v1: ... │       │
   │                 │  │ v2: ... │       │
   │                 │  └─────────┘       │
   │  msg = schema_id + binary payload     │
   ├──────────────────────────────────────▶│
                                           │
                       schema_id로 deserialize

대표 옵션:

Confluent Schema Registry: Avro 표준
Apicurio: Avro/Protobuf/JSON Schema 다 지원, Apache 2.0
Karapace: Apache 2.0, Confluent 호환

장점:

호환성 검증 (BACKWARD/FORWARD/FULL)
Producer/Consumer 독립 진화
메시지 크기 절감 (스키마 미포함, ID만)

Dead-Letter Topic

현재 정제 실패 메시지는 where(...) 필터로 폐기. → 별도 토픽에 보관해 분석.

              ┌───── valid → transactions_fact
              │
[정제 분기]   ┤
              │
              └───── invalid → transactions-dlq (dead-letter)

구현 패턴:

# foreachBatch 내부
valid = batch_df.filter(...).cache()
invalid = batch_df.exceptAll(valid).cache()

# valid → PG
write_to_pg(valid)

# invalid → Kafka dead-letter 토픽 (또는 PG 별도 테이블)
invalid.selectExpr("CAST(transaction_id AS STRING) AS key",
                   "to_json(struct(*)) AS value") \
       .write.format("kafka") \
       .option("topic", "transactions-dlq") \
       .save()

dead-letter 분석으로 Producer 버그·외부 시스템 변경 조기 탐지.

모니터링 스택 (Prometheus + Grafana)

현재 사람이 SQL·CLI로 조회 → 자동 메트릭 수집·시각화·알림.

┌────────────────────────────────────────────────────────┐
│ ① 메트릭 노출 (각 컴포넌트 → /metrics endpoint)         │
│    - PG       : postgres_exporter                       │
│    - Kafka    : JMX exporter                            │
│    - Spark    : spark.metrics.conf                      │
│    - Node     : node_exporter (메모리·디스크·CPU)       │
│    - 사용자정의 : pushgateway                           │
└────────────────────────────────────────────────────────┘
                          │
                          ▼
┌────────────────────────────────────────────────────────┐
│ ② Prometheus (시계열 DB) - 주기적 scrape, 저장         │
└────────────────────────────────────────────────────────┘
                          │
                          ▼
┌────────────────────────────────────────────────────────┐
│ ③ Grafana (시각화) - 대시보드, 알림 룰                 │
└────────────────────────────────────────────────────────┘
                          │
                          ▼
┌────────────────────────────────────────────────────────┐
│ ④ Alertmanager - Slack·PagerDuty·Email                │
└────────────────────────────────────────────────────────┘

확장 우선순위 (현재 → 운영으로 가려면)

다음 순서를 권장:

Schema Registry — 데이터 contract 강제
Dead-Letter — 실패 분석·신뢰도 향상
Prometheus + Grafana — 정량 모니터링
PG replica + 백업 자동화 — 데이터 안전성
Kafka 3-broker — Kafka 장애 내성
Spark 분산 — 처리량이 한계 도달 시
Delta Lake — 분석 레이어 분리 시

쇼핑몰 인프라 핵심 기술 정리

Elasticsearch

왜 사용하는가?

RDBMS는 일반적인 CRUD에는 강하지만 검색 엔진 역할에는 한계가 있다.

예를 들어:

LIKE '%맥북%'

같은 쿼리는 인덱스를 제대로 활용하지 못해 대규모 데이터에서 매우 느려진다.

특히 쇼핑몰에서는:

상품 10억 건 규모
한국어 형태소 분석
오타 보정
카테고리 + 가격 + 태그 조합 검색
검색어 적합도 순 정렬

등이 필요하기 때문에 Elasticsearch를 별도로 둔다.

Elasticsearch의 핵심 특징

1. 역색인(Inverted Index)

일반 DB:

문서 → 단어

Elasticsearch:

단어 → 문서

형태로 저장한다.

즉:

"맥북"이라는 단어가 들어간 문서 목록

을 미리 만들어두기 때문에 검색이 매우 빠르다.

2. 형태소 분석

한국어는 띄어쓰기·조사·어미 변화가 많다.

예:

노트북을
노트북이
노트북용

Elasticsearch는:

Nori
Mecab-ko

같은 분석기를 통해 단어를 분리하고 정규화할 수 있다.

3. Relevance Score

단순 포함 여부가 아니라:

검색어와 얼마나 관련 있는가

를 계산해 정렬한다.

예:

제목에 포함 → 점수 높음
설명에만 포함 → 점수 낮음

CDC (Change Data Capture)

문제:

상품 DB와 Elasticsearch 데이터를 어떻게 동기화할 것인가?

직접 애플리케이션 코드에서:

DB 저장
ES 저장

둘 다 처리하면 결합도가 커진다.

Debezium + Kafka 구조

MySQL binlog
    ↓
Debezium
    ↓
Kafka
    ↓
Elasticsearch

Debezium 역할

DB binlog를 읽어:

INSERT
UPDATE
DELETE

변경 이벤트를 추출한다.

즉:

DB 변경사항을 이벤트로 변환

하는 역할이다.

Kafka 역할

변경 이벤트를 버퍼링·전달한다.

장점:

대량 이벤트 처리 가능
Consumer 분리 가능
재처리 가능

Redis

Redis를 사용하는 이유

Redis는 메모리 기반 저장소이다.

특징:

매우 빠름
읽기 TPS 높음
단순 조회에 강함

쇼핑몰처럼:

조회량은 많고
데이터 변경은 상대적으로 적은

환경에 매우 적합하다.

Redis 캐시 전략

이 자료에서는:

모든 데이터를 동일하게 캐싱하지 않는다

는 점이 중요하다.

데이터 성격에 따라 전략을 다르게 가져간다.

1. 메인 페이지 상품

특징:

모든 사용자 동일 데이터
1시간마다 갱신

전략:

Write-Through
TTL 1시간

Write-Through

DB 업데이트 시:

Redis도 같이 갱신

즉:

데이터 생성 시 캐시도 함께 생성

하는 방식.

TTL(Time To Live)

캐시에 만료 시간을 둔다.

1시간 후 자동 삭제

이 자료에서는:

매시간 배치 실행
Redis 갱신
TTL 1시간

전략을 사용한다.

2. 카테고리 트리

특징:

거의 안 바뀜
변경 시 즉시 반영 필요

전략:

Read-Through
+ Explicit Invalidate

Read-Through

조회 시:

Redis 확인
없으면 DB 조회
Redis 저장

Explicit Invalidate

관리자가 카테고리를 수정하면:

캐시를 직접 삭제

한다.

즉 TTL만 믿지 않고:

변경 이벤트 기반으로 캐시 제거

전략을 사용한다.

3. 평점·리뷰 수

문제:

리뷰 작성마다 평균 계산

을 하면:

락 경합
DB 부하

문제가 생긴다.

해결 전략

30분 배치 집계
→ Redis 저장

즉:

실시간 정확성보다
안정성과 성능

을 우선한다.

메시지 큐(Message Queue)

왜 필요한가?

주문 API는 빠르게 응답해야 한다.

하지만:

이메일 발송
판매자 알림

은 느릴 수 있다.

이걸 동기로 처리하면:

응답 지연
타임아웃

이 발생한다.

비동기 처리 구조

주문 API
  ↓
Message Queue
  ↓
Worker

핵심 아이디어:

"일단 큐에 넣고 응답 먼저"

이다.

Queue의 장점

1. 트래픽 평탄화(Traffic Smoothing)

순간 TPS 급증을 큐가 흡수한다.

2. 시스템 분리

주문 시스템과 알림 시스템이 독립된다.

3. 재시도 가능

실패 메시지는:

재시도
DLQ(Dead Letter Queue)

로 관리 가능하다.

SQS vs RabbitMQ vs Kafka

SQS

특징:

AWS 관리형
운영 부담 적음
DLQ 기본 제공

이 자료에서는:

이메일
판매자 알림

같은 단순 비동기에 적합하다고 평가했다.

RabbitMQ

특징:

복잡한 라우팅 가능
낮은 지연시간

단점:

직접 운영 필요

Kafka

특징:

초고성능 이벤트 스트리밍
이벤트 재처리 가능
CDC와 매우 잘 맞음

하지만:

운영 복잡도 높음
단순 큐 용도로는 과함

이라는 특징이 있다.

Hot / Warm / Cold 아카이빙

핵심 아이디어

모든 데이터를 비싼 DB에 둘 필요는 없다.

대부분 오래된 데이터는 거의 조회되지 않는다.

계층 분리

HOT

최근 30일

RDS
빠른 조회
고비용

WARM

30일 ~ 2년

샤딩 DB
일부 인덱스 유지

COLD

2년 ~ 5년

S3 Parquet
Athena 조회

특징:

저비용
느린 조회 허용

[MicrosoftDataSchool] 85일차 - AzureVM에 Spark

Mon, 11 May 2026 03:39:35 GMT

사용하게되는 배경

데이터가 너무 커진 경우 → 배치 처리
sklearn으로는 학습이 안끝나 분산 ML이 필요한 경우 → ML 파이프라인
실시간(1분내)로 보고받고 싶은 경우 → 스트리밍

1. 배치처리

분산 처리

구분	단일 서버	분산 처리
구조	고사양 서버 1대 사용	여러 대의 서버를 묶어 처리
데이터 처리	메모리 부족 시 전체 데이터 적재 어려움	데이터를 여러 노드에 분산 저장
확장 방식	수직 확장 (CPU/메모리 증설)	수평 확장 (노드 추가)
장애 대응	서버 1대 장애 시 전체 중단 위험	일부 노드 장애 시 다른 노드가 대체
비용 구조	고사양 서버 비용 급증	일반 서버 여러 대로 비용 효율
재시작 비용	처음부터 다시 읽어야 함	캐시 및 분산 저장 활용 가능
예시	16코어 / 64GB 서버 1대로 100GB 처리	8코어 서버 10대로 데이터 분산 처리

Spark 아키텍처

Driver은 1개, Worker Node는 여러개. 작업이 끝나면 Worker Node는 자원을 반납

핵심 추상화

Pandas, DF, SQL

비교 항목	Pandas	Spark DataFrame	Spark SQL
실행 환경	단일 서버 메모리	여러 노드 분산	여러 노드 분산
처리 한계	수 GB	수십 ~ 수백 TB	수십 ~ 수백 TB
문법 친밀도	매우 높음 (Python)	Pandas와 유사	SQL 기반, 분석 친화
최적화	수동	자동 (Catalyst)	자동 (Catalyst)
대화형 분석	Jupyter 최적	Notebook 가능	BI 도구와 직접 연결

지연 실행(Lazy Evaluation)

Spark에서는 Transformation 연산을 수행한다고 해서 즉시 데이터 처리가 실행되지 않는다. filter(), select(), groupBy(), join(), orderBy() 와 같은 연산은 실제 계산을 수행하는 것이 아니라, 어떤 작업을 수행할지에 대한 실행 계획만 생성한다.

df = spark.read.parquet('orders/')
df2 = df.filter(df.amount > 100)
df3 = df2.groupBy('city').count()
df4 = df3.orderBy('count', desc=True)

이 과정에서는 실제로 데이터 파일을 읽거나 계산하지 않는다. Spark는 단지 “데이터를 읽고 → 필터링하고 → 그룹화하고 → 정렬한다” 라는 작업 흐름(DAG, Directed Acyclic Graph)만 내부적으로 구성한다.

즉, 위 코드는 실행 계획만 수립한 상태이며, 아직 클러스터 자원도 거의 사용하지 않는다.

실제 실행은 Action 연산이 호출되는 순간 발생한다.

df4.show(20)

show()가 실행되는 시점에 Spark는 지금까지 쌓아둔 Transformation 작업들을 하나의 최적화된 실행 계획으로 구성한 뒤 한 번에 수행한다. 이때 Spark 내부에서는 다음과 같은 작업이 실제로 실행된다.

데이터 읽기(read)
filter 수행
groupBy 집계
정렬(sort)
limit 처리

이처럼 Spark는 필요한 순간까지 실행을 미루었다가(Action 호출 시점) 최적화된 형태로 한 번에 처리하는데, 이를 지연 실행(Lazy Evaluation) 이라고 한다.

대표적인 Action 연산

show()
collect()
count()
first()
take()
foreach()
toPandas()
write.parquet()
write.format()

Spark UI 읽는 법

실습 순서

Parquet 읽고 스키마 확인

transactions.parquet 5M 행 읽기, printSchema(), describe()

집계와 groupBy

고객별 거래 횟수, 지역별 매출 합계 — DataFrame API와 SQL을 같은 결과로 비교

조인과 윈도우 함수

customers ⋈ transactions, 고객별 누적 매출 랭킹 — Window.partitionBy()

Spark UI 분석

방금 돌린 쿼리의 Job/Stage/Task 확인, 셔플 크기, 쿼리 플랜 읽기

자주 발생하는 문제

작은 파일 문제

Kafka 적재 결과를 그대로 Parquet으로 저장하면 수만 개의 작은 파일이 생깁니다. 다음 배치 작업의 메타데이터 로딩이 데이터 처리보다 오래 걸리는 사태가 발생합니다.

→ 해법: coalesce(N) 또는 OPTIMIZE/compaction

셔플(shuffle) 과다

groupBy, join, repartition은 네트워크로 데이터를 재분배합니다. 1TB 셔플 = 1TB 네트워크 트래픽 + 디스크 IO. 가장 비싼 연산입니다.

→ 해법: 셔플 전 filter로 데이터 줄이기, 적절한 partition 수

broadcast join을 안 쓸 때

작은 테이블(< 100MB)과 큰 테이블을 join할 때 broadcast hint를 안 주면 양쪽 모두 셔플됩니다.

→ 해법: broadcast(small_df) 명시 또는 spark.sql.autoBroadcastJoinThreshold 조정

ML 파이프라인

sklearn이 아닌 Spark MLlib를 쓰는 이유

안되는 순간이 온다.

PipelineModel

Transformer는 변환, Estimator는 학습. 둘을 합쳐서 PipelineModel

범주형 처리 - StringIndexer + OneHotEncoder

StringIndexer만 쓰면 서울=0, 부산=1, 대구=2가 되어 모델이 대구 > 서울이라고 잘못 학습

handelInvalid='keep'

학습에 없던 카테고리가 운영에서 들어와도 모델이 죽지 않도록 하는 옵션

모델 평가 지표

모델 저장과 로드

노트북에서 학습한 모델을 다른 곳에서 쓰는 방법

학습 환경 (노트북/GPU 클러스터)

# 학습 후 저장
pipeline = Pipeline(stages=[...])
model = pipeline.fit(trainDF)

# 디스크/스토리지에 저장
model.write().overwrite() \
  .save('s3://models/churn/v1')

# 또는 MLflow 레지스트리
mlflow.spark.log_model(model)

모든 Transformer + Estimator 상태 저장
학습한 인덱싱 사전, 가중치, 분기 규칙 모두
MLflow 사용시 버전 관리 자동

서빙 환경 (실시간 추론 클러스터)

# 운영 환경에서 로드
from pyspark.ml import PipelineModel

model = PipelineModel.load(
  's3://models/churn/v1'
)

# 새 데이터에 그대로 적용
predictions = model.transform(newCustomers)
predictions.select('id', 'prediction').show()

학습 코드의 전처리 그대로 재현됨
환경만 다르면 됨 — 코드는 동일
Part 3 스트리밍에서도 그대로 사용

실시간 스트리밍 - Kafka + Structured Streaming

배치 Batch

특징

데이터를 모아서 한 번에 처리
처리량 지연: 분~시간 단위
처리량이 크고 비용 효율적
데이터 경계가 명확 (시작/끝)

언제 쓰나

$\rightarrow$ 일배치 리포트, 월말 정산, ML 학습
$\rightarrow$ "어제까지의 데이터로 OK"인 경우
$\rightarrow$ DataFrame · spark.read.parquet()

스트리밍 Streaming

특징

데이터가 도착하는 즉시 처리
지연: 초~분 단위
24시간 무중단, 운영 부담 $\uparrow$
데이터 경계가 모호 (스트림은 끝이 없음)

언제 쓰나

$\rightarrow$ 실시간 추천, 이상 탐지, 알림
$\rightarrow$ "지금 막 일어난 일에 반응" 필요
$\rightarrow$ spark.readStream.format("kafka")

Lambda 아키텍처

배치의 정확성 + 스트리밍 즉시성

Kafka

분산 메시지 큐의 표준

필요한 이유

DB에 직접 쓰면 안되는 이유 제공해주신 이미지 속에 적힌 텍스트를 그대로 추출하여 정리해 드립니다.

1. 트래픽 흡수

Peak 시점 보호 광고 폭주, 이벤트로 초당 트래픽이 10배 뛰어도 Kafka가 흡수. Consumer는 자기 속도로 처리. $\rightarrow$ DB가 죽지 않음

2. 데이터 내구성

재처리 가능 메시지는 디스크에 저장 $\rightarrow$ Consumer 장애 시 처음부터 재처리. 일주일 전 데이터도 다시 읽기 가능. $\rightarrow$ 데이터 손실 없음

3. 다중 소비자

Pub/Sub 한 번 적재한 데이터를 Spark Streaming, 알림 시스템, 분석 DB가 각자 독립 소비. Producer는 누가 읽는지 몰라도 됨. $\rightarrow$ 소비자 추가 자유

4. 비동기 분리

느슨한 결합 Producer와 Consumer가 같은 시간에 살 필요 없음. Consumer가 잠시 죽어도 Producer는 계속 발행. $\rightarrow$ 시스템 독립성

Structured Streaming

실시간 스트림 = 무한히 자라는 테이블. 그 테이블에 대한 SQL은 짧은 주기로 다시 실행됩니다.

체크포인트와 멱등성

Checkpoint

Spark가 처리 상태를 디스크에 주기 저장

query = df.writeStream \
  .option(
    'checkpointLocation',
    's3://checkpoints/job1/'
  ) \
  .start()

저장되는 것

어디까지 처리했는가 (Kafka offset)
진행 중이던 집계 상태
메타데이터 로그
$\rightarrow$ 재시작 시 정확히 그 지점부터 이어서 처리*

멱등성 (Idempotency)

같은 메시지가 두 번 와도 결과 같게 만들기

왜 필요한가 Kafka는 "at-least-once" 보장. 장애 복구 시 같은 메시지가 두 번 처리될 수 있음.

멱등 적재 패턴

Primary Key 기반 upsert (MERGE)
Delta Lake MERGE INTO 활용
메시지 ID로 중복 제거

Checkpoint + 멱등 = effectively exactly-once

실습

Docker로 Kafka 띄우기 $\rightarrow$ Producer 만들기 $\rightarrow$ Topic 설계 $\rightarrow$ Partition 실험

Structured Streaming 첫 쿼리 $\rightarrow$ JSON 파싱 $\rightarrow$ 윈도우 집계 $\rightarrow$ trigger 비교

Part 2의 PipelineModel 로드 $\rightarrow$ 실시간 추론 $\rightarrow$ PostgreSQL 멱등 적재

프로듀서 강제 종료 $\rightarrow$ 체크포인트 복구 검증 $\rightarrow$ exactly-once 확인

환경 준비

azure portal에서 vm 생성
쉘에서 ssh로 접속
가상머신에 라이브러리 설치

APT (Advanced Package Tool): Debian/Ubuntu 계열 패키지 관리자. apt update로 패키지 목록 갱신, apt upgrade로 실제 업그레이드.
OpenJDK 17: 오라클 JDK의 오픈소스 구현. Spark 3.5.x는 Java 8/11/17 공식 지원.
JDK vs JRE: JDK = JRE + 컴파일러/디버거. 개발용은 JDK, 실행만 한다면 JRE. Spark도 PySpark 호출 시 내부적으로 JVM 실행이 필요하므로 JDK 권장.
PEP 668 (Externally Managed Environment): Ubuntu 23.04부터 시스템 Python에 pip install을 직접 막는 정책. 시스템 패키지(apt)와 pip 패키지 충돌로 인한 OS 손상 방지가 목적. 해결책은 venv 가상환경 사용 (권장) 또는 --break-system-packages 플래그 (비권장).
```
sudo apt update && sudo apt upgrade -y
sudo apt install -y openjdk-17-jdk
sudo apt install -y python3-pip python3-venv python3-full wget curl
python3 -m venv ~/sparkenv
source ~/sparkenv/bin/activate
```

Spark 설치

Apache Spark: 분산 데이터 처리 엔진. 메모리 기반 연산으로 Hadoop MapReduce 대비 빠름. SQL/스트리밍/ML/그래프 통합 API 제공.
Spark 3.5.8: 3.5 LTS 라인의 최신 maintenance 릴리스 (2027.11까지 보안 패치). Java 17 정식 지원.
Hadoop3 prebuilt: Spark는 Hadoop의 HDFS 클라이언트 라이브러리를 사용해 다양한 스토리지(S3, ADLS 등) 접근. bin-hadoop3 패키지는 Hadoop 3.x 라이브러리가 포함된 사전 빌드 버전 → 별도 빌드 불필요.
Standalone 모드: Spark 자체 클러스터 매니저. 본 핸즈온은 단일 노드에서 standalone(또는 local) 모드로 동작.
/opt: Linux 전통적으로 third-party 애플리케이션 설치 디렉터리. /usr/local도 가능하나 /opt가 더 격리적.

cd ~
wget https://dlcdn.apache.org/spark/spark-3.5.8/spark-3.5.8-bin-hadoop3.tgz

tar -xzf spark-3.5.8-bin-hadoop3.tgz
sudo mv spark-3.5.8-bin-hadoop3 /opt/spark
sudo chown -R azureuser:azureuser /opt/spark
rm spark-3.5.8-bin-hadoop3.tgz

📂 리눅스 주요 디렉토리 구조

1. /opt (Optional)

의미: 추가적인 독립 소프트웨어 패키지가 설치되는 곳입니다.
용도: 시스템 기본 패키지 관리자(apt)가 관리하지 않는, 외부 서드파티 애플리케이션(예: Google Chrome, 전용 데이터베이스, 특정 벤더의 도구 등)이 설치됩니다.
특징: 보통 한 프로그램이 하나의 하위 디렉토리에 모든 파일(bin, lib 등)을 통째로 가지고 있는 경우가 많습니다.

2. /var (Variable)

의미: 시스템 운영 중 내용이 시시각각 변하는 파일들이 저장되는 곳입니다.
용도: /var/log: 시스템 및 애플리케이션의 *로그 파일** (가장 자주 확인하게 되는 곳).
/var/lib: 데이터베이스나 패키지 상태 정보.
/var/spool: 메일이나 인쇄 대기열.

특징: 용량이 계속 늘어날 수 있는 데이터가 많아, 서버 구축 시 별도의 파티션으로 분리하기도 합니다.

3. /etc (Et cetera / Editable Text Configuration)

의미: 시스템 전체의 설정 파일(Configuration files)이 들어있는 곳입니다.
용도: 네트워크 설정, 사용자 비밀번호 파일, 설치된 프로그램의 설정값(.conf) 등이 위치합니다.
특징: 텍스트 파일로 되어 있어 관리자가 직접 수정할 수 있습니다.

4. /usr (Unix System Resources)

의미: 사용자가 실행하는 대부분의 프로그램과 읽기 전용 데이터가 들어있습니다.
용도: */usr/bin: 일반 사용자가 실행하는 실행 파일.
/usr/local: 사용자가 소스 코드로 직접 빌드해서 설치한 프로그램이 위치하는 곳 (/opt와 유사하지만 더 전통적인 방식).

폴더	주요 내용물	비유
/bin	기본적인 필수 실행 명령 (ls, cp, mv)	생존을 위한 필수 도구
/etc	시스템 설정 파일	기기 환경 설정 메뉴
/home	일반 사용자들의 개인 폴더	각자의 개인 사물함
/opt	서드파티 전용 소프트웨어	별도로 설치한 전문 장비
/root	최고 관리자(root) 전용 홈 폴더	관리자의 개인실
/tmp	임시 파일	쓰고 버리는 메모지
/var	로그, 캐시 등 가변 데이터	계속 기록되는 일기장/장부

Windows와 Linux 경로 비교

Windows 항목	Linux 경로	설명
C:\Windows	/boot, /lib, /bin	운영체제 핵심 파일들이 분산 저장됨
C:\Program Files	/usr/bin, /opt	프로그램 실행 파일 및 외부 설치 앱
C:\Users\Jay	/home/jay	사용자의 개인 파일, 설정, 바탕화면 등
C:\Windows\System32\config	/etc	시스템 전체 설정 (레지스트리 대신 텍스트 파일 사용)
AppData\Local\Temp	/tmp	임시 파일 저장소 (재부팅 시 보통 삭제됨)

환경변수 설정

nano ~/.bashrc

파일 맨 아래에 추가

# ===== Apache Spark =====
export JAVA_HOME=/usr/lib/jvm/java-17-openjdk-amd64
export SPARK_HOME=/opt/spark
export PYSPARK_PYTHON=python3

# Python venv 자동 활성화
source ~/sparkenv/bin/activate
# Python venv 활성화 후 path 추가
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

#적용
source ~/.bashrc

Spark Shell 실행

spark-shell --master "local[2]" --driver-memory 2g

PySpark

pyspark --master "local[2]" --driver-memory 2g

SparkPi

spark-submit \
  --master "local[2]" \
  --driver-memory 2g \
  --class org.apache.spark.examples.SparkPi \
  $SPARK_HOME/examples/jars/spark-examples_2.12-3.5.8.jar \
  100

jupyter lab 연동

Jupyter Lab: 노트북 기반 인터랙티브 개발 환경. 코드/마크다운/시각화를 셀 단위로 실행.
포트 8888: Jupyter Lab 기본 포트. Azure NSG에서 별도 허용 필요.
SSH 터널링 (권장): Jupyter 포트를 외부에 직접 노출하지 않고, SSH 채널을 통해 로컬 PC의 포트로 포워딩. 보안적으로 안전.

설치

pip install --upgrade pip
pip install jupyterlab pyspark==3.5.8 pandas matplotlib

참고: pyspark==3.5.8 은 /opt/spark 설치본과 별도로 Python에서 import 가능하도록 PyPI 패키지 설치. 두 버전이 일치해야 충돌 없음.

실행(8888 터널링)

jupyter lab --no-browser --ip=0.0.0.0 --port=8888

이후 token 부분 복사

새 로컬 쉘에서 실행

ssh -L 8888:localhost:8888 azureuser@

이후 http://localhost:8888/lab?token=<위에서_복사한_토큰> 접속

메모리 설정

spark.driver.memory: 드라이버 JVM 힙 크기. SparkContext가 사용. collect()로 큰 결과를 가져올 때 이 값이 부족하면 OOM.
spark.executor.memory: 익스큐터 JVM 힙 크기. 실제 task 실행 메모리. 단일 노드 local 모드에선 driver와 executor가 같은 JVM이라 driver memory만 의미 있음. standalone/YARN/K8s 클러스터에선 별개.
spark.driver.maxResultSize: collect() 결과 최대 크기. 기본 1g. 초과 시 abort.
JVM 오버헤드: 힙 크기 외에 메타스페이스, 코드 캐시, GC 등 추가 메모리 (보통 힙의 10~15%).
OS 점유: Ubuntu + 시스템 데몬 = 약 600MB~1GB.

cp $SPARK_HOME/conf/spark-defaults.conf.template $SPARK_HOME/conf/spark-defaults.conf
nano $SPARK_HOME/conf/spark-defaults.conf

밑에 추가

spark.driver.memory              3g
spark.driver.maxResultSize       1g
spark.sql.shuffle.partitions     4

데이터 정제와 머신러닝

합성 데이터 생성: Faker + Spark로 현실적인 더티 데이터 만들기 EDA & 정제: 결측/중복/이상치/일관성 문제를 PySpark로 처리 피처 엔지니어링: 두 테이블 join, 집계, 타겟 변수 생성 분류 ML: Pipeline API로 고객 이탈 예측 모델 구축 및 평가 회귀 ML (보너스): 거래액 예측 모델

Faker: Python의 가짜 데이터 생성 라이브러리. 이름·주소·이메일·날짜 등 현실적인 더미 데이터 생성. 학습/테스트용 데이터 제작에 표준.
합성 데이터 (Synthetic Data): 실제 데이터를 모방해 생성한 인공 데이터. 개인정보 우려 없이 ML 학습/테스트 가능.
Parquet: 컬럼 지향(Columnar) 압축 포맷. CSV 대비 1) 압축률 5~10배, 2) 스키마 보존, 3) 컬럼 단위 읽기 가능 → Spark 표준 포맷.
dirty data 주입: 학습용 데이터에 의도적으로 결측·중복·이상치를 섞는 기법. 정제 실습에 필수.

추가 라이브러리 설치

source ~/sparkenv/bin/activate
pip install faker

합성데이터 생성

SparkSession.createDataFrame(): Python 리스트/Pandas DataFrame을 Spark DataFrame으로 변환. driver 메모리 사용하므로 대용량은 부적합.
schema 명시: StructType으로 스키마 명시 → 자동 추론보다 빠르고 정확.
Spark 데이터 타입: IntegerType, LongType, StringType, TimestampType, DoubleType, BooleanType 등.
결측 표현: Spark는 None (Python) → null (Spark)로 변환. NumPy의 NaN과 다름 주의.
.write.mode("overwrite").parquet(): 기존 디렉터리 덮어쓰기. mode("append")는 추가, mode("error")는 기본값.

SparkSession 생성

데이터 생성

경고가 뜬다면, 이유:

Spark는 driver의 데이터를 task로 보낼 때 직렬화해서 워커에 전송
50,000개 transaction을 Python 리스트로 만들어 createDataFrame에 넘기면 driver가 통째로 직렬화

그 직렬화 페이로드가 1131 KiB > Spark 권장값 1000 KiB 큰 문제 아니나 해결하려면, partition을 명시적으로 나눠서 만들면 됩니다:

# 기존 방식 (driver가 한 덩어리로 전송)
transactions_df = spark.createDataFrame(transactions_data, schema=transactions_schema)

# 개선 방식 (4개 partition으로 분할 전송)
transactions_rdd = spark.sparkContext.parallelize(transactions_data, numSlices=4)
transactions_df = spark.createDataFrame(transactions_rdd, schema=transactions_schema)

numSlices=4로 데이터를 4등분해서 보내므로 각 task ~283 KiB로 줄어듭니다.

parquet로 저장

데이터 탐색 (EDA)

EDA (Exploratory Data Analysis): 모델링 전 데이터의 특성/품질을 파악하는 단계. 통계 요약, 분포, 결측 패턴, 상관관계 등.
describe() vs summary(): 둘 다 통계 요약. summary()가 더 풍부 (count, mean, stddev, min, percentiles, max).
dtypes / printSchema(): 컬럼 타입 확인. 정제 전 반드시 검토.
PySpark → Pandas 변환 주의: .toPandas()는 driver 메모리에 전체를 수집(collect). 큰 데이터에선 OOM 위험. 시각화 직전 작은 집계 후 변환할 것.

데이터 정제

결측치 처리 전략: 1) 행 제거(dropna), 2) 평균/중앙값 대체(fillna), 3) 그룹별 대체, 4) 별도 카테고리("UNKNOWN") 부여. 어느 것이 좋은지는 도메인과 결측 비율에 따름.
when().otherwise(): SQL의 CASE WHEN. 조건부 값 변환에 사용.
F.trim(), F.upper(), F.lower(): 문자열 정규화 함수.
이상치 처리: 1) 제거(필터), 2) winsorize(상하한 자르기), 3) 변환(log). 도메인 지식이 핵심.
dropDuplicates(): 모든 컬럼 또는 지정 컬럼 기준 중복 제거. 첫 번째 row를 유지.

피처 엔지니어링

피처 엔지니어링 (Feature Engineering): 원시 데이터에서 모델 학습에 유용한 변수를 만드는 과정. ML 성능의 70~80%는 피처에서 결정된다는 격언도 있음.
RFM 분석:
- Recency: 마지막 거래 후 경과일 → 작을수록 활성
- Frequency: 거래 횟수 → 클수록 충성
- Monetary: 총 거래액 → 클수록 가치 높음. 고객 세분화·이탈 예측의 고전적 피처
Window Function: 행 간 관계 연산. 누적합, 순위, 이전 값 참조 등.
groupBy().agg(): SQL의 GROUP BY + 집계함수. F.sum, F.avg, F.count, F.countDistinct, F.max, F.min 등.
타겟 변수 (Label): 지도학습에서 예측할 값. 본 시나리오에서는 "최근 30일 비활동 = 이탈"로 정의.

정제 데이터 로드

거래 데이터 집계

추가 피처: 카테고리 선호

고객 정보와 join

타겟 변수: 이탈 정의

최종 피처셋 저장

머신러닝: 이탈 예측 (분류)

Spark MLlib: Spark의 분산 ML 라이브러리. 두 API 존재: pyspark.ml (DataFrame 기반, 현재 권장) pyspark.mllib (RDD 기반, 유지보수만 됨)
Pipeline: 전처리 + 모델을 단일 객체로 묶음. 학습/예측 시 동일 변환 보장 → 데이터 누수 방지.
StringIndexer: 범주형 문자열을 정수 인덱스로 변환. [“KR”,”US”,”KR”] → [0.0, 1.0, 0.0].
OneHotEncoder: 인덱스를 희소 벡터로. 0 → [1,0,0], 1 → [0,1,0]. 트리 모델은 불필요하나 선형 모델엔 필수.
VectorAssembler: 여러 피처 컬럼을 하나의 vector 컬럼으로 결합. ML 알고리즘 입력 표준 형식.
LogisticRegression: 이진 분류의 베이스라인 모델. 확률 출력, 해석 용이.
train/test split: randomSplit([0.8, 0.2])로 학습 80% / 평가 20% 분리.
평가 지표:
- `Accuracy : 전체 정답률. 클래스 불균형 시 오해 소지.
- AUC (ROC): 임계값 무관 분류 성능. 0.5=무작위, 1.0=완벽, 0.7+=쓸만함.
- Confusion Matrix: TP/FP/TN/FN 행렬.
- Precision/Recall/F1: 클래스별 세부 성능.

피처 로드 및 분할

Pipeline 구성

학습

평가

Confusion Matrix

피처 중요도 (계수)

모델 저장 및 로드

실시간 데이터 파이프라인 — Kafka + PostgreSQL + Spark Structured Streaming + 배치 ML 추론

PostgreSQL 16을 같은 VM에 설치·운영 (Spark·Kafka와 8GB 안에서 공존)

Kafka 3.x 단일 노드를 KRaft 모드로 설치 (ZooKeeper 없이)

Python 프로듀서로 가짜 거래 이벤트를 Kafka 토픽에 발행

Spark Structured Streaming으로 Kafka 토픽 구독·정제·PostgreSQL 적재

PostgreSQL 데이터를 PySpark로 다시 읽어 분석·조회

Part 2의 학습된 ML 모델을 운영 DB의 신규 데이터에 적용 (배치 추론)

systemd + cron으로 파이프라인 자동화·운영

SQL·Kafka CLI·Spark UI로 파이프라인 모니터링

[MicrosoftDataSchool] 84일차 - Azure DataWarehouse

Fri, 08 May 2026 01:46:46 GMT

Azure Data Warehouse

데이터 웨어하우스(DW)란

데이터 웨어하우스(Data Warehouse)는 운영 시스템에 분산된 데이터를 분석 목적에 최적화된 형태로 통합·정제·보관하는 저장소이다.

Bill Inmon은 데이터 웨어하우스를 다음 네 가지 특성으로 정의했다.

특성	의미	OLTP와의 차이
주제 지향(Subject-Oriented)	거래 단위가 아니라 고객, 상품, 이용 같은 분석 주제 중심으로 구성	OLTP는 트랜잭션 중심
통합(Integrated)	여러 시스템의 코드·단위·정의를 표준화	시스템별 자체 코드 사용
시간 가변(Time-Variant)	과거 시점 데이터와 이력을 유지	OLTP는 현재값 중심
비휘발성(Non-Volatile)	적재 후 수정·삭제보다 추가 중심	OLTP는 UPDATE/DELETE 빈번

OLTP가 “현재 거래를 빠르고 정확하게 처리”하는 시스템이라면, DW는 “장기간 데이터를 누적해 패턴과 추세를 분석”하는 시스템이다.

따라서:

스키마 설계
인덱스 전략
저장 구조
하드웨어 구성
튜닝 방식

모두 OLTP와 다르게 접근해야 한다.

OLTP vs OLAP 워크로드 비교

관점	OLTP	OLAP / DW
주 사용자	거래 시스템(POS, 예약, 결제)	분석가, BI, 경영진
쿼리 특성	단건 조회·갱신	대규모 집계·스캔
인덱스 전략	B-Tree 중심	Columnstore 중심
스키마	정규화(3NF)	스타/스노우플레이크
데이터 신선도	초·밀리초	분·시간·일 단위
동시성	짧은 트랜잭션 다수	긴 분석 쿼리 소수
저장 방식	Row Store 중심	Column Store 권장

차원 모델링(Dimensional Modeling)

차원 모델링은 Ralph Kimball이 정립한 DW 설계 방식이다.

핵심 목표는:

“사용자가 어떤 측정값을 어떤 관점에서 보고 싶어하는가?”

를 직관적으로 표현하는 것이다.

팩트(Fact)와 디멘션(Dimension)

테이블 종류	역할	따릉이 예시
팩트(Fact)	측정값 저장. 행 수가 매우 많음	FactRental
디멘션(Dimension)	분석 관점 제공	DimStation, DimDate
브릿지/팩트리스 팩트	다대다 관계 표현	본 과정 미사용

FactRental 예시

대여 1건 = 1행
이용 시간
이동 거리
탄소 절감량

등 숫자형 측정값 중심.

디멘션 예시

언제?
어디서?
누가?
어떤 유형?

같은 분석 관점을 제공한다.

스타 스키마 vs 스노우플레이크

스타 스키마

팩트를 중심에 두고 디멘션이 한 단계로 연결되는 구조.

           DimDate
               |
DimUserType - FactRental - DimStation(대여)
               |
          DimStation(반납)
               |
            DimTime

특징:

조인 단순
BI 도구 친화적
분석 성능 우수
가장 일반적

스노우플레이크

디멘션 내부를 다시 정규화한 구조.

예:

DimStation
- DimDistrict
  - DimCity

장점:

저장 공간 절약
정규화 수준 높음

단점:

조인 증가
분석 성능 저하
BI 가독성 저하

실무에서는:

스타 스키마를 기본으로 하고, 디멘션 규모가 매우 클 때만 부분 스노우플레이크를 적용한다.

SCD(Slowly Changing Dimension)

디멘션 데이터는 시간이 지나며 변경된다.

예:

대여소 이름 변경
자치구 변경
거치대 수 변경

이런 변경 이력을 어떻게 관리할지 정의하는 것이 SCD 전략이다.

SCD Type 비교

타입	동작	특징	본 과정 사용
Type 0	변경 금지	단순	DimDate
Type 1	현재값 덮어쓰기	이력 없음	코드 정정
Type 2	행 추가 + 이력 유지	가장 중요	DimStation
Type 3	이전값 컬럼 유지	1단계 이력만	미사용
Type 6	Hybrid	복잡	미사용

SCD Type 2

Type 2는 기존 행을 수정하지 않고 새로운 행을 추가한다.

주요 컬럼:

컬럼	역할
EffectiveStart	시작 시점
EffectiveEnd	종료 시점
IsCurrent	현재 유효 여부

예:

StationId	RackCount	EffectiveStart	EffectiveEnd	IsCurrent
ST-001	10	2025-01-01	2025-09-01	0
ST-001	15	2025-09-01	NULL	1

이 방식으로:

과거 상태 유지
시점 분석 가능
히스토리 추적 가능

해진다.

Lamda Kappa

항목	Lambda	Kappa
처리 방식	Batch + Stream	Stream Only
실시간성	좋음	매우 좋음
정확성	매우 높음	높음
구조 복잡도	높음	낮음
개발 난이도	높음	상대적으로 쉬움
재처리 방식	Batch 재계산	Kafka replay
대표 기술	Hadoop + Spark	Kafka + Flink

Azure 기준 예시

Lambda Architecture

Event Hub
 ├─ Azure Stream Analytics → 실시간 대시보드
 └─ Databricks Batch → 정산/통계

사용자 구조랑 비슷하게 보면: KMA/AirKorea → Azure Function → Event Hub → ASA (실시간) → PostgreSQL

Databricks 배치 분석

Kappa Architecture

Kafka/Event Hub
→ Flink/ASA
→ PostgreSQL/Power BI

배치 없이:

스트림만 계속 처리
필요 시 이벤트 재생(replay)

Azure DW 선택지

Azure에서 DW를 구축할 때는 다양한 선택지가 존재한다.

Azure SQL Database — Serverless

특징

자동 일시 중지
사용량 기반 과금
자동 스케일
운영 부담 최소

장점

개발/교육 환경 비용 절감
유휴 시간 과금 최소화
PaaS 기반 자동 운영

단점

콜드 스타트 발생
vCore 상한 존재

본 과정 메인 플랫폼

Azure SQL Database — Provisioned

특징

상시 가동
일정한 응답 성능
Hyperscale 가능

장점

안정적 응답 시간
대규모 운영 적합

단점

유휴 시간도 비용 발생

Azure SQL Managed Instance

특징

SQL Server와 거의 동일
SQL Agent 지원
크로스 DB 쿼리 가능

장점

기존 SQL Server 이전 용이
높은 호환성

단점

비용 높음
프로비저닝 느림

Azure SQL on VM

특징

IaaS 기반
OS 직접 관리
SQL Server 전체 기능 사용 가능

장점

FCI
Replication
Linked Server
CLR

등 전체 기능 사용 가능.

단점

패치 책임 직접 부담
백업/HA 직접 구성

Microsoft Fabric Warehouse

특징

SaaS 기반
OneLake 통합
Power BI 친화적

장점

데이터·BI 통합 우수

단점

Capacity 기반 과금
기능 변화가 빠름

의사결정 매트릭스

조건	추천
SQL Server 전체 기능 필요	SQL on VM
온프레미스 거의 그대로 이전	Managed Instance
비용 최적 + 간헐적 사용	SQL DB Serverless
일정한 응답 성능 필요	Provisioned
Power BI 중심 SaaS 환경	Fabric

Azure SQL DB Serverless 동작 원리

Serverless는 사용한 만큼만 과금되는 컴퓨트 모델이다.

핵심 기능은 다음 세 가지다.

자동 일시 중지(Auto Pause)

일정 시간 동안 쿼리나 연결이 없으면:

컴퓨트 제거
과금 중단

스토리지 비용만 유지된다.

교육/개발 환경에서 매우 유리하다.

자동 재개(Auto Resume)

새 연결이 들어오면:

자동으로 DB 재개
약 30~60초 콜드 스타트 가능

운영 환경에서는:

재시도 로직
Keep-alive
워밍 전략

등이 필요하다.

자동 스케일(Auto Scale)

최소·최대 vCore 범위를 설정하면:

부하에 따라 자동 확장
메모리도 함께 증가

한다.

Storage → DW 적재 패턴

DW 적재에서 가장 일반적인 패턴은:

CSV → Storage Account → DW

이다.

본 과정에서는 두 가지 표준 패턴을 사용한다.

BULK INSERT

외부 CSV 파일을 대량 적재하는 전통적 방식.

특징

매우 빠름
대량 적재 최적화
staging 적재에 적합

흐름

MASTER KEY 생성
DATABASE SCOPED CREDENTIAL 생성
EXTERNAL DATA SOURCE 생성
BULK INSERT 수행

OPENROWSET(BULK)

외부 파일을 가상 테이블처럼 SELECT 하는 방식.

INSERT INTO staging.RentalRaw (rental_id, station_id, started_at, ended_at, duration_min)
SELECT
    JSON_VALUE(c.line, '$.rental_id'),
    CAST(c.station_id AS INT),
    TRY_CONVERT(datetime2, c.started_at),
    TRY_CONVERT(datetime2, c.ended_at),
    c.duration_min
FROM OPENROWSET(
       BULK '2024/2024-01-rental.csv',
       DATA_SOURCE = 'BlobDS',
       FORMAT = 'CSV',
       FIRSTROW = 2,
       FIELDTERMINATOR = ','
     ) WITH (
       rental_id     varchar(40),
       station_id    varchar(20),
       started_at    varchar(30),
       ended_at      varchar(30),
       duration_min  int
     ) AS c
WHERE TRY_CONVERT(datetime2, c.started_at) IS NOT NULL;

특징

변환 자유도 높음
INSERT ... SELECT 가능
TRY_CONVERT 활용 가능

장점

적재 중 정제 가능
필터링 가능
데이터 품질 방어 쉬움

BULK INSERT vs OPENROWSET 비교

항목	BULK INSERT	OPENROWSET
속도	매우 빠름	상대적으로 느림
변환	낮음	높음
에러 처리	제한적	TRY_CONVERT 가능
권장 용도	staging 적재	정제·변환 적재

책임 기준 분리

레이어	스키마	책임	예시 객체
Raw	Storage `raw/`	원본 보관, 변환·삭제 금지	2024/2024-01-rental.csv
Staging (DB)	`staging`	원형 그대로 적재된 1차 테이블, 클렌징·중복 제거 단계	staging.RentalRaw
Warehouse (DB)	`dw`	스타 스키마, 팩트·디멘션 정규 모델	dw.FactRental, dw.DimStation
Mart (DB)	`mart`	분석 사용자용 비정규 집계, 뷰·성능 최우선	mart.vw_HourlyDemand

이벤트 기반 적재 패턴

배치 적재 이후 단계는 자동화이다.

Azure에서는:

Event Grid
Azure Functions
Logic Apps

를 조합한다.

Azure Functions

특징

코드 기반
Python/C#/JS 지원
유연성 높음

적합한 경우

즉시 처리
복잡한 로직
실시간 이벤트

Azure Logic Apps

특징

GUI 기반
노코드 워크플로우
다양한 SaaS 연결

적합한 경우

스케줄 기반 ETL
알림
오케스트레이션

Event Grid

역할

Azure 전체 이벤트 라우팅 백본.

예:

Blob 업로드
  ↓
Event Grid
  ↓
Function App
  ↓
Stored Procedure 실행

이벤트 기반 적재 구조

CSV Upload
    ↓
Blob Storage
    ↓ BlobCreated Event
Event Grid
    ↓
Function App
    ↓
EXEC sp_LoadFactFromBlob
    ↓
Azure SQL Database

이 구조의 핵심은:

“Storage가 진실의 원본(Source of Truth)”

이라는 점이다.

배치 vs 이벤트 적재 선택 기준

상황	권장 방식
하루 1회 대량 적재	배치
실시간 데이터 도착	이벤트
대량 + 실시간 혼합	하이브리드

실무에서는:

야간 대량 적재 = 배치
실시간 보정 = 이벤트

조합이 가장 흔하다.

전체 아키텍처

이번 실습의 전체 구조는 다음과 같다.

서울시 따릉이 CSV
        ↓
Azure Storage Account
(raw / staging / archive)
        ↓
BULK INSERT / OPENROWSET
        ↓
Azure SQL Database Serverless
(staging / dw / mart)
        ↓
분석 쿼리 / Power BI

추가 자동화:
BlobCreated Event
        ↓
Event Grid
        ↓
Azure Function
        ↓
Stored Procedure 실행
        ↓
DW 자동 적재

핵심은 Storage Account를 원본 데이터 저장소로 두고, Azure SQL Database Serverless를 분석용 DW로 사용하는 것이다.

Lab 01 — Azure SQL Database Serverless 생성

리소스 그룹과 SQL Server 생성

먼저 실습에서 사용할 변수들을 정의한다.

RG=rg-dwlab-$USER
LOC=koreacentral
SQL_SRV=sql-dwlab-$USER-$RANDOM
SQL_DB=dw_seoulbike
ADMIN_USER=dwadmin
ADMIN_PASS='Dw!Lab2026Secure'

리소스 그룹과 SQL Server를 생성한다.

az group create -n $RG -l $LOC

az sql server create \
  --name $SQL_SRV \
  --resource-group $RG \
  --location $LOC \
  --admin-user $ADMIN_USER \
  --admin-password $ADMIN_PASS

현재 접속 IP를 방화벽에 등록한다.

MY_IP=$(curl -s https://api.ipify.org)

az sql server firewall-rule create \
  --resource-group $RG \
  --server $SQL_SRV \
  --name allow-me \
  --start-ip-address $MY_IP \
  --end-ip-address $MY_IP

Serverless DB 생성

az sql db create \
  --resource-group $RG \
  --server $SQL_SRV \
  --name $SQL_DB \
  --edition GeneralPurpose \
  --family Gen5 \
  --compute-model Serverless \
  --min-capacity 0.5 \
  --capacity 2 \
  --auto-pause-delay 60 \
  --backup-storage-redundancy Local \
  --collation Korean_Wansung_CI_AS

주요 옵션은 다음과 같다.

옵션	의미
`--compute-model Serverless`	Serverless 계층 사용
`--min-capacity 0.5`	최소 0.5 vCore
`--capacity 2`	최대 2 vCore
`--auto-pause-delay 60`	60분 미사용 시 자동 일시 중지
`--backup-storage-redundancy Local`	교육용 비용 절감

접속 확인:

sqlcmd -S $SQL_SRV.database.windows.net \
  -d $SQL_DB \
  -U $ADMIN_USER \
  -P "$ADMIN_PASS" \
  -Q "SELECT @@VERSION;"

Lab 02 — Serverless 동작 확인

Auto Pause 시간 변경

교육 환경에서는 자동 일시 중지를 빠르게 확인하기 위해 15분으로 변경한다.

az sql db update \
  -g $RG \
  -s $SQL_SRV \
  -n $SQL_DB \
  --auto-pause-delay 15

리소스 사용량 확인

SQL Database에서 다음 DMV를 조회해 CPU, 메모리, IO 사용률을 확인한다.

SELECT TOP 5
    avg_cpu_percent,
    avg_memory_usage_percent,
    avg_data_io_percent,
    end_time
FROM sys.dm_db_resource_stats
ORDER BY end_time DESC;

확인할 내용은 다음과 같다.

항목	확인 내용
Auto Pause	일정 시간 미사용 시 DB가 Paused 상태가 되는지
Auto Resume	다시 접속했을 때 자동으로 Online 상태가 되는지
Cold Start	첫 연결까지 30~120초 정도 지연되는지

운영 환경에서는 Cold Start가 사용자 경험에 영향을 줄 수 있으므로, 재시도 로직이나 Keep-alive 전략을 고려해야 한다.

Lab 03 — Storage Account 생성 및 데이터 업로드

Storage Account 생성

STO_ACC=stodwlab$USER$RANDOM

az storage account create \
  -g $RG \
  -n $STO_ACC \
  -l $LOC \
  --sku Standard_LRS \
  --kind StorageV2 \
  --access-tier Hot \
  --allow-blob-public-access false \
  --min-tls-version TLS1_2

Storage Key를 가져온다.

STO_KEY=$(az storage account keys list \
  -g $RG \
  -n $STO_ACC \
  --query [0].value \
  -o tsv)

컨테이너 3개를 생성한다.

for c in raw staging archive; do
  az storage container create \
    --name $c \
    --account-name $STO_ACC \
    --account-key $STO_KEY
done

컨테이너	역할
`raw`	원본 CSV 보관
`staging`	정제 중간 결과
`archive`	적재 완료 파일 보관

따릉이 샘플 데이터 업로드

생성된 샘플 CSV 파일을 raw/seoul_bike/ 경로에 업로드한다.

az storage blob upload-batch \
  --account-name "$STO_ACC" \
  --account-key $STO_KEY \
  --destination raw \
  --destination-path seoul_bike/ \
  --source ./seoul_bike_data \
  --pattern "*.csv" \
  --overwrite

업로드 확인:

az storage blob list \
  --account-name "$STO_ACC" \
  --account-key $STO_KEY \
  --container-name raw \
  --prefix "seoul_bike/" \
  --query "[].{name:name, size:properties.contentLength}" \
  -o table

SAS 토큰 생성

Azure SQL Database에서 Blob을 읽기 위해 SAS 토큰을 생성한다.

EXPIRY=$(date -u -d "+7 days" '+%Y-%m-%dT%H:%MZ')

SAS=$(az storage container generate-sas \
  --account-name $STO_ACC \
  --name raw \
  --permissions rl \
  --expiry $EXPIRY \
  --https-only \
  --output tsv)

echo $SAS

SAS는 비밀번호와 같은 민감 정보이므로 외부에 노출되지 않도록 관리해야 한다.

Lab 04 — 스타 스키마 생성

스키마 생성

CREATE SCHEMA staging AUTHORIZATION dbo;
GO
CREATE SCHEMA dw AUTHORIZATION dbo;
GO
CREATE SCHEMA mart AUTHORIZATION dbo;
GO

디멘션 테이블 생성

CREATE TABLE dw.DimDate (
  DateKey       INT          NOT NULL PRIMARY KEY,
  [Date]        DATE         NOT NULL,
  [Year]        SMALLINT     NOT NULL,
  Quarter       TINYINT      NOT NULL,
  [Month]       TINYINT      NOT NULL,
  MonthName     NVARCHAR(10) NOT NULL,
  [Day]         TINYINT      NOT NULL,
  DayOfWeek     TINYINT      NOT NULL,
  DayName       NVARCHAR(10) NOT NULL,
  IsWeekend     BIT          NOT NULL,
  IsHoliday     BIT          NOT NULL DEFAULT 0
);

CREATE TABLE dw.DimTime (
  TimeKey       INT          NOT NULL PRIMARY KEY,
  [Hour]        TINYINT      NOT NULL,
  [Minute]      TINYINT      NOT NULL,
  TimeBucket    NVARCHAR(10) NOT NULL
);

CREATE TABLE dw.DimUserType (
  UserTypeKey   INT IDENTITY PRIMARY KEY,
  UserTypeCode  VARCHAR(20)  NOT NULL UNIQUE,
  UserTypeName  NVARCHAR(40) NOT NULL
);

팩트 테이블 생성

CREATE TABLE dw.FactRental (
  RentalKey       BIGINT IDENTITY,
  RentalId        VARCHAR(40)  NOT NULL,
  StartDateKey    INT          NOT NULL,
  StartTimeKey    INT          NOT NULL,
  EndDateKey      INT          NULL,
  EndTimeKey      INT          NULL,
  StartStationKey BIGINT       NULL,
  EndStationKey   BIGINT       NULL,
  UserTypeKey     INT          NULL,
  DurationMin     INT          NULL,
  DistanceMeter   INT          NULL,
  CarbonGramSaved DECIMAL(10,2) NULL,
  LoadedAt        DATETIME2    NOT NULL DEFAULT SYSUTCDATETIME(),
  SourceFile      VARCHAR(256) NULL,
  CONSTRAINT PK_FactRental PRIMARY KEY NONCLUSTERED (RentalKey)
);

CREATE CLUSTERED COLUMNSTORE INDEX CCI_FactRental
ON dw.FactRental;

CREATE UNIQUE INDEX UX_FactRental_RentalId
ON dw.FactRental(RentalId);

FactRental은 대량 집계가 주 목적이므로 Clustered Columnstore Index를 적용한다.

DimDate / DimTime 사전 적재

WITH d AS (
  SELECT CAST('2015-01-01' AS DATE) AS dt
  UNION ALL
  SELECT DATEADD(DAY, 1, dt)
  FROM d
  WHERE dt < '2030-12-31'
)
INSERT dw.DimDate (
  DateKey, [Date], [Year], Quarter, [Month], MonthName,
  [Day], DayOfWeek, DayName, IsWeekend
)
SELECT
  CONVERT(INT, FORMAT(dt,'yyyyMMdd')),
  dt,
  YEAR(dt),
  DATEPART(QUARTER, dt),
  MONTH(dt),
  DATENAME(MONTH, dt),
  DAY(dt),
  DATEPART(WEEKDAY, dt),
  DATENAME(WEEKDAY, dt),
  CASE WHEN DATEPART(WEEKDAY, dt) IN (1,7) THEN 1 ELSE 0 END
FROM d
OPTION (MAXRECURSION 0);

WITH m AS (
  SELECT 0 AS n
  UNION ALL
  SELECT n + 1
  FROM m
  WHERE n < 1439
)
INSERT dw.DimTime (TimeKey, [Hour], [Minute], TimeBucket)
SELECT
  (n / 60) * 100 + (n % 60),
  n / 60,
  n % 60,
  CASE
    WHEN n/60 BETWEEN 0  AND 5  THEN N'심야'
    WHEN n/60 BETWEEN 6  AND 11 THEN N'오전'
    WHEN n/60 BETWEEN 12 AND 17 THEN N'오후'
    WHEN n/60 BETWEEN 18 AND 22 THEN N'저녁'
    ELSE N'심야'
  END
FROM m
OPTION (MAXRECURSION 0);

사용자 유형도 기본 적재한다.

INSERT dw.DimUserType (UserTypeCode, UserTypeName) VALUES
  ('MEMBER',     N'정기권 회원'),
  ('NONMEMBER',  N'일일권 비회원'),
  ('UNKNOWN',    N'미상');

검증 기준:

테이블	기대값
`dw.DimDate`	5,844행
`dw.DimTime`	1,440행
`dw.DimUserType`	3행
`dw.FactRental`	빈 상태

Lab 05 — BULK INSERT로 첫 적재

Blob 접근 객체 생성

SQL Database에서 Blob Storage에 접근하기 위한 3종 객체를 만든다.

IF NOT EXISTS (
  SELECT 1
  FROM sys.symmetric_keys
  WHERE name = '##MS_DatabaseMasterKey##'
)
  CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'Lab!MasterKey2026';

CREATE DATABASE SCOPED CREDENTIAL StorageCred
  WITH IDENTITY = 'SHARED ACCESS SIGNATURE',
       SECRET   = '';

CREATE EXTERNAL DATA SOURCE BlobRaw
  WITH (
    TYPE       = BLOB_STORAGE,
    LOCATION   = 'https://.blob.core.windows.net/raw',
    CREDENTIAL = StorageCred
  );

에는 앞의 ?를 제외한 SAS 본문만 넣는다.

Staging 테이블 생성

DROP TABLE IF EXISTS staging.RentalRaw;

CREATE TABLE staging.RentalRaw (
  RentalId        VARCHAR(20)  NOT NULL,
  BikeId          VARCHAR(20)  NOT NULL,
  StartTime       DATETIME2(0) NOT NULL,
  EndTime         DATETIME2(0) NOT NULL,
  StartStationId  VARCHAR(20)  NOT NULL,
  EndStationId    VARCHAR(20)  NOT NULL,
  DurationMin     INT          NOT NULL,
  DistanceMeter   INT          NOT NULL,
  UserType        VARCHAR(20)  NOT NULL
);

CSV 파일 BULK INSERT

TRUNCATE TABLE staging.RentalRaw;

DECLARE @i INT = 1, @sql NVARCHAR(MAX);

WHILE @i <= 7
BEGIN
  SET @sql = N'
    BULK INSERT staging.RentalRaw
    FROM ''seoul_bike/rentals_2025090' + CAST(@i AS VARCHAR(1)) + '.csv''
    WITH (
      DATA_SOURCE     = ''BlobRaw'',
      FORMAT          = ''CSV'',
      FIRSTROW        = 2,
      FIELDTERMINATOR = '','',
      ROWTERMINATOR   = ''0x0d0a'',
      CODEPAGE        = ''65001'',
      TABLOCK,
      MAXERRORS       = 100
    );';

  EXEC sp_executesql @sql;
  SET @i += 1;
END

검증:

SELECT COUNT(*) AS staging_rows
FROM staging.RentalRaw;

기대값은 21,600행이다.

staging → FactRental 변환 적재

TRUNCATE TABLE dw.FactRental;

INSERT INTO dw.FactRental (
  RentalId, StartDateKey, StartTimeKey, EndDateKey, EndTimeKey,
  StartStationKey, EndStationKey, UserTypeKey,
  DurationMin, DistanceMeter, CarbonGramSaved,
  LoadedAt, SourceFile
)
SELECT
  s.RentalId,
  CONVERT(INT, CONVERT(VARCHAR(8), s.StartTime, 112)) AS StartDateKey,
  DATEPART(HOUR, s.StartTime) * 60 + DATEPART(MINUTE, s.StartTime) AS StartTimeKey,
  CONVERT(INT, CONVERT(VARCHAR(8), s.EndTime, 112)) AS EndDateKey,
  DATEPART(HOUR, s.EndTime) * 60 + DATEPART(MINUTE, s.EndTime) AS EndTimeKey,
  CAST(NULL AS BIGINT) AS StartStationKey,
  CAST(NULL AS BIGINT) AS EndStationKey,
  COALESCE(ut.UserTypeKey, ut_unk.UserTypeKey) AS UserTypeKey,
  s.DurationMin,
  s.DistanceMeter,
  CAST(s.DistanceMeter * 0.21 AS DECIMAL(10,2)) AS CarbonGramSaved,
  SYSUTCDATETIME() AS LoadedAt,
  'seoul_bike/rentals_' + CONVERT(VARCHAR(8), s.StartTime, 112) + '.csv' AS SourceFile
FROM staging.RentalRaw AS s
LEFT JOIN dw.DimUserType AS ut
  ON ut.UserTypeCode = s.UserType
LEFT JOIN dw.DimUserType AS ut_unk
  ON ut_unk.UserTypeCode = 'UNKNOWN';

여기서는 아직 StartStationKey, EndStationKey를 채우지 않는다.
대여소 디멘션은 Lab 06에서 SCD Type 2로 처리한 뒤 백필한다.

적재 검증

SELECT COUNT(*) AS fact_rows
FROM dw.FactRental;

SELECT StartDateKey, COUNT(*) AS c
FROM dw.FactRental
GROUP BY StartDateKey
ORDER BY StartDateKey;

SELECT COUNT(*) AS unmapped_user_type
FROM dw.FactRental
WHERE UserTypeKey IS NULL;

검증 포인트:

항목	기대값
Fact 행수	21,600
날짜 분포	7일치
UserTypeKey NULL	0
StationKey	아직 NULL
CarbonGramSaved	`DistanceMeter * 0.21`

Lab 06 — SCD Type 2 대여소 디멘션 적재

DimStation 생성

CREATE TABLE dw.DimStation (
  StationKey   BIGINT IDENTITY(1,1) NOT NULL,
  StationId    VARCHAR(20)   NOT NULL,
  StationName  NVARCHAR(100) NOT NULL,
  Gu           NVARCHAR(50)  NOT NULL,
  Lat          DECIMAL(9,5)  NOT NULL,
  Lng          DECIMAL(9,5)  NOT NULL,
  RackCount    INT           NOT NULL,
  RowHash      BINARY(32)    NOT NULL,
  ValidFrom    DATE          NOT NULL,
  ValidTo      DATE          NULL,
  IsCurrent    BIT           NOT NULL,
  LoadedAt     DATETIME2(0)  NOT NULL DEFAULT SYSUTCDATETIME(),
  CONSTRAINT PK_DimStation PRIMARY KEY NONCLUSTERED (StationKey)
);

CREATE UNIQUE INDEX UX_DimStation_BusinessVersion
ON dw.DimStation (StationId, ValidFrom);

CREATE INDEX IX_DimStation_Current
ON dw.DimStation (StationId)
WHERE IsCurrent = 1;

RowHash 함수 생성

CREATE OR ALTER FUNCTION dw.fn_StationRowHash(
  @StationName NVARCHAR(100),
  @Gu NVARCHAR(50),
  @Lat DECIMAL(9,5),
  @Lng DECIMAL(9,5),
  @RackCount INT
) RETURNS BINARY(32)
WITH SCHEMABINDING
AS
BEGIN
  RETURN HASHBYTES('SHA2_256',
    CONCAT_WS(N'|',
      @StationName,
      @Gu,
      CONVERT(NVARCHAR(20), @Lat, 1),
      CONVERT(NVARCHAR(20), @Lng, 1),
      CAST(@RackCount AS NVARCHAR(20))
    )
  );
END

RowHash를 사용하면 여러 컬럼을 각각 비교하지 않고 해시값 하나로 변경 여부를 판단할 수 있다.

StationRaw 적재

DROP TABLE IF EXISTS staging.StationRaw;

CREATE TABLE staging.StationRaw (
  StationId    VARCHAR(20)   NOT NULL,
  StationName  NVARCHAR(100) NOT NULL,
  Gu           NVARCHAR(50)  NOT NULL,
  Lat          DECIMAL(9,5)  NOT NULL,
  Lng          DECIMAL(9,5)  NOT NULL,
  RackCount    INT           NOT NULL,
  OpenedDate   DATE          NOT NULL
);

TRUNCATE TABLE staging.StationRaw;

BULK INSERT staging.StationRaw
FROM 'seoul_bike/stations.csv'
WITH (
  DATA_SOURCE='BlobRaw',
  FORMAT='CSV',
  FIRSTROW=2,
  FIELDTERMINATOR=',',
  ROWTERMINATOR='0x0d0a',
  CODEPAGE='65001',
  TABLOCK,
  MAXERRORS=0
);

최초 적재

INSERT INTO dw.DimStation (
  StationId, StationName, Gu, Lat, Lng, RackCount,
  RowHash, ValidFrom, ValidTo, IsCurrent
)
SELECT
  s.StationId,
  s.StationName,
  s.Gu,
  s.Lat,
  s.Lng,
  s.RackCount,
  dw.fn_StationRowHash(s.StationName, s.Gu, s.Lat, s.Lng, s.RackCount),
  s.OpenedDate,
  NULL,
  1
FROM staging.StationRaw s;

팩트 외래키 백필

UPDATE f
SET f.StartStationKey = s.StationKey
FROM dw.FactRental f
INNER JOIN staging.RentalRaw r
  ON r.RentalId = f.RentalId
INNER JOIN dw.DimStation s
  ON s.StationId = r.StartStationId
 AND CAST(r.StartTime AS DATE) >= s.ValidFrom
 AND (s.ValidTo IS NULL OR CAST(r.StartTime AS DATE) < s.ValidTo)
WHERE f.StartStationKey IS NULL;

UPDATE f
SET f.EndStationKey = s.StationKey
FROM dw.FactRental f
INNER JOIN staging.RentalRaw r
  ON r.RentalId = f.RentalId
INNER JOIN dw.DimStation s
  ON s.StationId = r.EndStationId
 AND CAST(r.EndTime AS DATE) >= s.ValidFrom
 AND (s.ValidTo IS NULL OR CAST(r.EndTime AS DATE) < s.ValidTo)
WHERE f.EndStationKey IS NULL;

검증:

SELECT
  SUM(CASE WHEN StartStationKey IS NULL THEN 1 ELSE 0 END) AS null_start,
  SUM(CASE WHEN EndStationKey IS NULL THEN 1 ELSE 0 END) AS null_end
FROM dw.FactRental;

기대값은 0 / 0이다.

Lab 07 — 분석 쿼리

시간대별 평균 이용 패턴

SELECT
  t.TimeBucket,
  d.DayName,
  COUNT(*) AS rentals,
  AVG(f.DurationMin) AS avg_minutes
FROM dw.FactRental f
JOIN dw.DimTime t
  ON t.TimeKey = f.StartTimeKey
JOIN dw.DimDate d
  ON d.DateKey = f.StartDateKey
GROUP BY t.TimeBucket, d.DayName
ORDER BY rentals DESC;

이 쿼리로 시간대와 요일별 이용 패턴을 확인할 수 있다.

자치구별 출발/도착 비대칭

WITH dep AS (
  SELECT s.Gu, COUNT(*) AS departures
  FROM dw.FactRental f
  JOIN dw.DimStation s
    ON s.StationKey = f.StartStationKey
  GROUP BY s.Gu
),
arr AS (
  SELECT s.Gu, COUNT(*) AS arrivals
  FROM dw.FactRental f
  JOIN dw.DimStation s
    ON s.StationKey = f.EndStationKey
  GROUP BY s.Gu
)
SELECT
  COALESCE(d.Gu, a.Gu) AS Gu,
  d.departures,
  a.arrivals,
  a.arrivals - d.departures AS net_flow
FROM dep d
FULL OUTER JOIN arr a
  ON a.Gu = d.Gu
ORDER BY ABS(a.arrivals - d.departures) DESC;

net_flow가 크면 해당 자치구에서 자전거 적체 또는 부족이 발생할 가능성이 높다.

Top 10 OD 페어

SELECT TOP 10
  st.StationName AS start_station,
  en.StationName AS end_station,
  COUNT(*) AS trips,
  AVG(f.DurationMin) AS avg_min
FROM dw.FactRental f
JOIN dw.DimStation st
  ON st.StationKey = f.StartStationKey
JOIN dw.DimStation en
  ON en.StationKey = f.EndStationKey
WHERE f.StartStationKey IS NOT NULL
  AND f.EndStationKey IS NOT NULL
  AND f.StartStationKey <> f.EndStationKey
GROUP BY st.StationName, en.StationName
ORDER BY trips DESC;

ROLLUP으로 소계 만들기

SELECT
  COALESCE(s.Gu, '<>') AS Gu,
  COALESCE(CAST(t.Hour AS VARCHAR(8)), '<>') AS Hour,
  COUNT(*) AS rides
FROM dw.FactRental f
JOIN dw.DimStation s
  ON s.StationKey = f.StartStationKey
JOIN dw.DimTime t
  ON t.TimeKey = f.StartTimeKey
GROUP BY ROLLUP(s.Gu, t.Hour)
ORDER BY GROUPING(s.Gu), s.Gu, GROUPING(t.Hour), t.Hour;

Lab 08 — Function App + Event Grid 자동 적재

Function App 생성

FUNC_APP=func-dwlab-$USER-$RANDOM
FUNC_LOC="koreacentral"

az functionapp create \
  -g $RG \
  -n $FUNC_APP \
  --consumption-plan-location $FUNC_LOC \
  --runtime python \
  --runtime-version 3.11 \
  --functions-version 4 \
  --storage-account $STO_ACC \
  --os-type Linux

Managed Identity를 활성화한다.

az functionapp identity assign \
  -g $RG \
  -n $FUNC_APP

Storage 읽기 권한을 부여한다.

FUNC_PRINCIPAL=$(az functionapp identity show \
  -g $RG \
  -n $FUNC_APP \
  --query principalId \
  -o tsv)

STO_ID=$(az storage account show \
  -g $RG \
  -n $STO_ACC \
  --query id \
  -o tsv)

az role assignment create \
  --assignee "$FUNC_PRINCIPAL" \
  --role 'Storage Blob Data Reader' \
  --scope "$STO_ID"

SQL DB에 Managed Identity 사용자 등록

CREATE USER [func-dwlab-...] FROM EXTERNAL PROVIDER;

ALTER ROLE db_datareader ADD MEMBER [func-dwlab-...];
ALTER ROLE db_datawriter ADD MEMBER [func-dwlab-...];

GRANT EXECUTE ON SCHEMA :: staging TO [func-dwlab-...];
GRANT EXECUTE ON SCHEMA :: dw TO [func-dwlab-...];

운영 환경에서는 Function 코드에 SQL 비밀번호를 넣지 않는 것이 중요하다.
Managed Identity를 사용하면 Function App 자체의 신원으로 SQL Database에 접근할 수 있다.

Function 코드 핵심

import logging, os, struct
import azure.functions as func
from azure.identity import DefaultAzureCredential
import pyodbc

app = func.FunctionApp()

@app.event_grid_trigger(arg_name='event')
def blob_loaded(event: func.EventGridEvent):
    data = event.get_json()
    blob_url = data.get('url')
    logging.info(f'BlobCreated: {blob_url}')

    if '/raw/' not in blob_url or not blob_url.endswith('.csv'):
        logging.info('Skip non-target blob')
        return

    rel = blob_url.split('/raw/')[-1]

    cred = DefaultAzureCredential()
    token = cred.get_token(
        'https://database.windows.net/.default'
    ).token.encode('utf-16-le')

    token_struct = struct.pack(f'=i{len(token)}s', len(token), token)
    SQL_COPT_SS_ACCESS_TOKEN = 1256

    conn_str = (
        'Driver={ODBC Driver 18 for SQL Server};'
        f'Server=tcp:{os.environ["SQL_SERVER"]},1433;'
        f'Database={os.environ["SQL_DB"]};'
        'Encrypt=yes;TrustServerCertificate=no;'
    )

    with pyodbc.connect(
        conn_str,
        attrs_before={SQL_COPT_SS_ACCESS_TOKEN: token_struct}
    ) as cn:
        cn.cursor().execute(
            'EXEC dw.sp_LoadFactFromBlob @blobPath = ?',
            rel
        ).commit()

    logging.info('sp_LoadFactFromBlob OK')

Stored Procedure 생성

CREATE OR ALTER PROCEDURE dw.sp_LoadFactFromBlob
  @blobPath NVARCHAR(500)
AS
BEGIN
  SET NOCOUNT ON;

  DECLARE @sql NVARCHAR(MAX);

  TRUNCATE TABLE staging.RentalRaw;

  SET @sql = N'BULK INSERT staging.RentalRaw
    FROM ''' + @blobPath + N'''
    WITH (
      DATA_SOURCE=''BlobRaw'',
      FORMAT=''CSV'',
      FIRSTROW=2,
      FIELDTERMINATOR='','',
      ROWTERMINATOR=''0x0a'',
      CODEPAGE=''65001'',
      MAXERRORS=100
    )';

  EXEC sp_executesql @sql;

  EXEC dw.sp_TransformAndLoad @sourceFile = @blobPath;
END

Event Grid 구독 생성

FUNC_KEY=$(az functionapp keys list \
  -g $RG \
  -n $FUNC_APP \
  --query systemKeys.eventgrid_extension \
  -o tsv)

ENDPOINT="https://$FUNC_APP.azurewebsites.net/runtime/webhooks/EventGrid?functionName=blob_loaded&code=$FUNC_KEY"

az eventgrid event-subscription create \
  --name sub-blob-to-func \
  --source-resource-id $STO_ID \
  --endpoint-type webhook \
  --endpoint "$ENDPOINT" \
  --included-event-types Microsoft.Storage.BlobCreated \
  --subject-begins-with /blobServices/default/containers/raw/

이제 raw 컨테이너에 CSV가 업로드되면 Event Grid가 Function을 호출하고, Function이 SQL 저장 프로시저를 실행해 적재한다.

Lab 09 — Logic Apps 일일 적재 워크플로우

Logic Apps는 GUI 기반으로 ETL 흐름을 구성할 수 있다.

워크플로우 구조는 다음과 같다.

Recurrence: 매일 02:00 KST
        ↓
List blobs in raw
        ↓
Filter array
        ↓
For each
        ↓
Execute stored procedure
        ↓
성공: archive 이동
실패: 이메일 알림

Function이 “파일이 올라오자마자 즉시 처리”에 적합하다면, Logic Apps는 “정해진 시간에 여러 작업을 순서대로 실행”하는 데 적합하다.

Lab 10 — 운영: PITR, 모니터링, 권한, 정리

PITR 복원

RESTORE_TS=$(date -u -d "-5 min" '+%Y-%m-%dT%H:%M:%S')

az sql db restore \
  -g $RG \
  -s $SQL_SRV \
  -n dw_seoulbike \
  --dest-name dw_seoulbike_pitr \
  --time $RESTORE_TS \
  --edition GeneralPurpose \
  --family Gen5 \
  --capacity 2

복원된 DB 행수 확인:

sqlcmd -S $SQL_SRV.database.windows.net \
  -d dw_seoulbike_pitr \
  -U $ADMIN_USER \
  -P "$ADMIN_PASS" \
  -Q "SELECT COUNT(*) FROM dw.FactRental;"

CPU 알림 규칙 생성

az monitor metrics alert create \
  -g $RG \
  -n alert-dw-cpu-high \
  --scopes $(az sql db show -g $RG -s $SQL_SRV -n $SQL_DB --query id -o tsv) \
  --condition "avg cpu_percent > 80" \
  --window-size 5m \
  --evaluation-frequency 1m \
  --severity 2

ROLE 기반 권한 분리

CREATE ROLE dw_analyst;
GRANT SELECT ON SCHEMA :: dw TO dw_analyst;
GRANT SELECT ON SCHEMA :: mart TO dw_analyst;
DENY SELECT ON SCHEMA :: staging TO dw_analyst;

CREATE ROLE dw_loader;
GRANT SELECT, INSERT, UPDATE, DELETE ON SCHEMA :: staging TO dw_loader;
GRANT SELECT, INSERT, UPDATE ON SCHEMA :: dw TO dw_loader;
GRANT EXECUTE ON SCHEMA :: dw TO dw_loader;

CREATE ROLE dw_admin;
GRANT CONTROL ON DATABASE :: dw_seoulbike TO dw_admin;

Role	역할
`dw_analyst`	분석가 읽기 권한
`dw_loader`	ETL 적재 권한
`dw_admin`	운영 관리자 권한

리소스 정리

실습 종료 후에는 리소스 그룹을 삭제해 비용 누적을 막는다.

az sql db delete \
  -g $RG \
  -s $SQL_SRV \
  -n dw_seoulbike_pitr \
  --yes 2>/dev/null

az group delete \
  -n $RG \
  --yes \
  --no-wait

전체 실습 흐름 정리

단계	내용
1	Azure SQL Database Serverless 생성
2	Serverless auto-pause / auto-resume 검증
3	Storage Account 생성 및 CSV 업로드
4	스타 스키마 생성
5	BULK INSERT로 staging 적재
6	staging → FactRental 변환 적재
7	SCD Type 2로 대여소 디멘션 관리
8	시간대·자치구·OD 분석
9	Event Grid + Function으로 자동 적재
10	Logic Apps로 일일 적재 워크플로우 구성
11	PITR, Monitor, Role, 비용 정리

15. 핵심 정리

이번 실습의 핵심은 다음과 같다.

DW는 OLTP와 목적이 다르기 때문에 스키마와 인덱스 전략도 달라야 한다.
분석 중심 모델링에서는 Fact와 Dimension을 분리한다.
대량 분석용 Fact 테이블에는 Columnstore Index가 적합하다.
Storage Account는 원본 데이터 저장소 역할을 한다.
BULK INSERT는 빠른 1차 적재에 적합하다.
SCD Type 2는 대여소처럼 속성이 변하는 디멘션의 이력을 보존하는 데 사용한다.
Event Grid + Function을 사용하면 Blob 업로드 기반 자동 적재가 가능하다.
Logic Apps는 일정 기반 ETL 오케스트레이션에 적합하다.
PITR, Monitor, Role, 비용 정리는 DW 운영에서 반드시 필요하다.

[MicrosoftDataSchool] 83일차 - Azure SQL에서 Graph Database 활용하기

Thu, 07 May 2026 03:35:30 GMT

1. 개요

그래프 쪽은 JOIN을 명시적으로 쓰지 않아도 패턴이 곧 쿼리가 됨

1.1 SQL Server Graph Database란?

SQL Server 2017부터 도입됨
노드(Node)와 엣지(Edge)를 사용하여 복잡한 관계형 데이터를 자연스럽게 표현하고 쿼리할 수 있게 해줌
Azure SQL Database와 Azure SQL VM 모두에서 이 기능을 완벽하게 지원

관계형 모델로도 같은 데이터를 표현할 수 있지만, "친구의 친구의 친구"처럼 여러 단계를 거쳐가는 질의를 JOIN으로 풀려고 하면 SQL이 금세 복잡해집니다. 그래프 모델은 이런 다단계 탐색을 시각적인 패턴 그대로 쿼리로 표현할 수 있게 해 줍니다.

1.2 Graph Database를 사용하는 이유

복잡한 관계 표현 — 다대다 관계와 계층 구조를 직관적으로 모델링
경로 탐색 — 친구의 친구, 추천 시스템 등 연결 기반 쿼리에 최적화
패턴 매칭 — MATCH 절로 복잡한 관계 패턴을 간단하게 표현
기존 SQL과 통합 — 관계형 테이블과 그래프 테이블을 함께 사용 가능

💡 언제 그래프 DB가 빛을 발하나요?

조직도 / 권한 위임 / 분류 체계처럼 깊이가 가변적인 계층 구조
소셜 그래프 (친구·팔로우·차단 등 같은 노드 타입 사이의 다양한 관계)
추천 엔진 (콜드 스타트 우회: "비슷한 사람이 좋아하는 것")
사기 탐지·자금 흐름 추적 (의심 노드를 시작점으로 N단계 확산 분석)
지식 그래프·Knowledge Base (엔티티 + 관계 위주 질의)

1.3 Graph Database 핵심 개념

개념	설명 / SQL Server 구현
Node (노드)	엔티티(사람, 게시물, 상품 등)를 표현하는 점. `CREATE TABLE ... AS NODE` 로 생성하며 내부적으로 `$node_id` 컬럼이 자동 생성됨
Edge (엣지)	두 노드를 잇는 방향성 있는 선. `CREATE TABLE ... AS EDGE` 로 생성하며 `$edge_id`, `$from_id`, `$to_id` 컬럼이 자동 생성됨
$node_id	노드 고유 ID. JSON 형식(`{"schema":"...", "table":"...", "id":"..."}`)이며 시스템이 자동 부여
$edge_id	엣지 고유 ID. `$node_id`와 동일한 JSON 형식 사용
$from_id / $to_id	엣지가 연결하는 시작/끝 노드의 `$node_id` 값. 엣지 방향 정의
MATCH	WHERE 절에서 그래프 패턴을 명시하는 키워드. 예: `MATCH(A-(e)->B)`

$node_id는 직접 다루면 안됨

$node_id 값은 "{"schema":"dbo","table":"Person","id":0}" 같은 JSON 문자열입니다. 직접 INSERT하거나 비교 키로 외부 시스템에 노출하지 마세요. 대신 PersonId 같은 비즈니스 키로 식별하고, $node_id는 시스템 내부 조인용으로만 씁니다.

2. 환경 설정 및 샘플 데이터

2.1 시나리오: 소셜 네트워크

이 실습에서는 작은 소셜 네트워크를 모델링합니다. 사용자(Person) 5명과 게시물(Post) 3개가 있고, 사용자 간에는 팔로우 관계가, 사용자와 게시물 사이에는 작성/좋아요 관계가 형성됩니다. 앞으로 모든 쿼리는 이 한 장의 그래프를 기준으로 다양한 질문을 던지게 됩니다.

나같은경우엔 sql vm 생성 시 이미지 선택을 잘못했는지, SSMS가 설치되어있지 않았다. 별도로 설치한 후, 연결은

서버이름: localhost
인증서 신뢰 체크

후 진행하였다.

2.2 Node 테이블 생성

핵심 키워드는 끝부분의 AS NODE 입니다.

-- 사용자 노드 테이블 
CREATE TABLE Person ( 
    PersonId  INT PRIMARY KEY, 
    Name      NVARCHAR(100), 
    Email     NVARCHAR(200),
    JoinDate  DATE DEFAULT GETDATE()
) AS NODE; 
-- 게시물 노드 테이블 
CREATE TABLE Post ( 
    PostId     INT PRIMARY KEY, 
    Title      NVARCHAR(200), 
    Content    NVARCHAR(MAX), 
    CreatedAt  DATETIME2 DEFAULT GETDATE() 
) AS NODE;

① AS NODE 키워드

테이블 정의 마지막에 AS NODE를 붙이는 것이 그래프 노드 선언의 전부입니다. 이 한 줄로 SQL Server는 내부적으로 $node_id라는 보이지 않는 컬럼을 추가합니다.

② PRIMARY KEY는 별개

PersonId는 우리가 부여하는 비즈니스 식별자, $node_id는 시스템이 부여하는 그래프 식별자입니다. 두 개가 공존하며 역할이 다릅니다.

③ 일반 컬럼은 자유

Name, Email 등 평소 테이블 만들듯이 컬럼을 자유롭게 추가하면 됩니다. 그래프 테이블도 본질은 일반 테이블입니다.

④ Post 테이블도 동일 패턴

Person과 똑같이 AS NODE로 끝맺기만 하면 됩니다. 노드 타입이 두 종류 이상이어도 패턴은 같습니다.

Person, Post 두 테이블이 생성되며, 각 테이블에는 우리가 정의한 컬럼 외에 $node_id가 숨겨진 형태로 추가됩니다. sys.tables 카탈로그 뷰에서 is_node = 1로 표시되며, sys.columns에서 graph_type 값을 가진 시스템 컬럼들이 함께 보입니다. 아직 데이터는 비어 있고, 두 테이블 사이에는 어떤 관계도 없습니다 — 관계는 다음 단계의 Edge 테이블이 담당합니다.

2.3 Edge 테이블 생성

-- 팔로우 관계 (Person → Person) 
CREATE TABLE follows ( 
    FollowDate DATE DEFAULT GETDATE() 
) AS EDGE; 

-- 좋아요 관계 (Person → Post) 
CREATE TABLE likes ( 
    LikedAt DATETIME2 DEFAULT GETDATE() 
) AS EDGE; 

-- 작성 관계 (Person → Post) 
CREATE TABLE wrote AS EDGE;

① AS EDGE 키워드

엣지 테이블이 됨을 선언합니다. 자동으로 $edge_id, $from_id, $to_id 세 개의 컬럼이 생성됩니다.

② 엣지 속성 컬럼

follows의 FollowDate처럼, 관계 자체에 대한 메타데이터(언제 맺어졌는지, 가중치 등)를 컬럼으로 자유롭게 둘 수 있습니다.

③ 컬럼 없는 엣지도 가능

wrote 테이블처럼 사용자 정의 컬럼이 하나도 없어도 됩니다. AS EDGE만 있으면 시스템 컬럼만으로 동작합니다.

④ 방향성

엣지는 항상 $from_id → $to_id 방향을 갖습니다. 양방향 관계를 표현하고 싶다면 동일한 엣지를 반대 방향으로 한 번 더 INSERT 하면 됩니다.

⚠️ 엣지 테이블에는 PRIMARY KEY를 두지 않습니다 $edge_id가 시스템 PK 역할을 자동으로 하므로 굳이 추가 PK를 둘 필요가 없습니다. 추가 PK를 두면 같은 두 노드 사이에 여러 엣지(예: 같은 사람이 같은 게시물을 시점을 달리해 두 번 좋아요)를 만들 수 없게 되어 오히려 모델링이 어색해집니다. PRIMARY KEY가 없다고 해서 취소 여부를 못 아는 게 아니라, 엣지 테이블에 FollowedAt, UnfollowedAt, IsActive 같은 속성을 넣어서 관계 자체를 상태 데이터로 관리하는게 보통입니다.

혹은 SCD를 사용한다.

SCD

데이터 웨어하우스에서 “시간이 지나며 바뀌는 데이터”를 어떻게 관리할지에 대한 패턴 | 구분 | Type 1 | Type 2 | | -------- | --------- | ---------------- | | 데이터 변경 시 | 기존 데이터 수정 | 새 행 추가 | | 과거 데이터 | 사라짐 | 유지 | | 테이블 크기 | 작음 | 커짐 | | 구현 난이도 | 쉬움 | 복잡 | | 분석 용도 | 현재 상태 중심 | 이력 분석 가능 | | 예시 | 최신 프로필 | 팔로우 이력, 주소 변경 이력 |

2.4 샘플 데이터 삽입

노드 데이터를 먼저 삽입한 후, 엣지 데이터를 삽입합니다. 이 순서는 매우 중요합니다 — 엣지가 참조할 노드가 먼저 존재해야 합니다.

① 노드 데이터

-- 사용자 노드 삽입 
INSERT INTO Person (PersonId, Name, Email) VALUES 
    (1, N'김원일', 'kim@example.com'), 
    (2, N'이두석', 'lee@example.com'), 
    (3, N'박삼현', 'park@example.com'), 
    (4, N'정사람', 'jung@example.com'), 
    (5, N'오동현', 'oh@example.com');   

-- 게시물 노드 삽입 
INSERT INTO Post (PostId, Title, Content) VALUES 
    (101, N'Azure SQL 시작하기', N'Azure SQL의 기본 사용법을 알아봅니다…'), 
    (102, N'Graph DB 활용법',    N'소셜 네트워크 구현 예제입니다…'), 
    (103, N'성능 최적화 팁',     N'쿼리 성능을 향상시키는 방법…');

② 엣지 데이터 (follows)

-- 팔로우 관계 삽입 (누가 누구를 팔로우하는지) 
INSERT INTO follows ($from_id, $to_id) VALUES 
    ((SELECT $node_id FROM Person WHERE PersonId = 1), 
     (SELECT $node_id FROM Person WHERE PersonId = 2)),     -- 김원일 → 이두석 

    ((SELECT $node_id FROM Person WHERE PersonId = 1), 
     (SELECT $node_id FROM Person WHERE PersonId = 3)),     -- 김원일 → 박삼현 

    ((SELECT $node_id FROM Person WHERE PersonId = 2), 
     (SELECT $node_id FROM Person WHERE PersonId = 3)),     -- 이두석 → 박삼현 

    ((SELECT $node_id FROM Person WHERE PersonId = 3), 
     (SELECT $node_id FROM Person WHERE PersonId = 4)),     -- 박삼현 → 정사람 

    ((SELECT $node_id FROM Person WHERE PersonId = 4), 
     (SELECT $node_id FROM Person WHERE PersonId = 5));     -- 정사람 → 오동현

① $from_id, $to_id에 직접 INSERT

엣지를 만들 때는 두 시스템 컬럼 $from_id, $to_id에 값을 채워 넣습니다. 이 값들은 노드의 $node_id (JSON)와 동일한 형태여야 합니다.

② 서브쿼리로 $node_id 조회

JSON 값을 직접 입력하긴 어렵기 때문에, (SELECT $node_id FROM Person WHERE PersonId = 1) 형태로 비즈니스 키 → $node_id 변환을 매번 거칩니다. 이 패턴이 그래프 INSERT의 표준 관용구입니다.

③ 한 INSERT에 여러 엣지

VALUES 절에 행을 콤마로 나열하면 한 번의 INSERT로 여러 엣지를 만들 수 있어 트랜잭션 비용이 줄어듭니다.

④ 결과 그래프

실행이 끝나면 그림 2-1의 follows 5개 엣지가 모두 만들어집니다. 5명의 Person 노드를 잇는 사슬과 분기 구조가 형성됩니다.

Edge Table에 중복 안넣는 방법

팔로우 했다가 취소했다가 팔로하면? 삭제하지 않고 그냥 둔다. 따라서 보통은 중복을 허용한다. 굳이 중복방지를 하고싶다면 조건을 걸면 된다. edge table에 굳이 추가 PK를 두지 않는것도 있다.

③ 엣지 데이터 (wrote, likes)

-- 게시물 작성 관계 
INSERT INTO wrote ($from_id, $to_id) VALUES 
    ((SELECT $node_id FROM Person WHERE PersonId = 1), 
     (SELECT $node_id FROM Post   WHERE PostId   = 101)),  -- 김원일 → Post 101 
    ((SELECT $node_id FROM Person WHERE PersonId = 2), 
     (SELECT $node_id FROM Post   WHERE PostId   = 102)),  -- 이두석 → Post 102 
    ((SELECT $node_id FROM Person WHERE PersonId = 3), 
     (SELECT $node_id FROM Post   WHERE PostId   = 103));  -- 박삼현 → Post 103 

-- 좋아요 관계 
INSERT INTO likes ($from_id, $to_id) VALUES 
    ((SELECT $node_id FROM Person WHERE PersonId = 2), 
     (SELECT $node_id FROM Post   WHERE PostId   = 101)), 
    ((SELECT $node_id FROM Person WHERE PersonId = 3), 
     (SELECT $node_id FROM Post   WHERE PostId   = 101)), 
    ((SELECT $node_id FROM Person WHERE PersonId = 1), 
     (SELECT $node_id FROM Post   WHERE PostId   = 102));

🎯 실습 과제 1

과제 1-A.

새 사용자 "최여섯"(PersonId=6)을 INSERT한 뒤, 김원일이 최여섯을 팔로우하는 엣지를 추가하세요.

INSERT INTO Person (PersonId, Name) VALUES 
(6,N'최여섯');

INSERT INTO follows ($from_id, $to_id) VALUES 
    ((SELECT $node_id FROM Person WHERE PersonId = 1), 
     (SELECT $node_id FROM Person WHERE PersonId = 6));     -- 김원일 → 최여섯

과제 1-B.

SELECT * FROM Person; 과 SELECT * FROM follows; 를 각각 실행해서 $node_id, $from_id, $to_id 값이 실제로 어떻게 생겼는지 눈으로 확인해 보세요.

SELECT * FROM Person;
SELECT * FROM follows;

과제 1-C.

시스템 카탈로그를 사용해 이 데이터베이스의 모든 노드 테이블과 엣지 테이블을 나열해 보세요. 힌트: SELECT name, is_node, is_edge FROM sys.tables WHERE is_node = 1 OR is_edge = 1;

3. MATCH — 그래프 패턴 쿼리

3.1 이론

노드와 엣지를 ASCII 아트처럼 그려서 패턴을 정의하면, SQL Server가 그래프를 따라가며 그 패턴에 맞는 모든 경로를 찾아옵니다.

핵심은 "코드에 그린 그림이 곧 찾고자 하는 패턴"이라는 점입니다. (A)-(e)->(B) 라고 쓰면 노드 A에서 엣지 e를 타고 노드 B로 가는 모든 쌍을 찾는다는 의미가 됩니다.

구문 요소	의미
(node)	노드. FROM 절에 등장한 노드 테이블의 별칭(alias)을 그대로 사용
-(edge)->	정방향 엣지. 왼쪽 노드의 `$node_id`가 엣지의 `$from_id`와 같고, 오른쪽 노드의 `$node_id`가 `$to_id`와 같은 행 탐색
<-(edge)-	역방향 엣지. `from/to`가 반대 방향인 형태
-(edge)-	방향 무관 탐색 (양방향 시도). SQL Server 2019부터 지원
MATCH(...)	WHERE 절에서 그래프 패턴 전체를 감싸는 표현식. 일반 조건과 `AND` 결합 가능

3.2 기본 패턴 매칭

직접 연결된 노드 찾기

SELECT 
    Person1.Name AS Follower, 
    Person2.Name AS Following 
FROM Person AS Person1, follows, Person AS Person2 
WHERE MATCH(Person1-(follows)->Person2) 
  AND Person1.Name = N'김원일';

① FROM 절에 노드와 엣지 모두 나열

같은 Person 테이블이지만 시작 노드와 끝 노드 두 역할로 쓰이므로, 별칭 Person1, Person2로 두 번 나타나게 합니다. 가운데 follows는 엣지 테이블 그 자체입니다.

② WHERE MATCH(...) — 패턴 정의

MATCH 절은 "Person1에서 follows 엣지를 타고 Person2로 가는 경로"를 의미합니다. SQL Server는 이 표현을 "follows.$from_id = Person1.$node_id AND follows.$to_id = Person2.$node_id"라는 조건으로 내부 변환합니다.

③ AND Person1.Name = N'김원일' — 시작점 고정

MATCH 패턴 자체에 비교 조건을 끼워 넣지 않습니다. 시작 노드를 좁히고 싶을 때는 일반 WHERE 절처럼 AND로 추가합니다.

④ SELECT — 무엇을 가져올지 결정

Person1.Name(팔로워), Person2.Name(팔로잉 대상)을 컬럼명으로 반환합니다. 같은 테이블에서 두 행을 동시에 다루는 self-join 같은 효과를 MATCH 한 줄로 깔끔하게 만든 셈입니다.

역방향 탐색

이번엔 반대로, "박삼현을 팔로우하는 사람들"을 조회합니다. 두 가지 동등한 표현이 있습니다.

-- 방법 A : 순방향 패턴 + 끝 노드를 박삼현으로 고정 
SELECT Person1.Name AS Follower 
FROM Person AS Person1, follows, Person AS Person2 
WHERE MATCH(Person1-(follows)->Person2) 
  AND Person2.Name = N'박삼현'; 

-- 방법 B : 역방향 화살표 사용 
SELECT Person1.Name AS Follower 
FROM Person AS Person1, follows, Person AS Person2 
WHERE MATCH(Person2<-(follows)-Person1) 
  AND Person2.Name = N'박삼현';

💡 두 표현은 어떻게 다른가요? 결과는 동일합니다. SQL Server가 동일한 실행 계획으로 평가하기 때문에 성능 차이도 없습니다. 가독성 차이만 있습니다. "박삼현 입장에서 자기를 팔로우하는 사람"이라는 관점이 자연스러울 때는 방법 B가 읽기 쉽고, "전체 팔로우 관계 중 끝점이 박삼현"이라는 관점이라면 방법 A가 자연스럽습니다.

3.3 다중 홉(Multi-hop) 탐색

관계형으로는 N홉마다 JOIN이 N-1번 늘어나지만, 그래프에서는 패턴에 화살표를 더 이어붙이기만 하면 됩니다.

친구의 친구 찾기 (2-hop)

SELECT DISTINCT 
    Person1.Name AS Person, 
    Person2.Name AS Friend, 
    Person3.Name AS FriendOfFriend 
FROM 
    Person AS Person1, 
    follows AS f1, 
    Person AS Person2, 
    follows AS f2, 
    Person AS Person3 
WHERE MATCH(Person1-(f1)->Person2-(f2)->Person3) 
  AND Person1.Name = N'김원일' 
  AND Person1.PersonId <> Person3.PersonId;   -- 자기 자신 제외

① FROM 절이 길어지는 이유

Person1, Person2, Person3 — 같은 Person 테이블의 별칭이 3개. 엣지도 f1, f2 두 개로 별도 별칭을 부여합니다. 한 패턴 안에 같은 테이블이 여러 번 등장할 수 있기 때문에 별칭은 필수입니다.

② MATCH 패턴 — 화살표 잇기

Person1-(f1)->Person2-(f2)->Person3. 두 엣지가 가운데 노드 Person2를 공유하면서 자연스럽게 이어집니다. 그래프의 ASCII 그림이 곧 우리가 찾고자 하는 경로의 모양.

③ DISTINCT가 필요한 이유

같은 사람이 여러 경로로 도달 가능할 수 있습니다. 예를 들어 X가 다른 두 친구를 통해 동시에 친구의 친구가 되는 경우, DISTINCT 없이는 결과가 중복됩니다.

④ 자기 자신 제외

Person1.PersonId <> Person3.PersonId. 만약 A→B→A라는 상호 팔로우가 있다면 A 자신이 친구의 친구로 잡혀버립니다. 이 조건으로 그런 경우를 제외합니다.

⚠️ 결과 폭발에 주의 N홉 탐색은 평균 차수(degree)의 N제곱에 비례하는 경로 수를 만들어낼 수 있습니다. 평균 팔로우 100명이라면 3홉만 해도 100^3 = 100만 경로 후보가 발생합니다. 실무에서는 보통 2~3홉으로 제한하고, 시작 노드를 명확하게 좁히는 WHERE 조건을 함께 사용합니다.

3단계 연결 탐색 (3-hop)

SELECT DISTINCT 
    P1.Name AS Start, 
    P2.Name AS Hop1, 
    P3.Name AS Hop2, 
    P4.Name AS Hop3 
FROM 
    Person AS P1, follows AS f1, 
    Person AS P2, follows AS f2, 
    Person AS P3, follows AS f3, 
    Person AS P4 
WHERE MATCH(P1-(f1)->P2-(f2)->P3-(f3)->P4) 
  AND P1.Name = N'김원일';

4. 복합 패턴 쿼리

4.1 여러 엣지 타입 결합

한 쿼리 안에서 서로 다른 종류의 엣지를 자유롭게 섞을 수 있습니다. 예를 들어 "내가 팔로우하는 사람이 작성한 게시물"은 follows + wrote 두 엣지 타입을 거치는 패턴입니다.

내가 팔로우하는 사람이 작성한 게시물

SELECT 
    Person1.Name  AS Me, 
    Person2.Name  AS Following, 
    Post.Title    AS PostTitle 
FROM 
    Person AS Person1, 
    follows, 
    Person AS Person2, 
    wrote, 
    Post 
WHERE MATCH(Person1-(follows)->Person2-(wrote)->Post) 
  AND Person1.Name = N'김원일';

① 서로 다른 노드 타입의 등장

이 쿼리는 Person 노드 두 개와 Post 노드 하나가 한 패턴에 등장합니다. 노드 별칭만 다르게 잡으면 한 그래프 안에 다양한 종류의 노드를 자유롭게 섞을 수 있습니다.

② 두 엣지 타입을 한 패턴에

follows와 wrote는 의미가 전혀 다른 엣지지만, 가운데 Person2 노드를 공유하면서 자연스럽게 이어집니다. 패턴 표현 그대로 "사람을 따라가서 그 사람이 쓴 글까지" 한 줄로 표현되는 셈.

③ 관계형 모델과 비교

같은 결과를 관계형으로 풀려면 Person ⨝ follows ⨝ Person ⨝ wrote ⨝ Post의 4단계 JOIN이 필요합니다. MATCH 패턴은 이 모든 JOIN 조건을 한 줄로 압축합니다.

4.2 조건부 필터링과 집계

팔로워 수 계산

SELECT 
    Person2.Name, 
    COUNT(*) AS FollowerCount 
FROM Person AS Person1, follows, Person AS Person2 
WHERE MATCH(Person1-(follows)->Person2) 
GROUP BY Person2.Name, Person2.PersonId 
ORDER BY FollowerCount DESC;

▶ 실행 흐름

1) follows 엣지 전체를 훑어 (시작자, 도착자) 쌍을 모두 만든다. 2) Person2(도착자) 기준으로 그룹화한다. 3) 각 그룹의 행 수를 세면 그 사람이 받은 팔로우 수가 된다.

샘플 그래프에서는 박삼현이 2명(김원일, 이두석)으로 1위, 그 외는 모두 1명

5. 실무 시나리오

5.1 추천 시스템 구현

친구 추천 (공통 친구 기반)

소셜 네트워크의 클래식한 추천 알고리즘 중 하나는 "공통 친구가 많은 사람"을 우선 추천하는 방식입니다. 나의 1-hop 친구(공통 친구)를 거쳐서 도달 가능한 2-hop의 사람을 모두 모은 뒤, 같은 사람이 여러 경로로 도달될수록 점수가 높다고 보는 것이 핵심입니다.


-- 김원일에게 친구 추천: 공통 친구가 많은 사람 
SELECT 
    Recommended.Name AS RecommendedPerson, 
    COUNT(*)         AS CommonFriends 
FROM 
    Person  AS Me, 
    follows AS f1, 
    Person  AS CommonFriend, 
    follows AS f2, 
    Person  AS Recommended 
WHERE MATCH(Me-(f1)->CommonFriend-(f2)->Recommended) 
  AND Me.Name = N'김원일' 
  AND Me.PersonId <> Recommended.PersonId 
  -- 이미 팔로우하는 사람 제외 
  AND NOT EXISTS ( 
        SELECT 1 FROM follows AS existing -- 데이터 존재 여부(TRUE) 를 확인하는 성능 최적화용
        WHERE existing.$from_id = Me.$node_id 
          AND existing.$to_id   = Recommended.$node_id 
  ) 
GROUP BY Recommended.PersonId, Recommended.Name 
ORDER BY CommonFriends DESC;

① Me-(f1)->CommonFriend-(f2)->Recommended

2-hop 패턴. 가운데 CommonFriend는 "내가 팔로우하는 사람"이자 "Recommended를 팔로우하는 사람" 두 역할을 동시에 수행합니다.

② COUNT(*)의 의미

같은 Recommended가 서로 다른 CommonFriend를 통해 여러 번 도달되면, 그만큼 (Me, CommonFriend, Recommended) 행이 여러 개 나옵니다. 이걸 GROUP BY Recommended로 묶어 COUNT하면 곧 "공통 친구의 수"가 됩니다.

③ 자기 자신 제외

A→B→A 형태의 상호 팔로우가 있을 때 자기가 자기에게 추천되는 것을 막습니다.

④ 이미 팔로우 중인 사람 제외 (NOT EXISTS)

Me.$node_id에서 Recommended.$node_id로 가는 follows 엣지가 이미 존재하면 추천 후보에서 빼야 합니다. NOT EXISTS는 결과 1건만 확인되면 빠르게 끝나기 때문에 NOT IN 보다 효율적이고 NULL 안전합니다.

⑤ 결과 해석

샘플 그래프에서 김원일에게 추천될 수 있는 후보는 정사람뿐(박삼현 → 정사람 경로). 이두석 → 박삼현 경로는 박삼현이 이미 팔로우 중이라 NOT EXISTS에서 걸러집니다.

select 1

데이터 값 자체는 필요 없고, 조건을 만족하는 행이 존재하는지만 확인하고 싶을 때
DB 연결 테스트
쿼리 동작 확인용

콘텐츠 추천 (팔로우하는 사람들이 좋아한 게시물)

SELECT 
    Post.Title, 
    COUNT(DISTINCT Following.PersonId) AS LikedByFollowing 
FROM 
    Person  AS Me, 
    follows, 
    Person  AS Following, 
    likes, 
    Post 
WHERE MATCH(Me-(follows)->Following-(likes)->Post) 
  AND Me.Name = N'김원일' 
  -- 내가 이미 좋아요한 게시물 제외 
  AND NOT EXISTS ( 
        SELECT 1 FROM likes AS myLikes 
        WHERE myLikes.$from_id = Me.$node_id 
          AND myLikes.$to_id   = Post.$node_id 
  ) 
GROUP BY Post.PostId, Post.Title 
ORDER BY LikedByFollowing DESC;

💡 COUNT(*) vs COUNT(DISTINCT …) 차이

여기서 COUNT()를 쓰면 "내 팔로우 친구 한 명이 같은 게시물에 두 번 좋아요한 경우"가 잘못 가중되어 계산됩니다. COUNT(DISTINCT Following.PersonId)는 "이 게시물을 좋아한 (서로 다른) 친구 수"라는 정확한 지표가 됩니다. 데이터 모델상 한 사람이 같은 게시물을 두 번 좋아요 할 수 없다면(원천적으로 안된다면) COUNT()도 무방하지만, 안전한 기본값은 DISTINCT.

5.2 영향력 분석

인플루언서 찾기

"받은 팔로워 수"와 "내 글이 받은 좋아요 수"를 합산해 영향력 점수를 계산합니다. CTE(공통 테이블 표현식)로 두 지표를 따로 구하고 마지막에 LEFT JOIN으로 합치는 패턴입니다.

-- 팔로워 수와 게시물 좋아요 수를 합산한 영향력 점수 
WITH FollowerCounts AS ( 
    SELECT 
        Person2.PersonId, 
        COUNT(*) AS Followers 
    FROM Person AS Person1, follows, Person AS Person2 
    WHERE MATCH(Person1-(follows)->Person2) 
    GROUP BY Person2.PersonId 
), 
LikeCounts AS ( 
    SELECT 
        Author.PersonId, 
        COUNT(*) AS TotalLikes 
    FROM Person AS Liker, likes, Post, wrote, Person AS Author 
    WHERE MATCH(Liker-(likes)->Post<-(wrote)-Author) 
    GROUP BY Author.PersonId 
) 
SELECT 
    p.Name, 
    ISNULL(f.Followers, 0)   AS Followers, 
    ISNULL(l.TotalLikes, 0)  AS TotalLikes, 
    ISNULL(f.Followers, 0) + ISNULL(l.TotalLikes, 0) AS InfluenceScore 
FROM Person p 
LEFT JOIN FollowerCounts f ON p.PersonId = f.PersonId 
LEFT JOIN LikeCounts     l ON p.PersonId = l.PersonId 
ORDER BY InfluenceScore DESC;

① CTE 1 — FollowerCounts

4.2의 팔로워 수 쿼리를 그대로 가져와 "PersonId별 팔로워 수"를 임시 테이블처럼 다룹니다. CTE는 메인 쿼리에서 한 번만 사용해도 가독성을 크게 높입니다.

② CTE 2 — LikeCounts와 역방향 패턴

Liker-(likes)->Post<-(wrote)-Author. 좋아요한 사람으로부터 게시물로 가고, 그 게시물을 누가 썼는지 역방향으로 가져옵니다. 한 패턴 안에서 "정방향 + 역방향" 혼용이 가능합니다.

③ LEFT JOIN으로 모든 사람 보존

글을 쓴 적 없거나 팔로워가 0인 사람도 결과에 나타나야 합니다. INNER JOIN으로 묶으면 이런 사람이 사라지므로 LEFT JOIN + ISNULL 패턴이 정석.

④ ISNULL로 NULL을 0으로

집계 결과가 없는 사람은 Followers/TotalLikes가 NULL입니다. ISNULL(…, 0)로 0 처리해야 더하기 연산이 망가지지 않습니다.

⚠️ 실무 단순화 주의 "팔로워 수 + 좋아요 수" 단순합은 학습용 예시입니다. 실무에서는 PageRank, HITS, Eigenvector centrality 같은 지표가 훨씬 견고합니다 — "유명한 사람을 많이 팔로우하는 게 단순히 무명인 사람 100명을 팔로우하는 것보다 점수가 높아야" 하기 때문입니다. SQL Graph 자체는 PageRank 내장 함수를 제공하지 않으므로, 본격 분석은 외부 그래프 엔진(Neo4j GDS, Spark GraphFrames 등)이나 Python(networkx)으로 옮겨 수행하는 것이 일반적입니다.

6. SHORTEST_PATH — 최단 경로 탐색

SQL Server 2019부터는 두 노드 간의 최단 경로를 자동으로 찾아주는 SHORTEST_PATH 키워드가 추가되었습니다. "6단계 분리 이론"을 직접 검증해 볼 수 있는 강력한 기능입니다. (Azure SQL Database도 동일한 호환성 레벨에서 지원합니다.)

6.1: "X명까지의 모든 도달 가능 노드"

-- 김원일에서 출발해 follows 경로상 모든 도달 가능한 사람과 거리 
SELECT 
    LAST_VALUE(Person2.Name) WITHIN GROUP (GRAPH PATH) AS Reachable, 
    STRING_AGG(Person2.Name, ' → ') WITHIN GROUP (GRAPH PATH) AS Path, 
    COUNT(Person2.PersonId)  WITHIN GROUP (GRAPH PATH) AS Distance 
FROM 
    Person AS Person1, 
    follows FOR PATH AS f, 
    Person  FOR PATH AS Person2 
WHERE MATCH( SHORTEST_PATH( Person1( -(f)->Person2 )+ ) ) 
  AND Person1.Name = N'김원일' 
ORDER BY Distance;

이 쿼리는 김원일이 follows 경로로 도달 가능한 모든 사람과 그 사람까지의 최단 거리, 그리고 거치는 경로를 한꺼번에 반환합니다. 거리 1(직접 팔로우), 거리 2(친구의 친구), 거리 3 형태로 자연스럽게 묶입니다.

⚠️SHORTEST_PATH 사용상 주의 SHORTEST_PATH는 "엣지 가중치"를 고려하지 않는 단순 BFS입니다. 가중치가 있는 최단 경로(다익스트라)가 필요하면 SQL Graph로는 직접 구현할 수 없고, 외부 그래프 엔진을 사용해야 합니다. 하나의 패턴 안에 SHORTEST_PATH는 한 번만 사용 가능합니다. 큰 그래프에서는 시작 노드를 매우 좁게 좁히지 않으면 (예: WHERE Person1.Name = …) 폭발적으로 느려질 수 있습니다. 데이터베이스 호환성 레벨이 140 이상(SQL Server 2019, Azure SQL DB 최신)이어야 합니다.

7. 성능 최적화

7.1 인덱스 전략

그래프 테이블도 결국 일반 테이블이므로, 일반 SQL Server의 인덱스 전략이 그대로 적용됩니다. 다만 자주 검색되는 시작 노드의 비즈니스 키와, 엣지의 $from_id, $to_id 시스템 컬럼에 인덱스가 잘 걸려 있는지가 핵심입니다.


-- 노드 테이블의 자주 검색되는 컬럼에 인덱스 
CREATE INDEX IX_Person_Name  ON Person(Name); 
CREATE INDEX IX_Post_Title   ON Post(Title);

-- 엣지 테이블의 시스템 컬럼에 인덱스 (★ 가장 중요) 
CREATE INDEX IX_follows_from ON follows($from_id); 
CREATE INDEX IX_follows_to   ON follows($to_id); 
CREATE INDEX IX_likes_from   ON likes($from_id); 
CREATE INDEX IX_likes_to     ON likes($to_id); 
CREATE INDEX IX_wrote_from   ON wrote($from_id); 
CREATE INDEX IX_wrote_to     ON wrote($to_id);

① 시작점 좁히기용 인덱스

IX_Person_Name 같은 비즈니스 컬럼 인덱스는 "Name = N'김원일'" 같은 조건이 시작 노드를 빠르게 찾도록 도와줍니다. 시작 노드를 좁히지 못하면 그래프 전체를 훑게 되어 성능 저하의 가장 흔한 원인이 됩니다.

② $from_id, $to_id 인덱스

그래프 탐색은 본질적으로 "엣지의 한쪽 끝 ID를 기준으로 다른 쪽을 찾는" 연산의 반복입니다. 이 두 컬럼이 인덱스 없이 풀 스캔되면 N홉 쿼리가 N제곱으로 느려집니다. 엣지 테이블을 만들면 거의 자동 반사로 두 인덱스를 함께 만드세요.

③ 복합 인덱스 고려

특정 조건(예: 특정 기간의 follows만)이 자주 함께 들어간다면 ($from_id, FollowDate) 같은 복합 인덱스가 더 유리할 수 있습니다. 단순 단일 컬럼 인덱스만 무한정 만드는 것이 능사는 아닙니다.

7.2 모범 사례

1. 명명 규칙

Node는 단수 명사 단수형(Person, Post), Edge는 동사 또는 관계명(follows, likes, wrote). 엣지가 동사형이면 패턴이 자연어처럼 읽힙니다.

2. 데이터 무결성

엣지 제약 조건을 적극 활용해 잘못된 노드 타입 사이에 엣지가 만들어지지 않도록.

3. 성능 모니터링

실행 계획에서 Edge Scan, Filter 비용이 큰 단계를 찾아내고, 인덱스/통계 갱신을 주기적으로 수행.

4. 홉 수 제한

가능한 한 명시적인 N-hop 쿼리(2~3홉)로 작성하고, 무제한 SHORTEST_PATH는 시작 노드가 충분히 좁혀진 경우에만.

8. 관계형 + 그래프 통합

8.1 하이브리드 쿼리

Graph DB의 가장 큰 장점 중 하나는 기존 관계형 테이블과 자유롭게 결합할 수 있다는 점입니다. 그래프 패턴 + 일반 JOIN을 한 쿼리에 섞을 수 있어, 별도 NoSQL 그래프 DB로 ETL할 필요 없이 같은 데이터베이스 안에서 모든 분석을 할 수 있습니다.

-- 가정: 일반 관계형 테이블 UserActivity가 있다 
CREATE TABLE UserActivity ( 
    ActivityId    INT IDENTITY PRIMARY KEY, 
    PersonId      INT, 
    ActivityType  NVARCHAR(50), 
    ActivityDate  DATETIME2 DEFAULT GETDATE() 
); 

-- 그래프 패턴 + 관계형 JOIN을 한 쿼리에 섞기 
SELECT 
    p.Name, 
    COUNT(DISTINCT f2.$to_id)  AS FollowingCount, 
    COUNT(DISTINCT ua.ActivityId) AS RecentActivities 
FROM Person p 
LEFT JOIN follows f2     ON f2.$from_id = p.$node_id 
LEFT JOIN UserActivity ua 
       ON p.PersonId = ua.PersonId 
      AND ua.ActivityDate >= DATEADD(day, -7, GETDATE()) 
GROUP BY p.PersonId, p.Name;

① $node_id로 직접 JOIN

MATCH 절을 쓰지 않고도, follows 엣지의 $from_id와 Person의 $node_id를 직접 ON 조건으로 묶을 수 있습니다. 그래프 패턴 표현이 어색한 상황에서 유용한 우회로.

② 관계형 테이블과 자연스럽게 결합

UserActivity는 그래프와 무관한 일반 테이블이지만, PersonId라는 비즈니스 키로 자연스럽게 LEFT JOIN됩니다. 같은 데이터베이스 안에 있다는 것의 큰 이점.

③ COUNT(DISTINCT)의 두 용도

f2.$to_id를 DISTINCT 카운트하면 "팔로잉 인원"을, ua.ActivityId를 DISTINCT 카운트하면 "활동 건수"를 동시에 한 GROUP BY 안에서 산출할 수 있습니다. 두 측면을 각각 별도 쿼리로 만들고 합치는 수고를 덜어줍니다.

8.2 그래프 데이터를 JSON으로 내보내기

그래프를 외부 시스템(D3.js, 시각화 도구 등)에 전달할 때 흔한 형식은 nodes/edges가 분리된 JSON입니다.

-- 노드를 JSON 배열로 
SELECT 
    PersonId   AS id, 
    Name       AS label, 
    'Person'   AS type 
FROM Person 
FOR JSON PATH, ROOT('nodes');  

-- 엣지를 JSON 배열로 
SELECT 
    Person1.PersonId   AS source, 
    Person2.PersonId   AS target, 
    'follows'          AS type 
FROM Person AS Person1, follows, Person AS Person2 
WHERE MATCH(Person1-(follows)->Person2) 
FOR JSON PATH, ROOT('edges');

💡 FOR JSON PATH의 결과 형태 { "nodes": [ {"id":1,"label":"김원일","type":"Person"}, … ] } 형태가 한 줄로 반환됩니다. 필요하면 두 쿼리 결과를 애플리케이션 단에서 합쳐 { nodes:[…], edges:[…] } 형태로 만든 뒤 D3.js force layout 등으로 렌더링하면 됩니다. 대용량 그래프라면 FOR JSON 결과가 행당 2GB 한도에 부딪힐 수 있으므로 페이지 단위로 잘라 내보내는 패턴이 안전합니다.

9. 자주 하는 실수 / 트러블슈팅

9.1 노드/엣지 정의 실수

⚠️ 실수 1: AS NODE / AS EDGE 키워드 누락

증상: 평범한 테이블이 만들어지지만, 이후 MATCH 쿼리에서 "테이블이 그래프 노드/엣지가 아닙니다" 류 에러가 발생.

원인: CREATE TABLE 마지막의 AS NODE 또는 AS EDGE를 빠뜨림.

해결: 테이블을 DROP한 뒤 다시 생성하거나, 새 그래프 테이블을 만들고 데이터를 옮긴 뒤 교체. (일반 테이블 → 그래프 테이블로의 자동 변환은 지원되지 않음.)

⚠️ 실수 2: 엣지 테이블에 PRIMARY KEY 추가

증상: 같은 두 노드 사이에 여러 엣지를 만들 수 없게 됨. 예) "한 사람이 같은 게시물을 두 번 좋아요"가 안 됨.

원인: $edge_id가 시스템 PK 역할을 하는데, 추가로 사용자 PK를 두면 의도치 않은 유일성 제약이 걸림.

해결: 엣지 테이블에는 일반 PK를 두지 않습니다. 유일성이 정말 필요하면 UNIQUE INDEX로 명시적으로 표현.

9.2 INSERT 단계의 실수

⚠️ 실수 3: $node_id를 직접 INSERT하려 함

증상: "$node_id 컬럼에 직접 값을 삽입할 수 없습니다" 류 에러.

원인: $node_id는 시스템이 자동 생성하는 컴퓨티드 컬럼. 사용자가 값을 넣을 수 없습니다.

해결: INSERT INTO Person (PersonId, Name, …) VALUES … 형태로, 시스템 컬럼은 빼고 비즈니스 컬럼만 명시.

⚠️ 실수 4: 엣지 INSERT 시 NULL $from_id / $to_id

증상: 엣지가 만들어졌지만 MATCH 쿼리에서 잡히지 않음.

원인: 서브쿼리 (SELECT $node_id FROM Person WHERE PersonId = 999)가 매칭 행이 없어 NULL을 반환했고, NULL인 채로 INSERT됨.

해결: 서브쿼리 작성 시 비즈니스 키가 실제 존재하는지 먼저 확인. 또는 INSERT 전에 EXISTS 체크를 추가하거나, 트랜잭션 + RAISERROR 패턴으로 안전망 구성.

9.3 MATCH 절 작성 실수

⚠️ 실수 5: MATCH를 SELECT 절에 적음

증상: "MATCH 절은 WHERE 절에서만 사용할 수 있습니다" 에러.

원인: 익숙한 SQL 사고방식으로 SELECT나 FROM 위치에 MATCH를 두려고 함.

해결: MATCH는 반드시 WHERE 절 안에 위치. 일반 비교 조건은 AND로 자유롭게 결합.

⚠️ 실수 6: FROM 절에 같은 테이블 별칭 누락

증상: "Person이 두 번 사용되었지만 별칭이 없습니다" 류 에러.

원인: 한 패턴에 같은 노드 타입이 여러 번 등장할 때 별칭(AS Person1, AS Person2)을 부여하지 않음.

해결: 같은 테이블이 한 패턴에 두 번 이상 나오면 반드시 다른 별칭을 부여.

⚠️ 실수 7: MATCH 패턴 안에 비교 연산자

증상: 컴파일 에러.

원인: MATCH(Person1.Name = N'김원일'-(follows)->Person2) 처럼 패턴 안에 일반 비교를 넣으려 함.

해결: MATCH 안에는 그래프 패턴만. 일반 비교는 AND로 분리.

9.4 SHORTEST_PATH 관련 실수

⚠️ 실수 8: FOR PATH 키워드 누락

증상: "SHORTEST_PATH 함수의 인수에는 FOR PATH 별칭이 필요합니다" 류 에러.

원인: 가변 길이 패턴 안의 노드/엣지 변수에 FOR PATH 표시가 빠짐.

해결: follows FOR PATH AS f, Person FOR PATH AS Person2 형태로 모든 반복 패턴 변수에 FOR PATH 추가.

⚠️ 실수 9: 호환성 레벨이 낮음

증상: SHORTEST_PATH 키워드 자체를 인식하지 못함.

원인: 데이터베이스 호환성 레벨 < 140.

해결: ALTER DATABASE [DBName] SET COMPATIBILITY_LEVEL = 140; (또는 더 높음). Azure SQL DB에서는 보통 자동으로 최신 레벨이지만, 마이그레이션된 DB는 확인 필요.

9.5 성능 관련 실수

⚠️ 실수 10: 시작 노드를 좁히지 않은 N-hop 쿼리

증상: 데이터가 조금만 커져도 쿼리가 수십 초 ~ 수 분.

원인: WHERE 절에 시작 노드를 좁히는 조건이 없어, 모든 노드 쌍에 대해 N-hop 패턴을 평가함.

해결: AND Person1.Name = …, Person1.PersonId = … 같은 시작 노드 식별 조건을 반드시 함께 사용. 인덱스(7.1)도 함께 점검.

⚠️ 실수 11: $from_id / $to_id 인덱스 부재

증상: 작은 그래프에서는 빠르지만 데이터 증가에 따라 N제곱으로 느려짐.

원인: 엣지의 $from_id, $to_id에 인덱스가 없어, 매 홉마다 풀 스캔.

해결: 7.1의 모든 엣지 테이블에 ($from_id), ($to_id) 인덱스를 만들고, 통계를 최신 상태로 유지.

9.6 진단용 SQL 모음

-- (1) 모든 그래프 테이블 목록 
SELECT name, is_node, is_edge 
FROM sys.tables 
WHERE is_node = 1 OR is_edge = 1; 

-- (2) 그래프 테이블의 시스템 컬럼 확인 
SELECT t.name AS TableName, c.name AS ColumnName, c.graph_type_desc 
FROM sys.tables t 
JOIN sys.columns c ON t.object_id = c.object_id 
WHERE (t.is_node = 1 OR t.is_edge = 1) AND c.graph_type IS NOT NULL 
ORDER BY t.name, c.column_id;  

-- (3) 엣지 제약 조건 목록 
SELECT OBJECT_NAME(parent_object_id) AS EdgeTable, name AS ConstraintName 
FROM sys.edge_constraints; 

-- (4) 호환성 레벨 확인 
SELECT name, compatibility_level 
FROM sys.databases 
WHERE name = DB_NAME();

Neo4j와 Azure 기반 금융 사기 탐지 실습

1장. 그래프 데이터베이스 이론

1.4 LPG vs RDF — 두 가지 그래프 모델

LPG(Labeled Property Graph) 는 노드와 엣지에 ‘라벨(타입)’을 붙이고 ‘속성(key=value)’을 자유롭게 달 수 있는 모델로, Neo4j가 대표적입니다. RDF(Resource Description Framework) 는 W3C 표준으로 모든 데이터를 ‘주어-서술어-목적어(triple)’로 표현하며, 시맨틱 웹과 지식 그래프 분야에서 강세입니다. 실무에서는 표현력과 학습 곡선의 균형이 좋은 LPG가 더 널리 채택되고 있습니다.

1.5 그래프 DB를 써야 할 ‘세 가지 신호’

모든 데이터를 그래프에 담으려는 것은 망치를 든 사람에게 모든 것이 못으로 보이는 함정입니다. 다음 중 둘 이상이 해당될 때 그래프 DB가 적합합니다.

관계의 깊이가 3-hop 이상. SNS의 친구 추천, 사기 탐지의 우회 거래 등.
관계 자체가 분석 대상. ‘무엇이 연결되어 있는가’가 ‘무엇이 있는가’보다 중요한 도메인. 지식 그래프, 추천 시스템, 사회망 분석.
스키마가 자주 변하거나 다양한 관계 타입이 등장. 새로운 관계 타입을 추가하려고 매번 ALTER TABLE을 하지 않아도 됨.

단순 트랜잭션 처리(OLTP), 회계장부형 데이터, 전통적 보고서 생성, 컬럼 단위 집계 분석 등은 RDB나 데이터 웨어하우스가 훨씬 효율적입니다. 그래프 DB를 강제로 도입하면 오히려 복잡도만 늘어납니다.

1.6 주요 제품 비교

제품	모델	특징	운영 형태
Neo4j	LPG	Cypher 표준, 가장 큰 생태계	셀프호스팅 / AuraDB
Amazon Neptune	LPG + RDF	AWS 통합, Gremlin/SPARQL 지원	AWS 매니지드
Azure Cosmos DB (Gremlin API)	LPG	Azure 통합, 글로벌 분산	Azure 매니지드
TigerGraph	LPG	분산 처리 강점, GSQL	엔터프라이즈
ArangoDB	다중모델	그래프 + 문서 + KV 동시 지원	오픈소스

2장. Neo4j 핵심 개념

2.1 Neo4j 아키텍처 한눈에

Neo4j는 JVM 위에서 동작하는 단일 프로세스 데이터베이스입니다. 클라이언트는 두 가지 프로토콜로 접속합니다. HTTP(7474)는 웹 브라우저 기반 Neo4j Browser용이고, Bolt(7687)은 애플리케이션 드라이버용 바이너리 프로토콜입니다. 스토리지는 ‘기록 파일(record store)’ 구조로, 각 노드와 관계는 고정 크기 레코드로 저장되어 ID 기반 직접 접근(O(1))이 가능합니다. 이것이 N-hop 트래버설이 빠른 핵심 비결입니다 — JOIN 비용 없이 인접 관계의 메모리 주소를 바로 따라갑니다(‘index-free adjacency’).

2.2 LPG 데이터 모델

| 구성요소 | 설명 | 예시 |
|----------|------|------|
| Node | 개체, 라벨로 타입 구분 | (:Account) |
| Relationship | 노드 사이의 방향성 있는 관계 | [:TRANSFER] |
| Property | 노드/관계에 붙는 key=value 데이터 | {amount: 89500000} |
| Label | 노드의 분류 태그 (다중 부착 가능) | :Account:HighRisk |

2.3 Cypher 쿼리 언어

Cypher는 Neo4j가 만든 그래프 질의 언어로, 2018년 ISO/IEC GQL 표준의 기반이 되었습니다. 핵심 아이디어는 ‘ASCII 아트로 패턴을 그린다’ 입니다.

// '계좌 A가 계좌 B에게 송금했다'를 그림으로
MATCH (a:Account)-[:TRANSFER]->(b:Account)
RETURN a, b
LIMIT 5;

절	역할	SQL 대응
MATCH	패턴 매칭 (데이터 찾기)	FROM + JOIN + WHERE
WHERE	조건 필터	WHERE
RETURN	결과 반환	SELECT
CREATE	노드/관계 생성	INSERT
MERGE	있으면 매칭, 없으면 생성	UPSERT
WITH	중간 결과 파이프라인	서브쿼리 + AS

2.4 인덱스와 제약조건

인덱스 없는 그래프 DB는 인덱스 없는 RDB보다도 더 빨리 느려집니다. 첫 노드를 어떻게 ‘찾을 것인가(seek)’가 트래버설의 시작점이기 때문입니다. Neo4j 5.x에서는 다음 두 가지를 거의 항상 만들어 둡니다.

// 고유성 제약 (자동으로 인덱스 생성됨)
CREATE CONSTRAINT account_id IF NOT EXISTS
  FOR (a:Account) REQUIRE a.accountId IS UNIQUE;

// 일반 인덱스 (자주 조회하는 속성)
CREATE INDEX account_country IF NOT EXISTS
  FOR (a:Account) ON (a.country);

2.5 GDS — Graph Data Science 라이브러리

Neo4j의 진가는 단순 패턴 매칭을 넘어 그래프 알고리즘까지 한 자리에서 실행할 수 있다는 점입니다. GDS 라이브러리는 다음과 같은 알고리즘을 한 줄로 호출할 수 있게 해 줍니다.

분류	알고리즘	활용 예
중심성	PageRank, Betweenness	허브 계좌 탐지, 영향력 분석
커뮤니티	Louvain, Label Propagation, WCC	공모 집단, 클러스터링
경로	Shortest Path, A*	최단 자금 흐름
유사도	Node Similarity, Jaccard	추천 시스템
임베딩	FastRP, GraphSAGE, Node2Vec	ML 피처 생성

📌 GDS의 동작 원리 GDS는 디스크의 그래프를 그대로 쓰지 않고, 분석 대상 부분을 ‘메모리에 투영(project)’한 뒤 알고리즘을 돌립니다. 큰 그래프에서도 빠른 이유이자, 분석이 끝나면 명시적으로 drop하지 않으면 메모리에 남는 이유이기도 합니다.

3장. Azure 환경 구축

NSG로 본인 IP만 허용 → 7474, 7687 포트 한정 개방

이후 vm 내에서 neo4j 설치

APT 업데이트 + Java 21 설치 — Neo4j 5.x는 OpenJDK 21을 요구합니다.
Neo4j 공식 GPG 키 + APT 저장소 등록 — debian.neo4j.com을 신뢰 저장소로 추가.
apt install neo4j — 5.26.x 안정 버전 설치.
외부 접속 허용 — 기본은 127.0.0.1만 listen하므로 0.0.0.0으로 변경. 보안은 NSG가 담당.
서비스 시작 + 검증 — systemctl로 부팅 시 자동 시작 등록.

💡 메모리 튜닝의 황금률 Neo4j 성능의 80%는 메모리 설정이 좌우합니다. 일반적으로 'heap size 2~4GB' + '나머지 메모리는 page cache'에 할당합니다. 본 실습은 8GB VM 기준 heap 2GB + page cache 1GB로 설정합니다

4장. OpenPay 시나리오

4.1 도메인 모델링

구성	분류	노드/관계
계좌	노드	(:Account {accountId, name, country, createdAt})
디바이스	노드	(:Device {deviceId, type, fingerprint})
IP 주소	노드	(:IPAddress {ipId, address, country, isProxy})
계좌가 디바이스를 소유	관계	(:Account)-[:OWNS]->(:Device)
계좌가 IP에서 접속	관계	(:Account)-[:USED]->(:IPAddress)
계좌가 계좌에 송금	관계	(:Account)-[:TRANSFER {amount, timestamp, channel}]->(:Account)

💡 모델링 원칙 ‘속성으로 표현할 수 있는 것은 노드로 만들지 마라.’ 처음 입문하면 거래 채널(MOBILE/WEB/ATM)도 노드로 만들고 싶어지지만, 이는 트래버설을 무겁게 만들 뿐입니다. 채널은 TRANSFER 관계의 속성으로 충분합니다. 반면 ‘디바이스’는 여러 계좌가 ‘공유’할 가능성이 핵심이므로 반드시 노드여야 합니다.

4.2 데이터 적재

부속 코드 02-data-generation/generate_data.py는 결정론적 시드(SEED=20260506)로 다음 데이터를 생성

// CSV 파일을 한 줄씩 읽어 노드 생성
LOAD CSV WITH HEADERS FROM 'file:///accounts.csv' AS row
CREATE (a:Account {
  accountId: row.accountId,
  name:      row.name,
  country:   row.country,
  createdAt: datetime(row.createdAt)
});

// 관계는 양 끝 노드를 MATCH로 찾고 CREATE
LOAD CSV WITH HEADERS FROM 'file:///transactions.csv' AS row
CALL {
  WITH row
  MATCH (src:Account {accountId: row.fromAccount})
  MATCH (dst:Account {accountId: row.toAccount})
  CREATE (src)-[t:TRANSFER {
    txId:      row.txId,
    amount:    toFloat(row.amount),
    timestamp: datetime(row.timestamp),
    channel:   row.channel
  }]->(dst)
} IN TRANSACTIONS OF 1000 ROWS;

⚠ Neo4j 5.x의 변화 Neo4j 4.x에서 쓰던 'USING PERIODIC COMMIT'은 5.x에서 deprecated되었습니다. 대신 'CALL { ... } IN TRANSACTIONS OF N ROWS' 패턴을 사용해야 큰 CSV도 메모리 부족 없이 적재됩니다.

MATCH (a:Account)   RETURN 'Account'    AS label, count(a) AS cnt
UNION ALL
MATCH ()-[r:TRANSFER]->() RETURN 'TRANSFER' AS label, count(r) AS cnt;

5장. Cypher 사기 탐지 실습

5.1 [ORG-5] 허브 계좌 — 단순 집계로 시작

가장 쉬운 패턴은 ‘비정상적으로 많이 받는 계좌’입니다. RDB의 GROUP BY와 본질적으로 같습니다.

MATCH (sender:Account)-[t:TRANSFER]->(receiver:Account)
RETURN receiver.accountId AS account,
       count(t)           AS in_count,
       sum(t.amount)      AS total_received
ORDER BY in_count DESC
LIMIT 10;

5.2 [ORG-3] SMURFING — WHERE 조건으로 패턴 좁히기

‘100만원 미만 거래를 같은 수신자에게 10회 이상’ — CTR(고액현금거래보고) 기준선을 회피하려는 분할 송금 패턴입니다. WHERE로 금액 임계값을 걸고 count()로 횟수를 셉니다.

MATCH (s:Account)-[t:TRANSFER]->(r:Account)
WHERE t.amount < 1000000
WITH s, r, count(t) AS n_tx, sum(t.amount) AS total
WHERE n_tx >= 10
RETURN s.accountId AS sender,
       r.accountId AS receiver,
       n_tx        AS tx_count,
       round(total) AS total_amount
ORDER BY n_tx DESC;

5.3 [ORG-2] 디바이스 공모 — 양방향 패턴

‘한 디바이스를 여러 계좌가 공유한다’는 SQL로 표현하면 GROUP BY device + HAVING count(*) >= N입니다. Cypher에서는 패턴이 거의 그림 그대로 — (a)-[:OWNS]->(d)<-[:OWNS]-(b) 가 ‘서로 다른 두 계좌가 같은 디바이스를 가리킨다’는 뜻입니다.

MATCH (a:Account)-[:OWNS]->(d:Device)
WITH d, collect(DISTINCT a.accountId) AS accounts
WHERE size(accounts) >= 8
RETURN d.deviceId AS device,
       size(accounts) AS n_accounts,
       accounts
ORDER BY n_accounts DESC;

💡 노이즈는 학습 자료다 결과에 의도 외 계좌가 섞여 있는 것은 버그가 아닙니다. 현실 데이터에는 ‘우연히’ 같은 디바이스를 쓴 가족, 한 디바이스를 두 명이 공유하는 부부 등이 늘 섞여 있습니다. 이런 노이즈와 진짜 사기를 구분하는 능력 자체가 분석가의 몫입니다.

5.4 [ORG-4] 해외 IP 공모 — 다중 조건 결합

디바이스 공모와 같은 패턴이지만 IP가 대상이고, 추가로 ‘국가가 한국이 아님’이라는 조건이 붙습니다.

MATCH (a:Account)-[:USED]->(ip:IPAddress)
WITH ip, collect(DISTINCT a.accountId) AS accounts
WHERE size(accounts) >= 10
  AND ip.country <> 'KR'
RETURN ip.ipId, ip.address, ip.country, ip.isProxy,
       size(accounts) AS n_accounts, accounts
ORDER BY n_accounts DESC;

5.5 [ORG-1] 자금세탁 순환 — 그래프 DB의 강점

여기까지의 패턴은 RDB도 어떻게든 풀 수 있습니다. 하지만 ‘N개 계좌를 거쳐 자금이 출발지로 돌아오는 순환’은 RDB로는 사실상 불가능합니다. 자기 조인 4번을 짜야 하고, 각 단계마다 시간 순서까지 비교해야 하기 때문입니다. Cypher에서는 단 한 줄. 시작 노드와 끝 노드를 같은 변수 a로 묶기만 하면 됩니다.

MATCH path = (a:Account)-[t1:TRANSFER]->(b:Account)
                        -[t2:TRANSFER]->(c:Account)
                        -[t3:TRANSFER]->(d:Account)
                        -[t4:TRANSFER]->(a)
WHERE a <> b AND b <> c AND c <> d AND d <> a
  AND t1.timestamp < t2.timestamp
  AND t2.timestamp < t3.timestamp
  AND t3.timestamp < t4.timestamp
  AND t1.amount > 10000000
RETURN a.accountId, b.accountId, c.accountId, d.accountId,
       round(t1.amount) AS amt1,
       round(t4.amount) AS amt4,
       duration.between(t1.timestamp, t4.timestamp).hours AS hours;

의심도 점수 매기기 탐지를 넘어 우선순위를 매기는 것이 분석가의 다음 일입니다. 다음 두 신호가 강할수록 의심도가 높습니다. (1) 거래 간격이 짧을수록 — 자동화된 자금세탁일 가능성, (2) 금액이 비슷할수록 — 수수료 정도만 빠지는 패턴.

6장. GDS 알고리즘 응용

gds 설치

cd /var/lib/neo4j/plugins/
sudo wget https://github.com/neo4j/graph-data-science/releases/download/2.13.2/neo4j-graph-data-science-2.13.2.jar -O neo4j-graph-data-science.jar

sudo systemctl restart neo4j

6.1 그래프 프로젝션 — GDS의 첫 단계

GDS는 디스크 그래프가 아닌 ‘메모리 투영본’에서 알고리즘을 돌립니다. 분석할 부분만 골라 메모리에 올리는 작업이 프로젝션입니다.

CALL gds.graph.project(
  'fraud-graph',
  'Account',
  {
    TRANSFER: {
      orientation: 'NATURAL',
      properties: 'amount'
    }
  }
);

6.2 PageRank — 허브 식별의 정교한 버전

PageRank는 본래 1998년 구글 검색이 등장하면서 ‘웹페이지 중요도’를 매기기 위해 만들어졌습니다. 핵심 직관은 ‘중요한 페이지로부터 링크받은 페이지는 중요하다’ 입니다. 이 직관을 거래 그래프에 적용하면, 단순 ‘수신 건수’를 넘어 ‘중요한 계좌로부터 송금받은 계좌’가 더 높은 점수를 받습니다.

CALL gds.pageRank.stream('fraud-graph', {
  maxIterations: 20,
  dampingFactor: 0.85,
  relationshipWeightProperty: 'amount'
})
YIELD nodeId, score
WITH gds.util.asNode(nodeId) AS account, score
RETURN account.accountId, round(score * 100) / 100 AS pagerank
ORDER BY pagerank DESC LIMIT 10;

6.3 Weakly Connected Components — 공모 집단

WCC는 ‘방향 무시하고 한 덩어리로 연결된 노드들’을 찾는 알고리즘입니다. 디바이스/IP 공유 그래프에서 연결된 컴포넌트는 곧 ‘같은 자원을 통해 연결된 계좌 집단’ — 즉 잠재적 공모 그룹입니다.

CALL gds.graph.project.cypher(
  'shared-resource-graph',
  'MATCH (a:Account) RETURN id(a) AS id',
  '
   MATCH (a1:Account)-[:OWNS]->(:Device)<-[:OWNS]-(a2:Account)
   WHERE id(a1) < id(a2)
   RETURN id(a1) AS source, id(a2) AS target
   UNION
   MATCH (a1:Account)-[:USED]->(:IPAddress)<-[:USED]-(a2:Account)
   WHERE id(a1) < id(a2)
   RETURN id(a1) AS source, id(a2) AS target
  '
);

CALL gds.wcc.stream('shared-resource-graph')
YIELD nodeId, componentId
WITH componentId, collect(gds.util.asNode(nodeId).accountId) AS members
WHERE size(members) >= 6
RETURN componentId, size(members) AS size, members
ORDER BY size DESC;

6.4 Louvain — 거래 흐름 기반 커뮤니티

Louvain은 모듈러리티 최적화 기반 커뮤니티 탐지 알고리즘입니다. ‘안에서는 빽빽하게 연결되어 있고, 밖으로는 듬성듬성 연결된’ 노드 집단을 찾습니다. 거래 흐름에 적용하면 ‘끼리끼리 거래하는 그룹’이 드러납니다.

CALL gds.louvain.stream('fraud-graph', {
  relationshipWeightProperty: 'amount'
})
YIELD nodeId, communityId
WITH communityId, collect(gds.util.asNode(nodeId).accountId) AS members
WHERE size(members) >= 3 AND size(members) <=30
RETURN communityId, size(members) AS size, members[0..10] AS sample
ORDER BY size DESC LIMIT 10;

📌 알고리즘의 한계 이해하기 Louvain은 거래 흐름을 보지 디바이스/IP는 보지 않습니다. 즉 ORG-2/ORG-4(자원 공모)는 Louvain만으로는 잡히지 않습니다.

6.5 메모리 정리

CALL gds.graph.drop('fraud-graph') YIELD graphName RETURN graphName;
CALL gds.graph.drop('shared-resource-graph') YIELD graphName RETURN graphName;

[MicrosoftDataSchool] 82일차 - Azure SQL Index

Thu, 07 May 2026 00:39:19 GMT

SQL Server 성능 튜닝 실습 정리 - 인덱스, 실행 계획, Blocking, Query Store

SQL Server 성능 튜닝을 제대로 이해하려면 가장 먼저 알아야 하는 것이 바로 인덱스(Index) 이다.

이번 실습에서도:

Fragmentation
Key Lookup
Execution Plan
Query Store
Blocking

같은 다양한 성능 이슈를 다뤘지만, 결국 대부분의 문제는 인덱스와 연결되어 있었다.

따라서 본격적인 실습 내용을 보기 전에, 먼저 SQL Server 인덱스 개념을 정리하고 시작한다.

인덱스(Index)란?

인덱스는 데이터를 빠르게 찾기 위한 자료구조이다.

책에서 원하는 내용을 찾을 때:

책 전체를 처음부터 끝까지 읽지 않고
맨 뒤의 색인(Index)을 먼저 보는 것과 비슷하다.

SQL Server에서도 인덱스가 없다면 원하는 데이터를 찾기 위해 테이블 전체를 읽어야 한다.

이를 Table Scan이라고 한다.

데이터 양이 적을 때는 큰 문제가 없지만, 데이터가 수백만 건 이상으로 증가하면 성능 차이가 매우 커진다.

인덱스가 필요한 이유

1. 검색 속도 향상

인덱스는 원하는 데이터 위치를 빠르게 찾을 수 있게 해준다.

예를 들어:

SELECT *
FROM Users
WHERE Email = 'test@test.com'

같은 쿼리에서 Email 컬럼에 인덱스가 존재하면 SQL Server는 전체 데이터를 읽지 않고 필요한 데이터만 바로 찾을 수 있다.

2. 디스크 I/O 감소

인덱스가 없으면 SQL Server는 테이블 전체를 읽는다.

즉:

더 많은 페이지 읽기
더 많은 디스크 접근
더 많은 메모리 사용

이 발생한다.

인덱스를 사용하면 필요한 데이터만 읽기 때문에 I/O가 감소한다.

3. 대규모 시스템 필수 요소

실제 운영 환경에서는:

수많은 사용자
동시 요청
대량 데이터

를 처리해야 한다.

인덱스 없이 운영하면:

응답 속도 저하
CPU 사용량 증가
서버 부하 증가

가 발생한다.

따라서 인덱스는 단순 최적화가 아니라 필수 요소에 가깝다.

SQL Server의 인덱스 구조

SQL Server는 대부분 B-Tree(B+Tree) 구조를 사용한다.

구조는 다음과 같다.

구조	역할
Root Node	검색 시작점
Intermediate Node	중간 탐색
Leaf Node	실제 데이터 또는 데이터 위치 저장

B-Tree 구조 동작 방식

예를 들어 다음과 같은 데이터가 있다고 가정한다.

1, 5, 10, 20, 50, 100

SQL Server는 이 값을 트리 형태로 정렬하여 저장한다.

검색 시에는:

Root Node 탐색
중간 노드 이동
Leaf Node 도달

과정을 거친다.

즉:

전체 데이터를 순차 탐색하지 않아도 된다.

이것이 인덱스가 빠른 이유이다.

Clustered Index

Clustered Index는 실제 데이터 자체가 정렬된다.

즉:

데이터 저장 순서
인덱스 순서

가 동일하다.

특징

특징	설명
테이블당 1개만 가능	실제 데이터 순서는 하나만 존재 가능
범위 검색에 강함	BETWEEN, ORDER BY 최적화
Primary Key에 자주 사용	기본 키 생성 시 자동 생성되는 경우 많음

Clustered Index 예시

CREATE CLUSTERED INDEX IX_Users_Id
ON Users(UserId);

이 경우 Users 테이블 데이터 자체가 UserId 기준으로 정렬된다.

Nonclustered Index

Nonclustered Index는 실제 데이터와 별도 구조로 존재한다.

인덱스에는:

키 값
데이터 위치 포인터

만 저장된다.

구조 특징

구조	설명
별도 인덱스 구조 존재	데이터와 분리
Leaf Node	실제 데이터 위치 저장
여러 개 생성 가능	최대 999개

Nonclustered Index 예시

CREATE NONCLUSTERED INDEX IX_Users_Email
ON Users(Email);

이 경우 Email 기반 검색이 빨라진다.

Index Seek vs Table Scan

실행 계획에서 가장 중요하게 보는 것 중 하나가:

Index Seek
Table Scan

이다.

Table Scan

Table Scan은 테이블 전체를 읽는다.

즉:

1행부터 끝까지 전부 읽음

데이터가 많을수록 매우 느려진다.

Index Seek

Index Seek는 필요한 데이터만 찾는다.

즉:

원하는 위치만 바로 접근

따라서 훨씬 빠르다.

실행 계획에서 확인 가능

실행 계획(Execution Plan)에서:

Table Scan 발생 여부
Index Seek 사용 여부

를 확인할 수 있다.

튜닝에서 가장 기본적으로 보는 부분이다.

Covering Index

Covering Index는 쿼리에 필요한 모든 컬럼이 인덱스에 포함된 경우를 말한다.

즉:

추가 테이블 접근 없이
인덱스만 읽어서
결과 반환 가능

하다.

INCLUDE 사용

CREATE INDEX IX_Orders_CustomerId
ON Orders(CustomerId)
INCLUDE (OrderDate, TotalAmount);

장점

장점	설명
Key Lookup 제거	추가 테이블 접근 감소
Logical Read 감소	성능 향상
실행 계획 단순화	I/O 절약

Key Lookup

Key Lookup은 SQL Server가:

인덱스로 위치 찾고
원본 데이터 다시 접근

하는 작업이다.

즉:

인덱스만으로 필요한 컬럼이 부족함

을 의미한다.

왜 문제인가?

Key Lookup은:

랜덤 I/O 증가
페이지 접근 증가
성능 저하

를 유발한다.

특히 결과 건수가 많을수록 심각해진다.

Fragmentation(조각화)

데이터가 지속적으로 변경되면 인덱스 페이지 순서가 깨진다.

이를 Fragmentation이라고 한다.

조각화 발생 원인

작업	영향
INSERT	페이지 분할 발생
UPDATE	데이터 이동 발생
DELETE	빈 공간 증가

조각화 문제점

문제	설명
디스크 I/O 증가	페이지 순서 깨짐
Logical Read 증가	더 많은 페이지 읽기
성능 저하	응답 속도 감소

Fragmentation 확인

SQL Server에서는 다음 DMV로 확인 가능하다.

sys.dm_db_index_physical_stats

REORGANIZE vs REBUILD

조각화 해결 방법은 크게 2가지이다.

구분	REORGANIZE	REBUILD
방식	페이지 재정렬	인덱스 새 생성
부하	낮음	높음
통계 갱신	X	O
추천 구간	10~30%	30% 이상

실행 계획(Execution Plan)

SQL Server는 쿼리를 실행하기 전에:

“어떻게 실행하는 것이 가장 효율적인가”

를 계산한다.

이 결과가 실행 계획이다.

실행 계획에서 보는 주요 요소

요소	의미
Index Seek	효율적 검색
Index Scan	인덱스 전체 탐색
Table Scan	테이블 전체 탐색
Key Lookup	원본 데이터 재접근
Hash Match	해시 기반 조인
Sort	정렬 작업

Query Optimizer

실행 계획은 Query Optimizer가 생성한다.

Optimizer는:

인덱스
통계 정보
데이터 분포
비용 계산

을 기반으로 가장 효율적이라고 판단한 플랜을 선택한다.

하지만 항상 완벽하지는 않다.

따라서:

잘못된 실행 계획
비효율 플랜
Parameter Sniffing

같은 문제도 발생한다.

Query Store

SQL Server의 Query Store는:

실행 계획 저장
느린 쿼리 분석
성능 Regression 추적

기능을 제공한다.

특히:

이전보다 느려진 쿼리
플랜 변경
강제 플랜 적용(Force Plan)

분석에 매우 유용하다.

Blocking

Blocking은 트랜잭션이 서로 Lock을 기다리는 현상이다.

예를 들어:

세션 A가 UPDATE 수행
COMMIT 안 함
세션 B가 같은 데이터 읽기 시도

하면 세션 B는 대기 상태가 된다.

Snapshot Isolation

Blocking 완화를 위해 SQL Server는 Snapshot 기반 격리 수준을 제공한다.

대표적으로:

READ_COMMITTED_SNAPSHOT

이 있다.

핵심 개념

기존 Read Committed:

Lock 기다림

Snapshot 기반:

이전 버전(Row Version) 읽음

즉:

Reader와 Writer 충돌 감소

효과가 있다.

이번 실습에서 중요했던 핵심 포인트

이번 실습의 핵심은 단순 SQL 문법이 아니었다.

진짜 중요한 것은:

왜 실행 계획이 그렇게 나오는가
왜 인덱스가 필요한가
왜 Key Lookup이 성능 병목이 되는가
왜 Fragmentation이 Logical Read를 증가시키는가
왜 Blocking이 발생하는가

를 SQL Server 내부 동작 관점에서 이해하는 것이었다.

Lab07 - Fragmentation 실습

이번 실습에서는 조각화를 의도적으로 발생시켰다.

1. 조각화 상태 확인

USE AdventureWorks2017
GO

SELECT i.name Index_Name
, avg_fragmentation_in_percent
, db_name(database_id)
, i.object_id
, i.index_id
, index_type_desc
FROM sys.dm_db_index_physical_stats(
    db_id('AdventureWorks2017'),
    object_id('person.address'),
    NULL,
    NULL,
    'DETAILED'
) ps
INNER JOIN sys.indexes i
ON ps.object_id = i.object_id
AND ps.index_id = i.index_id
WHERE avg_fragmentation_in_percent > 50

처음에는 조각화가 거의 없기 때문에 결과가 나오지 않는다.

2. 데이터 대량 INSERT

USE AdventureWorks2017
GO

INSERT INTO [Person].[Address]
(
    [AddressLine1],
    [AddressLine2],
    [City],
    [StateProvinceID],
    [PostalCode],
    [SpatialLocation],
    [rowguid],
    [ModifiedDate]
)
SELECT
    AddressLine1,
    AddressLine2,
    'Amsterdam',
    StateProvinceID,
    PostalCode,
    SpatialLocation,
    newid(),
    getdate()
FROM Person.Address;
GO

이 작업으로 Person.Address 테이블 크기가 증가하며 페이지 분할(Page Split)이 발생한다.

결과적으로 인덱스 조각화율이 크게 증가한다.

3. 논리적 읽기(Logical Read) 측정

SET STATISTICS IO,TIME ON
GO

USE AdventureWorks2017
GO

SELECT DISTINCT (StateProvinceID)
,count(StateProvinceID) AS CustomerCount
FROM person.Address
GROUP BY StateProvinceID
ORDER BY count(StateProvinceID) DESC;
GO

메시지 탭에서 Logical Read 값을 확인할 수 있다.

조각화가 심해질수록 더 많은 페이지를 읽게 된다.

인덱스 REBUILD

조각화 문제 해결을 위해 REBUILD를 수행한다.

USE AdventureWorks2017
GO

ALTER INDEX [IX_Address_StateProvinceID]
ON [Person].[Address]
REBUILD PARTITION = ALL

REBUILD는 인덱스를 새로 만드는 작업이다.

결과:

Fragmentation 감소
Logical Read 감소
쿼리 성능 향상

REORGANIZE vs REBUILD

구분	REORGANIZE	REBUILD
방식	페이지 재정렬	인덱스 새 생성
부하	낮음	높음
통계 갱신	X	O
권장 구간	10~30%	30% 이상

실행 계획(Execution Plan)

SQL Server는 쿼리를 실행하기 전에 “어떻게 실행할지” 계획을 만든다.

이것이 Execution Plan이다.

실행 계획을 통해:

Index Seek
Table Scan
Key Lookup
Hash Match

등이 어떻게 발생하는지 확인할 수 있다.

Lab09 - 암시적 형 변환(Implicit Conversion)

다음 쿼리를 실행했다.

SELECT BusinessEntityID,
       NationalIDNumber,
       LoginID,
       HireDate,
       JobTitle
FROM HumanResources.Employee
WHERE NationalIDNumber = 14417807;

실행 계획에서 경고가 발생했다.

원인은 Implicit Conversion이다.

왜 발생했는가?

NationalIDNumber 컬럼 타입은:

nvarchar(15)

이다.

하지만 비교값은 숫자(INT)이다.

따라서 SQL Server가 내부적으로:

CONVERT_IMPLICIT(...)

를 수행한다.

문제점

Implicit Conversion은 다음 문제를 만든다.

문제	설명
CPU 증가	형 변환 연산 발생
인덱스 비효율	Seek 최적화 방해
실행 계획 악화	Optimizer가 비효율 플랜 선택

해결 방법 1 - 쿼리 수정

WHERE NationalIDNumber = '14417807';

문자열로 맞춰주면 된다.

이렇게 하면:

경고 제거
실행 계획 개선
인덱스 활용 가능

해진다.

해결 방법 2 - 컬럼 타입 변경

ALTER TABLE [HumanResources].[Employee]
ALTER COLUMN [NationalIDNumber] INT NOT NULL;

하지만 여기서 중요한 문제가 발생한다.

인덱스 문제

NationalIDNumber는 기존 인덱스에서 사용 중이었다.

따라서:

인덱스 DROP
ALTER COLUMN
인덱스 재생성

순서가 필요하다.

즉 운영 환경에서는 다운타임 문제가 발생할 수 있다.

Key Lookup 문제

Lab10에서는 Key Lookup 문제를 분석했다.

실행 계획에서:

Index Seek
Key Lookup(cost 99%)

이 발생했다.

왜 Key Lookup이 발생하는가?

현재 인덱스는:

(ProductID)

만 포함한다.

하지만 SELECT에서 필요한 컬럼은 더 많다.

따라서 SQL Server는:

인덱스로 위치 찾기
원본 데이터 다시 접근

을 수행한다.

이 추가 접근이 Key Lookup이다.

Covering Index

해결 방법은 Covering Index이다.

CREATE NONCLUSTERED INDEX
[IX_SalesOrderDetail_ProductID]

ON [Sales].[SalesOrderDetail]
([ProductID],[ModifiedDate])

INCLUDE (
    [CarrierTrackingNumber],
    [OrderQty],
    [UnitPrice]
)

WITH (DROP_EXISTING = on);

핵심:

필요한 컬럼을 INCLUDE로 포함
인덱스만 읽어서 쿼리 해결 가능

결과:

Key Lookup 제거
Logical Read 감소
성능 향상

Query Store

Query Store는 SQL Server의 성능 분석 기능이다.

활성화:

ALTER DATABASE [AdventureWorks2017]
SET QUERY_STORE = ON;

Query Store로 할 수 있는 것

느린 쿼리 찾기
실행 계획 비교
성능 Regression 추적
좋은 실행 계획 강제 적용

Force Plan

실행 계획 중 더 좋은 플랜을 강제로 사용 가능하다.

실습에서는:

빠른 Plan
느린 Plan

두 개를 비교 후:

Force Plan

기능으로 좋은 플랜을 강제 적용했다.

Blocking

Blocking은 트랜잭션이 서로 잠금을 기다리는 현상이다.

Blocking 실습

세션 1

BEGIN TRANSACTION

UPDATE Person.Person
SET LastName = LastName;

트랜잭션 종료 안 함.

세션 2

SELECT TOP (1000)
    [LastName],
    [FirstName],
    [Title]
FROM Person.Person
WHERE FirstName = 'David'

결과:

무한 대기
Blocking 발생

왜 발생했는가?

첫 번째 세션이 Lock을 유지 중이기 때문이다.

두 번째 세션은 같은 데이터 접근 시도 중이라 대기 상태가 된다.

Extended Events

Blocking 추적을 위해 Extended Events를 사용했다.

blocked_process_report

를 통해:

누가 막는지
어떤 쿼리가 원인인지
어떤 세션인지

확인 가능하다.

READ_COMMITTED_SNAPSHOT

Blocking 완화를 위해 Snapshot Isolation 기반 설정을 적용했다.

ALTER DATABASE AdventureWorks2017
SET READ_COMMITTED_SNAPSHOT ON
WITH ROLLBACK IMMEDIATE;

핵심 개념

기존 Read Committed:

수정 중 데이터 접근 시 대기

READ_COMMITTED_SNAPSHOT:

이전 버전(Row Version) 읽음
Lock 기다리지 않음

즉:

Reader와 Writer 충돌 감소

최종 정리

이번 실습에서는 단순 SQL 작성이 아니라 실제 운영 환경 수준의 SQL Server 성능 튜닝 과정을 경험했다.

특히 다음 내용을 실제로 확인할 수 있었다.

인덱스 구조와 동작 방식
Fragmentation이 성능에 미치는 영향
실행 계획 분석
Implicit Conversion 문제
Key Lookup 제거 방법
Covering Index 설계
Query Store 기반 분석
Blocking 및 Snapshot Isolation

결국 SQL 성능 튜닝의 핵심은:

“왜 SQL Server가 그런 실행 계획을 선택했는가”

를 이해하는 것이라는 점을 확인할 수 있었다.

[MicrosoftDataSchool] 81일차 - SQL Server VM → Azure SQL Database 마이그레이션, 데이터베이스 조각화

Mon, 04 May 2026 01:02:51 GMT

CarMarket 중고차 MVP — IaaS에서 PaaS로

아키텍처 개요

#!/usr/bin/env bash
# ============================================================
# 01-setup-vm-sqlserver.sh
# Azure VM 생성 → SQL Server 2025 설치 → 외부 SSMS 접근 → 시딩
#
# 로컬 PC (Mac/Linux/WSL) 에서 실행
#
# 사용법:
#   bash 01-setup-vm-sqlserver.sh
#
# 환경변수 사전 설정 가능:
#   export RG=rg-carmarket-lab LOC=koreacentral SA_PASSWORD='YourP@ssw0rd!'
#   bash 01-setup-vm-sqlserver.sh
# ============================================================

set -euo pipefail

# =============================================================
# 기본값
# =============================================================
RG="${RG:-rg-carmarket-lab}"
LOC="${LOC:-koreacentral}"
VM="${VM:-vm-carmarket-$(date +%m%d)}"
VM_SIZE="${VM_SIZE:-Standard_B2s}"
USER_NAME="${USER_NAME:-azureuser}"
SSH_KEY="${SSH_KEY:-$HOME/.ssh/id_rsa.pub}"
SA_PASSWORD="${SA_PASSWORD:-}"
REPO_URL="https://github.com/jhjwlee/sqlvm_usedcar.git"

# 색상
G='\033[0;32m'; Y='\033[0;33m'; R='\033[0;31m'; B='\033[0;34m'; NC='\033[0m'
banner() { echo ""; echo -e "${B}═══════════════════════════════════════════════════${NC}"; echo -e "${B}  $1${NC}"; echo -e "${B}═══════════════════════════════════════════════════${NC}"; }
step()   { echo ""; echo -e "${G}▶ [$1/$TOTAL_STEPS]${NC} $2"; }
ok()     { echo -e "${G}  ✓${NC} $1"; }
warn()   { echo -e "${Y}  ⚠${NC} $1"; }
fail()   { echo -e "${R}  ✗${NC} $1"; }
abort()  { echo -e "${R}❌ $1${NC}"; exit 1; }

TOTAL_STEPS=8
LOG_FILE="/tmp/carmarket-setup-$(date +%Y%m%d-%H%M%S).log"
exec > >(tee -a "$LOG_FILE") 2>&1

banner "CarMarket Lab — VM + SQL Server + SSMS 접근 자동 설정"
echo "  리소스 그룹: $RG"
echo "  위치:       $LOC"
echo "  VM 이름:    $VM"
echo "  VM 크기:    $VM_SIZE"
echo "  로그 파일:  $LOG_FILE"

# =============================================================
# Step 1: 사전 점검
# =============================================================
step 1 "사전 점검 (Azure CLI · SSH 키 · 로그인)"

command -v az >/dev/null 2>&1 || abort "Azure CLI 미설치. https://aka.ms/azcli"
ok "Azure CLI: $(az version --query '\"azure-cli\"' -o tsv 2>/dev/null || echo 'unknown')"

if ! az account show >/dev/null 2>&1; then
  warn "Azure 로그인 필요"
  az login
fi
ok "구독: $(az account show --query name -o tsv)"

if [ ! -f "$SSH_KEY" ]; then
  warn "SSH 키 없음 → 자동 생성"
  ssh-keygen -t rsa -b 4096 -N "" -f "${SSH_KEY%.pub}" -q
fi
ok "SSH 키: $SSH_KEY"

# =============================================================
# Step 2: SA 비밀번호 입력
# =============================================================
step 2 "SA 비밀번호 설정"

if [ -z "$SA_PASSWORD" ]; then
  echo "  SQL Server SA 비밀번호를 입력하세요."
  echo "  요구사항: 8자+ / 대·소문자·숫자·특수문자 중 3종 이상"
  echo "  예) CarMarket@2026"
  while true; do
    read -s -p "  SA Password: " SA_PASSWORD; echo ""
    read -s -p "  Confirm:     " SA_CONFIRM;  echo ""
    if [ "$SA_PASSWORD" = "$SA_CONFIRM" ] && [ ${#SA_PASSWORD} -ge 8 ]; then
      break
    fi
    echo -e "${R}  비밀번호 불일치 또는 8자 미만. 재입력.${NC}"
  done
fi
ok "SA 비밀번호 설정 완료 (${#SA_PASSWORD}자)"

# 비용 안내
echo ""
echo "  예상 비용: VM(B2s) ≈ \$0.5/일"
echo "  예상 시간: 약 10~15분"
read -p "  진행? (y/N): " ok_proceed
[[ "$ok_proceed" =~ ^[Yy]$ ]] || abort "취소됨"

# =============================================================
# Step 3: Resource Group + VM 생성
# =============================================================
step 3 "Azure 리소스 생성 (RG + VM)"

if az group show -n "$RG" >/dev/null 2>&1; then
  ok "RG '$RG' 이미 존재 (재사용)"
else
  az group create -n "$RG" -l "$LOC" --output none
  ok "RG '$RG' 생성"
fi

if az vm show -g "$RG" -n "$VM" >/dev/null 2>&1; then
  warn "VM '$VM' 이미 존재 → 재사용"
else
  echo "  → VM 생성 중 (3~5분)..."
  az vm create \
    --resource-group "$RG" \
    --name "$VM" \
    --image Ubuntu2404 \
    --size "$VM_SIZE" \
    --admin-username "$USER_NAME" \
    --ssh-key-values "$SSH_KEY" \
    --public-ip-sku Standard \
    --storage-sku Premium_LRS \
    --os-disk-size-gb 32 \
    --output none
  ok "VM '$VM' 생성 완료"
fi

PUBIP=$(az vm show -d -g "$RG" -n "$VM" --query publicIps -o tsv)
ok "Public IP: $PUBIP"

# =============================================================
# Step 4: NSG 포트 오픈 (22, 1433, 5000)
# =============================================================
step 4 "NSG 포트 오픈 — SSH(22) + SQL(1433) + Flask(5000)"

# NSG 이름 자동 탐색
NSG_NAME=$(az network nsg list -g "$RG" --query "[0].name" -o tsv 2>/dev/null || echo "${VM}NSG")

open_port() {
  local PORT=$1 PRIORITY=$2 NAME=$3
  if az network nsg rule show -g "$RG" --nsg-name "$NSG_NAME" -n "$NAME" >/dev/null 2>&1; then
    ok "$NAME ($PORT) 이미 존재"
  else
    az vm open-port -g "$RG" -n "$VM" --port "$PORT" --priority "$PRIORITY" --output none 2>/dev/null || true
    ok "$NAME ($PORT) 오픈"
  fi
}

open_port 1433 1010 "allow_sql_1433"
open_port 5000 1020 "allow_flask_5000"
ok "NSG 규칙 적용 완료"

# =============================================================
# Step 5: SSH 대기 + 접속
# =============================================================
step 5 "SSH 연결 대기"

echo "  → SSH 준비 대기 (최대 90초)..."
for i in $(seq 1 45); do
  if ssh -o StrictHostKeyChecking=no -o ConnectTimeout=3 -o BatchMode=yes \
     "$USER_NAME@$PUBIP" "echo ready" >/dev/null 2>&1; then
    ok "SSH 연결 가능"
    break
  fi
  sleep 2
  [ $i -eq 45 ] && abort "SSH 연결 90초 타임아웃"
done

# =============================================================
# Step 6: VM 내부 — SQL Server 설치 (0.0.0.0 바인딩)
# =============================================================
step 6 "VM 내부: SQL Server 2025 설치 + 0.0.0.0 바인딩"

ssh -o StrictHostKeyChecking=accept-new "$USER_NAME@$PUBIP" bash -s "$SA_PASSWORD" << 'REMOTE_SCRIPT'
#!/usr/bin/env bash
set -euo pipefail

SA_PASSWORD="$1"
G='\033[0;32m'; NC='\033[0m'
ok() { echo -e "${G}  ✓${NC} $1"; }

echo "=== [VM] 패키지 업데이트 ==="
sudo apt update -qq
sudo apt install -y -qq curl wget gnupg2 software-properties-common \
  apt-transport-https ca-certificates lsb-release git unzip jq > /dev/null
ok "기본 패키지"

# Swap (RAM < 6GB)
RAM_GB=$(free -g | awk 'NR==2{print $2}')
if [ "$RAM_GB" -lt 6 ] && ! swapon --show | grep -q swapfile; then
  sudo fallocate -l 2G /swapfile && sudo chmod 600 /swapfile
  sudo mkswap /swapfile -q && sudo swapon /swapfile
  grep -q "/swapfile" /etc/fstab || echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab > /dev/null
  ok "swap 2GB 활성화"
fi

echo "=== [VM] Microsoft GPG 키 + 저장소 ==="
sudo rm -f /etc/apt/sources.list.d/mssql-server-2022.list /etc/apt/sources.list.d/mssql-server-preview.list
if [ ! -f /usr/share/keyrings/microsoft-prod.gpg ]; then
  curl -fsSL https://packages.microsoft.com/keys/microsoft.asc | \
    sudo gpg --dearmor -o /usr/share/keyrings/microsoft-prod.gpg
fi
curl -fsSL https://packages.microsoft.com/config/ubuntu/24.04/mssql-server-2025.list | \
  sudo tee /etc/apt/sources.list.d/mssql-server-2025.list > /dev/null
curl -fsSL https://packages.microsoft.com/config/ubuntu/24.04/prod.list | \
  sudo tee /etc/apt/sources.list.d/mssql-release.list > /dev/null
sudo apt update -qq
ok "저장소 등록"

echo "=== [VM] SQL Server 설치 ==="
if ! dpkg -l | grep -q "^ii.*mssql-server "; then
  sudo apt install -y -qq mssql-server > /dev/null
  ok "mssql-server 패키지 설치"
else
  ok "mssql-server 이미 설치됨"
fi

if ! sudo systemctl is-active --quiet mssql-server; then
  sudo MSSQL_PID=Developer ACCEPT_EULA=Y MSSQL_SA_PASSWORD="$SA_PASSWORD" \
    /opt/mssql/bin/mssql-conf -n setup > /dev/null
  ok "SQL Server setup (Developer Edition)"
fi

# ★ 핵심: 0.0.0.0 바인딩 (외부 SSMS 접근 허용)
sudo /opt/mssql/bin/mssql-conf set network.ipaddress 0.0.0.0 > /dev/null
sudo systemctl restart mssql-server

echo "=== [VM] SQL Server 시작 대기 ==="
for i in $(seq 1 30); do
  if sudo ss -tlnp 2>/dev/null | grep -q ":1433"; then
    ok "0.0.0.0:1433 listen 확인"
    break
  fi
  sleep 2
  [ $i -eq 30 ] && { echo "❌ 60초 내 시작 안됨"; exit 1; }
done

echo "=== [VM] mssql-tools18 + ODBC ==="
sudo ACCEPT_EULA=Y apt install -y -qq mssql-tools18 unixodbc-dev msodbcsql18 > /dev/null
grep -q "mssql-tools18/bin" "$HOME/.bashrc" || \
  echo 'export PATH="$PATH:/opt/mssql-tools18/bin"' >> "$HOME/.bashrc"
export PATH="$PATH:/opt/mssql-tools18/bin"
ok "mssql-tools18 + ODBC Driver 18"

# 연결 검증
if /opt/mssql-tools18/bin/sqlcmd -S localhost -U sa -P "$SA_PASSWORD" -C -Q "SELECT 1" -h -1 -W 2>/dev/null | grep -q "^1$"; then
  ok "sqlcmd 로컬 연결 성공"
else
  echo "❌ sqlcmd 연결 실패"; exit 1
fi

echo "=== [VM] 완료 ==="
REMOTE_SCRIPT

ok "SQL Server 2025 설치 + 0.0.0.0 바인딩 완료"

# =============================================================
# Step 7: DB 스키마 + 시드 데이터
# =============================================================
step 7 "DB 스키마 + 시드 데이터 적용"

ssh "$USER_NAME@$PUBIP" bash -s "$SA_PASSWORD" "$REPO_URL" << 'SEED_SCRIPT'
#!/usr/bin/env bash
set -euo pipefail
SA_PASSWORD="$1"
REPO_URL="$2"
INSTALL_DIR="$HOME/sqlvm_usedcar"
export PATH="$PATH:/opt/mssql-tools18/bin"

G='\033[0;32m'; NC='\033[0m'
ok() { echo -e "${G}  ✓${NC} $1"; }

# Repo clone
if [ -d "$INSTALL_DIR/.git" ]; then
  cd "$INSTALL_DIR" && git pull --rebase --quiet
else
  [ -d "$INSTALL_DIR" ] && mv "$INSTALL_DIR" "${INSTALL_DIR}.bak.$(date +%s)"
  git clone -q "$REPO_URL" "$INSTALL_DIR"
  cd "$INSTALL_DIR"
fi
ok "Repo clone: $(git rev-parse --short HEAD)"

# Schema
sqlcmd -S localhost -U sa -P "$SA_PASSWORD" -C -i sql/schema.sql > /dev/null
ok "schema.sql 적용 (Users, Cars, Inquiries + 3 indexes)"

# Seed
sqlcmd -S localhost -U sa -P "$SA_PASSWORD" -C -i sql/seed.sql > /dev/null

# 검증
SEED_COUNT=$(sqlcmd -S localhost -U sa -P "$SA_PASSWORD" -C -d CarMarket \
  -Q "SELECT COUNT(*) FROM Cars" -h -1 -W 2>/dev/null | head -1 | tr -d ' \r')
if [ "$SEED_COUNT" = "5" ]; then
  ok "seed.sql 적용 (Users 5건, Cars 5건)"
else
  echo "⚠ Cars 행 수: $SEED_COUNT (예상 5)"
fi
SEED_SCRIPT

ok "CarMarket DB 시딩 완료"

# =============================================================
# Step 8: Flask 앱 + systemd + 검증
# =============================================================
step 8 "Flask 앱 배포 + 헬스체크"

ssh "$USER_NAME@$PUBIP" bash -s "$SA_PASSWORD" << 'APP_SCRIPT'
#!/usr/bin/env bash
set -euo pipefail
SA_PASSWORD="$1"
INSTALL_DIR="$HOME/sqlvm_usedcar"

G='\033[0;32m'; NC='\033[0m'
ok() { echo -e "${G}  ✓${NC} $1"; }

sudo apt install -y -qq python3 python3-pip python3-venv python3-dev > /dev/null

cd "$INSTALL_DIR/app"
[ ! -f venv/bin/activate ] && python3 -m venv venv
source venv/bin/activate
pip install --quiet --upgrade pip
pip install --quiet -r requirements.txt
deactivate

cat > .env </dev/null | grep -q '"status":"ok"'; then
  ok "외부 Flask 접근 확인: http://$PUBIP:5000/"
else
  warn "Flask 외부 접근 실패 — NSG/서비스 확인 필요"
fi

# =============================================================
# 완료 안내
# =============================================================
banner "설치 완료!"

# 환경변수 파일 저장
cat > "$HOME/.carmarket-env" <



Azure CLI 로그인 확인 + SSH 키 검증
Resource Group + Ubuntu 24.04 VM (B2s) 생성
NSG에서 22(SSH) + 1433(SQL) + 5000(Flask) 포트 오픈
SQL Server 2025 Developer Edition 설치
0.0.0.0 바인딩 (외부 SSMS 접근 허용)
CarMarket DB 스키마 생성 + 시드 데이터 5건
Flask 앱 배포 + systemd 서비스 등록

SSMS 연결

또는 VSCode에서 SQL Server(mssql) extension을 통해 접속 가능
데이터 확인
USE CarMarket;
GO
-- 테이블 목록 확인
SELECT TABLE_NAME, TABLE_TYPE
FROM INFORMATION_SCHEMA.TABLES
WHERE TABLE_TYPE = 'BASE TABLE';
-- 차량 매물 확인
SELECT c.Brand, c.Model, c.Year,
FORMAT(c.Price, 'N0') AS Price,
FORMAT(c.Mileage, 'N0') AS Mileage,
u.Name AS Seller
FROM Cars c
JOIN Users u ON c.SellerId = u.UserId
ORDER BY c.Price DESC;
-- 인덱스 확인
SELECT i.name AS IndexName,
t.name AS TableName,
COL_NAME(ic.object_id, ic.column_id) AS ColumnName
FROM sys.indexes i
JOIN sys.tables t ON i.object_id = t.object_id
JOIN sys.index_columns ic ON i.object_id = ic.object_id AND i.index_id = ic.index_id
WHERE i.name LIKE 'IX_%';

이 실습에서는 학습 편의를 위해 1433을 외부에 직접 오픈합니다. 프로덕션 환경에서는 절대 하지 마세요. 실무에서는 다음 방법을 사용합니다:

SSH 터널: ssh -L 1433:localhost:1433 azureuser@ 후 SSMS에서 localhost 접속
VPN Gateway 또는 Azure Bastion
Private Endpoint

Azure SQL Database 마이그레이션
#!/usr/bin/env bash
# ============================================================
# 02-migrate-to-azure-sql.sh
# VM SQL Server → Azure SQL Database 마이그레이션 (Azure DMS)
#
# 사전 조건:
#   - 01-setup-vm-sqlserver.sh 완료
#   - source ~/.carmarket-env (환경변수 로드)
#
# 사용법:
#   source ~/.carmarket-env
#   bash 02-migrate-to-azure-sql.sh
# ============================================================

set -euo pipefail

# =============================================================
# 환경변수 확인 + 기본값
# =============================================================
RG="${RG:-rg-carmarket-lab}"
LOC="${LOC:-koreacentral}"
VM="${VM:-}"
PUBIP="${PUBIP:-}"
USER_NAME="${USER_NAME:-azureuser}"
SA_PASSWORD="${SA_PASSWORD:-}"

# Azure SQL 관련 변수
SQL_SERVER_NAME="${SQL_SERVER_NAME:-sql-carmarket-$(date +%m%d)-$RANDOM}"
SQL_DB_NAME="${SQL_DB_NAME:-CarMarket}"
SQL_ADMIN="${SQL_ADMIN:-sqladmin}"
SQL_ADMIN_PASSWORD="${SQL_ADMIN_PASSWORD:-}"
DMS_NAME="${DMS_NAME:-dms-carmarket-$(date +%m%d)}"

# 색상
G='\033[0;32m'; Y='\033[0;33m'; R='\033[0;31m'; B='\033[0;34m'; NC='\033[0m'
banner() { echo ""; echo -e "${B}═══════════════════════════════════════════════════${NC}"; echo -e "${B}  $1${NC}"; echo -e "${B}═══════════════════════════════════════════════════${NC}"; }
step()   { echo ""; echo -e "${G}▶ [$1/$TOTAL_STEPS]${NC} $2"; }
ok()     { echo -e "${G}  ✓${NC} $1"; }
warn()   { echo -e "${Y}  ⚠${NC} $1"; }
abort()  { echo -e "${R}❌ $1${NC}"; exit 1; }

TOTAL_STEPS=7
LOG_FILE="/tmp/carmarket-migrate-$(date +%Y%m%d-%H%M%S).log"
exec > >(tee -a "$LOG_FILE") 2>&1

banner "CarMarket Lab — VM → Azure SQL Database 마이그레이션"

# =============================================================
# Step 1: 사전 점검
# =============================================================
step 1 "사전 점검"

command -v az >/dev/null 2>&1 || abort "Azure CLI 미설치"
az account show >/dev/null 2>&1 || { warn "로그인 필요"; az login; }
ok "Azure CLI 로그인 확인"

# PUBIP가 비어있으면 VM에서 가져오기
if [ -z "$PUBIP" ] && [ -n "$VM" ]; then
  PUBIP=$(az vm show -d -g "$RG" -n "$VM" --query publicIps -o tsv 2>/dev/null || echo "")
fi
[ -z "$PUBIP" ] && abort "PUBIP를 확인할 수 없습니다. source ~/.carmarket-env 후 재시도"
ok "소스 VM: $PUBIP"

# SA 비밀번호 확인
if [ -z "$SA_PASSWORD" ]; then
  read -s -p "  소스 VM SA 비밀번호: " SA_PASSWORD; echo ""
fi
ok "소스 SA 비밀번호 확인"

# Azure SQL 관리자 비밀번호
if [ -z "$SQL_ADMIN_PASSWORD" ]; then
  echo "  Azure SQL Database 관리자 비밀번호를 입력하세요."
  echo "  (소스와 같은 비밀번호 사용 가능)"
  while true; do
    read -s -p "  SQL Admin Password: " SQL_ADMIN_PASSWORD; echo ""
    read -s -p "  Confirm:            " CONFIRM; echo ""
    [ "$SQL_ADMIN_PASSWORD" = "$CONFIRM" ] && [ ${#SQL_ADMIN_PASSWORD} -ge 8 ] && break
    echo -e "${R}  불일치 또는 8자 미만${NC}"
  done
fi
ok "Azure SQL 관리자 비밀번호 설정"

echo ""
echo "  Azure SQL Server: $SQL_SERVER_NAME.database.windows.net"
echo "  Database:         $SQL_DB_NAME"
echo "  Admin:            $SQL_ADMIN"
echo "  예상 비용: DTU 기반 S0 ≈ \$0.49/일"
read -p "  진행? (y/N): " ok_proceed
[[ "$ok_proceed" =~ ^[Yy]$ ]] || abort "취소됨"

# =============================================================
# Step 2: Azure SQL Server + Database 생성
# =============================================================
step 2 "Azure SQL Server + Database 생성"

# SQL Server (논리 서버)
if az sql server show -g "$RG" -n "$SQL_SERVER_NAME" >/dev/null 2>&1; then
  ok "SQL Server '$SQL_SERVER_NAME' 이미 존재"
else
  echo "  → 논리 서버 생성 중..."
  az sql server create \
    --resource-group "$RG" \
    --name "$SQL_SERVER_NAME" \
    --location "$LOC" \
    --admin-user "$SQL_ADMIN" \
    --admin-password "$SQL_ADMIN_PASSWORD" \
    --output none
  ok "SQL Server '$SQL_SERVER_NAME' 생성"
fi

# 방화벽: VM Public IP 허용
echo "  → 방화벽 규칙 추가..."
az sql server firewall-rule create \
  --resource-group "$RG" \
  --server "$SQL_SERVER_NAME" \
  --name "AllowSourceVM" \
  --start-ip-address "$PUBIP" \
  --end-ip-address "$PUBIP" \
  --output none 2>/dev/null || true

# 방화벽: 내 로컬 IP 허용
MY_IP=$(curl -s https://api.ipify.org 2>/dev/null || echo "")
if [ -n "$MY_IP" ]; then
  az sql server firewall-rule create \
    --resource-group "$RG" \
    --server "$SQL_SERVER_NAME" \
    --name "AllowMyIP" \
    --start-ip-address "$MY_IP" \
    --end-ip-address "$MY_IP" \
    --output none 2>/dev/null || true
  ok "방화벽: VM($PUBIP) + 로컬($MY_IP) 허용"
else
  ok "방화벽: VM($PUBIP) 허용"
fi

# Azure 서비스 접근 허용
az sql server firewall-rule create \
  --resource-group "$RG" \
  --server "$SQL_SERVER_NAME" \
  --name "AllowAzureServices" \
  --start-ip-address 0.0.0.0 \
  --end-ip-address 0.0.0.0 \
  --output none 2>/dev/null || true
ok "Azure 서비스 접근 허용"

# Database 생성 (S0 = 10 DTU, 실습에 충분)
if az sql db show -g "$RG" -s "$SQL_SERVER_NAME" -n "$SQL_DB_NAME" >/dev/null 2>&1; then
  ok "Database '$SQL_DB_NAME' 이미 존재"
else
  echo "  → Database 생성 중 (1~2분)..."
  az sql db create \
    --resource-group "$RG" \
    --server "$SQL_SERVER_NAME" \
    --name "$SQL_DB_NAME" \
    --service-objective S0 \
    --output none
  ok "Database '$SQL_DB_NAME' 생성 (S0 / 10 DTU)"
fi

SQL_FQDN="${SQL_SERVER_NAME}.database.windows.net"
ok "Azure SQL: $SQL_FQDN / $SQL_DB_NAME"

# =============================================================
# Step 3: 소스 VM에서 bacpac 내보내기 준비
# =============================================================
step 3 "소스 DB에서 스키마·데이터 SQL 스크립트 생성"

# DMS 대신 sqlcmd를 통한 직접 마이그레이션 (소규모 DB에 적합)
# 대규모에서는 DMS를 사용하지만, 이 실습은 교육용이므로 두 방식 모두 제공

echo "  → VM에서 스키마 + 데이터 추출..."
ssh "$USER_NAME@$PUBIP" bash -s "$SA_PASSWORD" << 'EXPORT_SCRIPT'
#!/usr/bin/env bash
set -euo pipefail
SA_PASSWORD="$1"
export PATH="$PATH:/opt/mssql-tools18/bin"
EXPORT_DIR="$HOME/migration_export"
mkdir -p "$EXPORT_DIR"

G='\033[0;32m'; NC='\033[0m'
ok() { echo -e "${G}  ✓${NC} $1"; }

# Azure SQL 호환 스키마 생성 (IDENTITY 유지, Azure SQL 미지원 구문 제거)
cat > "$EXPORT_DIR/schema-azure.sql" << 'AZSCHEMA'
-- Azure SQL Database용 스키마 (CarMarket)
-- Azure SQL은 CREATE DATABASE를 별도로 실행하므로 DB 생성 구문 제외

-- 기존 테이블 정리 (멱등성)
IF OBJECT_ID('Inquiries', 'U') IS NOT NULL DROP TABLE Inquiries;
IF OBJECT_ID('Cars',      'U') IS NOT NULL DROP TABLE Cars;
IF OBJECT_ID('Users',     'U') IS NOT NULL DROP TABLE Users;
GO

CREATE TABLE Users (
    UserId    INT IDENTITY(1,1) PRIMARY KEY,
    Name      NVARCHAR(100)  NOT NULL,
    Email     NVARCHAR(200)  NOT NULL UNIQUE,
    Phone     NVARCHAR(20),
    UserType  NVARCHAR(10)   NOT NULL DEFAULT 'both'
              CHECK (UserType IN ('seller', 'buyer', 'both')),
    CreatedAt DATETIME2      DEFAULT SYSUTCDATETIME()
);
GO

CREATE TABLE Cars (
    CarId       INT IDENTITY(1,1) PRIMARY KEY,
    SellerId    INT            NOT NULL FOREIGN KEY REFERENCES Users(UserId),
    Brand       NVARCHAR(50)   NOT NULL,
    Model       NVARCHAR(100)  NOT NULL,
    Year        INT            NOT NULL,
    Price       DECIMAL(12, 0) NOT NULL,
    Mileage     INT            NOT NULL,
    FuelType    NVARCHAR(20),
    Description NVARCHAR(MAX),
    Status      NVARCHAR(20)   NOT NULL DEFAULT 'available'
                CHECK (Status IN ('available', 'reserved', 'sold')),
    CreatedAt   DATETIME2      DEFAULT SYSUTCDATETIME()
);
GO

CREATE TABLE Inquiries (
    InquiryId INT IDENTITY(1,1) PRIMARY KEY,
    CarId     INT            NOT NULL FOREIGN KEY REFERENCES Cars(CarId),
    BuyerId   INT            NOT NULL FOREIGN KEY REFERENCES Users(UserId),
    Message   NVARCHAR(1000) NOT NULL,
    CreatedAt DATETIME2      DEFAULT SYSUTCDATETIME()
);
GO

CREATE INDEX IX_Cars_Brand     ON Cars(Brand);
CREATE INDEX IX_Cars_Status    ON Cars(Status);
CREATE INDEX IX_Cars_CreatedAt ON Cars(CreatedAt DESC);
GO
AZSCHEMA
ok "Azure SQL 호환 스키마 생성"

# 데이터 추출 (INSERT 문으로)
sqlcmd -S localhost -U sa -P "$SA_PASSWORD" -C -d CarMarket -h -1 -W -Q "
SET NOCOUNT ON;

-- Users
SELECT 'SET IDENTITY_INSERT Users ON;'
UNION ALL
SELECT 'INSERT INTO Users (UserId, Name, Email, Phone, UserType) VALUES ('
  + CAST(UserId AS NVARCHAR) + ', N''' + REPLACE(Name, '''', '''''') + ''', '''
  + Email + ''', ''' + ISNULL(Phone, '') + ''', ''' + UserType + ''');'
FROM Users
UNION ALL
SELECT 'SET IDENTITY_INSERT Users OFF;'
UNION ALL
SELECT ''
UNION ALL
-- Cars
SELECT 'SET IDENTITY_INSERT Cars ON;'
UNION ALL
SELECT 'INSERT INTO Cars (CarId, SellerId, Brand, Model, Year, Price, Mileage, FuelType, Description, Status) VALUES ('
  + CAST(CarId AS NVARCHAR) + ', ' + CAST(SellerId AS NVARCHAR) + ', N'''
  + REPLACE(Brand, '''', '''''') + ''', N''' + REPLACE(Model, '''', '''''') + ''', '
  + CAST(Year AS NVARCHAR) + ', ' + CAST(Price AS NVARCHAR) + ', '
  + CAST(Mileage AS NVARCHAR) + ', N''' + ISNULL(FuelType, '') + ''', N'''
  + ISNULL(REPLACE(Description, '''', ''''''), '') + ''', ''' + Status + ''');'
FROM Cars
UNION ALL
SELECT 'SET IDENTITY_INSERT Cars OFF;'
UNION ALL
SELECT 'GO';
" > "$EXPORT_DIR/seed-azure.sql" 2>/dev/null

# 빈 줄/공백 정리
sed -i '/^$/d' "$EXPORT_DIR/seed-azure.sql"
ok "데이터 INSERT 스크립트 생성"

# 행 수 검증
USER_CNT=$(sqlcmd -S localhost -U sa -P "$SA_PASSWORD" -C -d CarMarket \
  -Q "SET NOCOUNT ON; SELECT COUNT(*) FROM Users" -h -1 -W | head -1 | tr -d ' \r')
CAR_CNT=$(sqlcmd -S localhost -U sa -P "$SA_PASSWORD" -C -d CarMarket \
  -Q "SET NOCOUNT ON; SELECT COUNT(*) FROM Cars" -h -1 -W | head -1 | tr -d ' \r')
ok "소스 DB: Users=${USER_CNT}건, Cars=${CAR_CNT}건"

echo "$USER_CNT $CAR_CNT" > "$EXPORT_DIR/source_counts.txt"
EXPORT_SCRIPT

ok "마이그레이션 데이터 준비 완료"

# =============================================================
# Step 4: Azure SQL에 스키마 적용
# =============================================================
step 4 "Azure SQL Database에 스키마 적용"

# VM에서 Azure SQL로 직접 sqlcmd 실행
ssh "$USER_NAME@$PUBIP" bash -s "$SQL_FQDN" "$SQL_ADMIN" "$SQL_ADMIN_PASSWORD" "$SQL_DB_NAME" << 'APPLY_SCHEMA'
#!/usr/bin/env bash
set -euo pipefail
SQL_FQDN="$1"; SQL_ADMIN="$2"; SQL_ADMIN_PASSWORD="$3"; SQL_DB_NAME="$4"
export PATH="$PATH:/opt/mssql-tools18/bin"
EXPORT_DIR="$HOME/migration_export"

G='\033[0;32m'; NC='\033[0m'
ok() { echo -e "${G}  ✓${NC} $1"; }

echo "  → Azure SQL에 스키마 적용..."
sqlcmd -S "$SQL_FQDN" -U "$SQL_ADMIN" -P "$SQL_ADMIN_PASSWORD" -d "$SQL_DB_NAME" \
  -i "$EXPORT_DIR/schema-azure.sql" > /dev/null
ok "스키마 적용 완료"

echo "  → Azure SQL에 시드 데이터 적용..."
sqlcmd -S "$SQL_FQDN" -U "$SQL_ADMIN" -P "$SQL_ADMIN_PASSWORD" -d "$SQL_DB_NAME" \
  -i "$EXPORT_DIR/seed-azure.sql" > /dev/null 2>&1 || true
ok "시드 데이터 적용"
APPLY_SCHEMA

ok "Azure SQL 스키마 + 시드 적용 완료"

# =============================================================
# Step 5: Azure DMS를 통한 온라인 마이그레이션 (선택)
# =============================================================
step 5 "Azure DMS 리소스 생성 (추가 마이그레이션 도구)"

echo "  ℹ️  소규모 DB는 Step 4의 직접 sqlcmd 방식으로 충분합니다."
echo "  ℹ️  대규모·프로덕션에서는 Azure DMS를 사용합니다."
echo ""

read -p "  DMS 리소스도 생성하시겠습니까? (y/N): " create_dms
if [[ "$create_dms" =~ ^[Yy]$ ]]; then
  # DMS 확장 설치
  az extension add --name dms 2>/dev/null || true

  echo "  → DMS 인스턴스 생성 중 (5~10분)..."
  az dms create \
    --resource-group "$RG" \
    --name "$DMS_NAME" \
    --location "$LOC" \
    --sku-name Standard_1vCores \
    --output none 2>/dev/null || warn "DMS 생성 실패 (수동 생성 필요할 수 있음)"

  ok "DMS '$DMS_NAME' 생성"
  echo ""
  echo "  DMS는 Azure Portal에서 마이그레이션 프로젝트를 생성하여 사용합니다."
  echo "  Portal → Database Migration Service → 새 마이그레이션 프로젝트"
  echo "    소스: SQL Server ($PUBIP:1433)"
  echo "    대상: Azure SQL Database ($SQL_FQDN)"
else
  ok "DMS 생성 건너뜀 (sqlcmd 직접 방식 사용)"
fi

# =============================================================
# Step 6: 마이그레이션 검증
# =============================================================
step 6 "마이그레이션 검증"

echo "  → Azure SQL 데이터 검증..."
VERIFY_RESULT=$(ssh "$USER_NAME@$PUBIP" bash -s "$SQL_FQDN" "$SQL_ADMIN" "$SQL_ADMIN_PASSWORD" "$SQL_DB_NAME" << 'VERIFY'
export PATH="$PATH:/opt/mssql-tools18/bin"
SQL_FQDN="$1"; SQL_ADMIN="$2"; SQL_ADMIN_PASSWORD="$3"; SQL_DB_NAME="$4"

# 테이블 수
TABLE_COUNT=$(sqlcmd -S "$SQL_FQDN" -U "$SQL_ADMIN" -P "$SQL_ADMIN_PASSWORD" -d "$SQL_DB_NAME" \
  -Q "SET NOCOUNT ON; SELECT COUNT(*) FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_TYPE='BASE TABLE'" \
  -h -1 -W 2>/dev/null | head -1 | tr -d ' \r')

# Users 수
USER_COUNT=$(sqlcmd -S "$SQL_FQDN" -U "$SQL_ADMIN" -P "$SQL_ADMIN_PASSWORD" -d "$SQL_DB_NAME" \
  -Q "SET NOCOUNT ON; SELECT COUNT(*) FROM Users" -h -1 -W 2>/dev/null | head -1 | tr -d ' \r')

# Cars 수
CAR_COUNT=$(sqlcmd -S "$SQL_FQDN" -U "$SQL_ADMIN" -P "$SQL_ADMIN_PASSWORD" -d "$SQL_DB_NAME" \
  -Q "SET NOCOUNT ON; SELECT COUNT(*) FROM Cars" -h -1 -W 2>/dev/null | head -1 | tr -d ' \r')

# 인덱스 수
IDX_COUNT=$(sqlcmd -S "$SQL_FQDN" -U "$SQL_ADMIN" -P "$SQL_ADMIN_PASSWORD" -d "$SQL_DB_NAME" \
  -Q "SET NOCOUNT ON; SELECT COUNT(*) FROM sys.indexes WHERE name LIKE 'IX_%'" \
  -h -1 -W 2>/dev/null | head -1 | tr -d ' \r')

echo "$TABLE_COUNT $USER_COUNT $CAR_COUNT $IDX_COUNT"
VERIFY
)

read T_CNT U_CNT C_CNT I_CNT <<< "$VERIFY_RESULT"
ok "Azure SQL 테이블: ${T_CNT}개"
ok "Azure SQL Users:  ${U_CNT}건"
ok "Azure SQL Cars:   ${C_CNT}건"
ok "Azure SQL 인덱스: ${I_CNT}개"

# 소스와 비교
SOURCE_COUNTS=$(ssh "$USER_NAME@$PUBIP" "cat ~/migration_export/source_counts.txt" 2>/dev/null || echo "5 5")
read S_U S_C <<< "$SOURCE_COUNTS"

if [ "$U_CNT" = "$S_U" ] && [ "$C_CNT" = "$S_C" ]; then
  ok "✅ 소스 ↔ 대상 데이터 일치 (Users: $S_U, Cars: $S_C)"
else
  warn "데이터 불일치: 소스(U:$S_U, C:$S_C) ↔ 대상(U:$U_CNT, C:$C_CNT)"
fi

# =============================================================
# Step 7: 연결 정보 저장
# =============================================================
step 7 "연결 정보 저장"

# 환경변수 파일 업데이트
cat >> "$HOME/.carmarket-env" <


Azure SQL Server (논리 서버) + Database (S0) 생성
방화벽 규칙 설정 (VM IP + 로컬 IP + Azure 서비스)
VM SQL Server에서 스키마·데이터를 SQL 스크립트로 추출
Azure SQL Database에 스키마·시드 데이터 적용
Azure DMS 리소스 생성 (선택)
소스 ↔ 대상 데이터 일치 검증


검증
마이그레이션 검증 (SSMS에서)
-- 테이블 구조 비교
SELECT TABLE_NAME,
(SELECT COUNT(*) FROM INFORMATION_SCHEMA.COLUMNS c
WHERE c.TABLE_NAME = t.TABLE_NAME) AS ColumnCount
FROM INFORMATION_SCHEMA.TABLES t
WHERE TABLE_TYPE = 'BASE TABLE'
ORDER BY TABLE_NAME;
-- 행 수 비교 (소스와 동일해야 함)
SELECT 'Users' AS TableName, COUNT(*) AS [RowCount] FROM Users
UNION ALL
SELECT 'Cars', COUNT(*) FROM Cars
UNION ALL
SELECT 'Inquiries', COUNT(*) FROM Inquiries;
-- 데이터 내용 확인
SELECT c.Brand, c.Model, c.Year,
FORMAT(c.Price, 'N0') AS Price,
u.Name AS Seller
FROM Cars c
JOIN Users u ON c.SellerId = u.UserId
ORDER BY c.Price DESC;
-- Azure SQL 특유 정보 확인
SELECT
@@VERSION AS SQLVersion,
DB_NAME() AS DatabaseName,
DATABASEPROPERTYEX(DB_NAME(), 'Edition') AS Edition,
DATABASEPROPERTYEX(DB_NAME(), 'ServiceObjective') AS ServiceTier;

VM SQL Server vs Azure SQL Database 비교

Flask 앱 연결 전환
#!/usr/bin/env bash
# ============================================================
# 03-switch-app-to-azure-sql.sh
# Flask 앱 연결 대상을 VM SQL Server → Azure SQL Database로 전환
#
# 사전 조건:
#   - 01, 02 스크립트 완료
#   - source ~/.carmarket-env
#
# 사용법:
#   source ~/.carmarket-env
#   bash 03-switch-app-to-azure-sql.sh
# ============================================================

set -euo pipefail

# 환경변수
RG="${RG:-rg-carmarket-lab}"
VM="${VM:-}"
PUBIP="${PUBIP:-}"
USER_NAME="${USER_NAME:-azureuser}"
SQL_FQDN="${SQL_FQDN:-}"
SQL_DB_NAME="${SQL_DB_NAME:-CarMarket}"
SQL_ADMIN="${SQL_ADMIN:-sqladmin}"
SQL_ADMIN_PASSWORD="${SQL_ADMIN_PASSWORD:-}"

# 색상
G='\033[0;32m'; Y='\033[0;33m'; R='\033[0;31m'; B='\033[0;34m'; NC='\033[0m'
banner() { echo ""; echo -e "${B}═══════════════════════════════════════════════════${NC}"; echo -e "${B}  $1${NC}"; echo -e "${B}═══════════════════════════════════════════════════${NC}"; }
ok()    { echo -e "${G}  ✓${NC} $1"; }
warn()  { echo -e "${Y}  ⚠${NC} $1"; }
abort() { echo -e "${R}❌ $1${NC}"; exit 1; }

banner "Flask 앱 → Azure SQL Database 전환"

# 검증
[ -z "$SQL_FQDN" ] && abort "SQL_FQDN 환경변수 없음. source ~/.carmarket-env"
[ -z "$PUBIP" ] && abort "PUBIP 환경변수 없음. source ~/.carmarket-env"
[ -z "$SQL_ADMIN_PASSWORD" ] && { read -s -p "Azure SQL Admin 비밀번호: " SQL_ADMIN_PASSWORD; echo ""; }

echo ""
echo "  현재:  localhost (VM SQL Server)"
echo "  전환:  $SQL_FQDN (Azure SQL Database)"
echo ""
read -p "  Flask 앱 연결 대상을 Azure SQL로 전환? (y/N): " ok_proceed
[[ "$ok_proceed" =~ ^[Yy]$ ]] || abort "취소됨"

# =============================================================
# VM에서 .env 수정 + 재시작
# =============================================================
echo ""
echo "  → .env 백업 + 수정..."

ssh "$USER_NAME@$PUBIP" bash -s "$SQL_FQDN" "$SQL_DB_NAME" "$SQL_ADMIN" "$SQL_ADMIN_PASSWORD" << 'SWITCH'
#!/usr/bin/env bash
set -euo pipefail
SQL_FQDN="$1"; SQL_DB_NAME="$2"; SQL_ADMIN="$3"; SQL_ADMIN_PASSWORD="$4"
APP_DIR="$HOME/sqlvm_usedcar/app"

G='\033[0;32m'; NC='\033[0m'
ok() { echo -e "${G}  ✓${NC} $1"; }

# 백업
cp "$APP_DIR/.env" "$APP_DIR/.env.vm-backup"
ok "기존 .env 백업 → .env.vm-backup"

# Azure SQL 용 .env 생성
cat > "$APP_DIR/.env" </dev/null || echo "0")
ok "API 응답: Cars ${CAR_COUNT}건"

banner "전환 완료!"

cat <


기존 .env 백업 ( .env.vm-backup )
DB 연결 대상을 Azure SQL Database로 변경
app.py 에 DB_USER 환경변수 지원 패치
carmarket 서비스 재시작
헬스체크 + API 테스트

이후 ssh로 vm 접속
cd ~/sqlvm_usedcar/app
# 1. 현재 DB_USER 확인
grep 'DB_USER' app.py
# 2. app.py 수정 (DB_USER를 환경변수에서 읽도록)
sed -i 's/DB_USER = "sa"/DB_USER = os.environ.get("DB_USER", "sa")/' app.py
# 3. .env에 DB_USER가 있는지 확인
cat .env
# 4. DB_USER가 없으면 추가
grep -q 'DB_USER' .env || echo 'DB_USER=sqladmin' >> .env
# 5. 서비스 재시작
sudo systemctl restart carmarket
# 6. 확인
curl -s http://localhost:5000/health
전환 후 검증
# 헬스체크 — db: connected 확인
curl http://$PUBIP:5000/health
# 차량 목록 — Azure SQL에서 조회
curl http://$PUBIP:5000/api/cars
# 매물 등록 테스트 — Azure SQL에 INSERT
curl -X POST http://$PUBIP:5000/api/cars \
-H "Content-Type: application/json" \
-d '{"seller_id":1,"brand":"기아","model":"카니발","year":2023,"price":38000000,"mileage":10000}'

롤백 (VM SQL Server로 복귀)
ssh azureuser@$PUBIP
cp ~/sqlvm_usedcar/app/.env.vm-backup ~/sqlvm_usedcar/app/.env
sudo systemctl restart carmarket
리소스 정리
source ~/.carmarket-env
# 방법 1: VM만 중지 (데이터 유지, 비용 중단)
bash scripts/99-cleanup.sh
# 방법 2: 전체 삭제 (되돌릴 수 없음)
bash scripts/99-cleanup.sh --delete


SQL Server on Azure Virtual Machines




CIDR
사이더
CIDR(Classless Inter-Domain Routing, 클래스 없는 도메인 간 라우팅)은 1993년 도입된 IP 주소 할당 및 라우팅 효율화 방식입니다. 고정된 클래스 기반 체계(A, B, C)를 대체하여 IP 주소 낭비를 줄이고, 접두어(Prefix)를 사용하여 유연하게 네트워크 영역을 나누어 라우팅 테이블 크기를 줄인다.
SQL Server 인덱스 조각화 문제 감지 및 수정 실습
실습 개요
이 실습은 SQL Server에서 인덱스 조각화(Index Fragmentation) 문제를 감지하고, 조각난 인덱스를 다시 작성하여 쿼리 성능 변화를 확인하는 과정이다.
AdventureWorks 데이터베이스를 복원한 뒤, Person.Address 테이블에 데이터를 추가하여 인덱스 조각화를 인위적으로 발생시킨다. 이후 DMV를 사용해 조각화 수준을 확인하고, ALTER INDEX ... REBUILD로 인덱스를 다시 작성한다. 마지막으로 SET STATISTICS IO, TIME ON을 사용해 논리적 읽기 수가 줄어드는지 비교한다.

실습 배경
AdventureWorks는 10년 넘게 자전거와 자전거 부품을 소비자와 유통업체에 직접 판매해 온 회사이다. 최근 고객 요청을 처리하는 데 사용되는 제품의 성능 저하가 발견되었다.
데이터베이스 관리자는 SQL 도구를 사용하여 성능 문제를 식별하고, 발견된 문제를 해결할 수 있는 실행 가능한 솔루션을 제공해야 한다.
이 실습에서는 다음을 수행한다.

AdventureWorks2017 데이터베이스 복원
인덱스 조각화 상태 확인
대량 데이터 삽입으로 조각화 유발
조각화된 인덱스 확인
논리적 읽기 수 측정
인덱스 다시 작성
조각화 감소 및 논리적 읽기 감소 확인


참고: SSMS에서 라인 번호 표시하기
T-SQL 코드를 복사하여 실행할 때 디버깅을 쉽게 하기 위해 SSMS 편집기에 라인 번호를 표시할 수 있다.
설정 경로:
Tools → Options → Text Editor → Transact-SQL → General → Line numbers 체크

데이터베이스 복원
1. AdventureWorks2017 백업 파일 다운로드
랩 가상 머신에서 아래 경로의 데이터베이스 백업 파일을 다운로드한다.
https://github.com/MicrosoftLearning/dp-300-database-administrator/blob/master/Instructions/Templates/AdventureWorks2017.bak
다운로드한 파일은 아래 폴더에 저장한다.
C:\LabFiles\Monitor and optimize
해당 폴더가 없다면 직접 생성한다.

2. SSMS 실행
Windows 시작 버튼을 선택하고 SSMS를 입력한다.
목록에서 Microsoft SQL Server Management Studio 18을 선택한다.

3. SQL Server 연결
SSMS가 열리면 Connect to Server 대화 상자가 표시된다.
기본 인스턴스 이름이 미리 채워져 있으면 그대로 Connect를 선택한다.
서버가 보이지 않는 경우에는 다음을 선택해 서버를 찾을 수 있다.


4. New Query 선택
Object Explorer에서 Databases 폴더를 선택한 뒤, 상단의 New Query를 선택한다.

5. 데이터베이스 복원 쿼리 실행
New Query 창에 아래 T-SQL을 복사하여 붙여넣고 실행한다.
RESTORE DATABASE AdventureWorks2017
FROM DISK = 'C:\LabFiles\Monitor and optimize\AdventureWorks2017.bak'
WITH RECOVERY,
 MOVE 'AdventureWorks2017'
 TO 'C:\LabFiles\Monitor and optimize\AdventureWorks2017.mdf',
 MOVE 'AdventureWorks2017_log'
 TO 'C:\LabFiles\Monitor and optimize\AdventureWorks2017_log.ldf';

백업 파일 이름과 경로는 실제 다운로드한 파일 위치와 일치해야 한다. 경로가 다르면 복원 명령이 실패한다.


6. 복원 성공 확인
복원이 완료되면 메시지 창에 성공 메시지가 표시된다.
예시:
RESTORE DATABASE successfully processed ... pages ...

인덱스 조각화 조사
1. 현재 조각화 상태 확인
New Query를 선택한 뒤 아래 T-SQL 코드를 실행한다.
USE AdventureWorks2017
GO
SELECT i.name Index_Name
, avg_fragmentation_in_percent
, db_name(database_id)
, i.object_id
, i.index_id
, index_type_desc
FROM
sys.dm_db_index_physical_stats(db_id('AdventureWorks2017'),object_id('person.address'),NULL,NULL,'DETAILED') ps
INNER JOIN sys.indexes i ON ps.object_id = i.object_id 
AND ps.index_id = i.index_id
WHERE avg_fragmentation_in_percent > 50
-- find indexes where fragmentation is greater than 50%
이 쿼리는 Person.Address 테이블에서 조각화가 50%를 초과하는 인덱스를 조회한다.
처음 실행하면 반환되는 결과가 없다. 즉, 현재는 50%를 초과하는 조각화된 인덱스가 없는 상태이다.

2. 데이터 삽입으로 조각화 유발
다음 T-SQL을 실행하여 Person.Address 테이블에 많은 수의 새 레코드를 삽입한다.
USE AdventureWorks2017
GO

INSERT INTO [Person].[Address]
 ([AddressLine1]
 ,[AddressLine2]
 ,[City]
 ,[StateProvinceID]
 ,[PostalCode]
 ,[SpatialLocation]
 ,[rowguid]
 ,[ModifiedDate])

SELECT AddressLine1,
 AddressLine2, 
 'Amsterdam',
 StateProvinceID, 
 PostalCode, 
 SpatialLocation, 
 newid(), 
 getdate()
FROM Person.Address;
GO
이 쿼리는 기존 Person.Address 데이터를 다시 읽어 같은 테이블에 추가 삽입한다.
특히 City 값을 'Amsterdam'으로 고정하여 삽입한다. 결과적으로 행 개수가 약 2배로 늘어나고, Person.Address 테이블과 관련 인덱스의 조각화 수준이 증가한다.

3. 조각화 상태 다시 확인
처음 실행했던 조각화 확인 쿼리를 다시 실행한다.
USE AdventureWorks2017
GO
SELECT i.name Index_Name
, avg_fragmentation_in_percent
, db_name(database_id)
, i.object_id
, i.index_id
, index_type_desc
FROM
sys.dm_db_index_physical_stats(db_id('AdventureWorks2017'),object_id('person.address'),NULL,NULL,'DETAILED') ps
INNER JOIN sys.indexes i ON ps.object_id = i.object_id 
AND ps.index_id = i.index_id
WHERE avg_fragmentation_in_percent > 50
-- find indexes where fragmentation is greater than 50%
이제 고도로 조각난 인덱스 4개를 확인할 수 있다.
예시 결과에서는 다음과 같은 인덱스들이 50% 이상의 조각화를 보인다.



Index_Name
avg_fragmentation_in_percent
설명



AK_Address_rowguid
약 98%
rowguid 관련 인덱스


IX_Address_AddressLine1_AddressLine2_City_StateProvinceID_PostalCode
약 98%
주소 검색 관련 인덱스


IX_Address_AddressLine1_AddressLine2_City_StateProvinceID_PostalCode
약 90%
주소 검색 관련 인덱스


IX_Address_StateProvinceID
약 80~81%
StateProvinceID 관련 인덱스



논리적 읽기 수 측정
1. STATISTICS IO, TIME 활성화 후 쿼리 실행
다음 쿼리를 실행한다.
SET STATISTICS IO,TIME ON
GO

USE AdventureWorks2017
GO

SELECT DISTINCT (StateProvinceID)
 ,count(StateProvinceID) AS CustomerCount
FROM person.Address
GROUP BY StateProvinceID
ORDER BY count(StateProvinceID) DESC;
GO
이 쿼리는 Person.Address 테이블에서 StateProvinceID별 건수를 집계하고, 건수가 많은 순서대로 정렬한다.

2. Messages 탭에서 logical reads 확인
SQL Server Management Studio의 결과 창에서 Messages 탭을 클릭한다.
여기에서 쿼리에 의해 수행된 논리적 읽기 수를 확인한다.
실습 자료 기준으로 조각화된 상태에서의 논리적 읽기 수는 다음과 같다.
logical reads = 94
논리적 읽기(logical reads)는 SQL Server가 버퍼 캐시에서 읽은 데이터 페이지 수를 의미한다.
조각화가 심하면 쿼리가 필요한 데이터를 찾기 위해 더 많은 페이지를 읽게 되고, 이로 인해 성능 저하가 발생할 수 있다.

조각난 인덱스 다시 작성
1. IX_Address_StateProvinceID 인덱스 REBUILD
다음 T-SQL을 실행하여 IX_Address_StateProvinceID 인덱스를 다시 작성한다.
USE AdventureWorks2017
GO
ALTER INDEX [IX_Address_StateProvinceID] ON [Person].[Address] REBUILD PARTITION = ALL
WITH (PAD_INDEX = OFF, 
 STATISTICS_NORECOMPUTE = OFF, 
 SORT_IN_TEMPDB = OFF, 
 IGNORE_DUP_KEY = OFF, 
 ONLINE = OFF, 
 ALLOW_ROW_LOCKS = ON, 
 ALLOW_PAGE_LOCKS = ON)
ALTER INDEX ... REBUILD는 인덱스를 새로 다시 만드는 작업이다.
이를 통해 인덱스 페이지가 정리되고, 논리적 순서와 물리적 순서가 더 잘 맞춰지며, 페이지 내부의 빈 공간도 정리된다.

2. 인덱스 조각화 감소 확인
아래 쿼리를 실행하여 IX_Address_StateProvinceID 인덱스의 조각화가 더 이상 50%를 초과하지 않는지 확인한다.
USE AdventureWorks2017
GO

SELECT DISTINCT i.name Index_Name
 , avg_fragmentation_in_percent
 , db_name(database_id)
 , i.object_id
 , i.index_id
 , index_type_desc
FROM
sys.dm_db_index_physical_stats(db_id('AdventureWorks2017'),object_id('person.address'),NULL,NULL,'DETAILED') ps
 INNER JOIN sys.indexes i ON (ps.object_id = i.object_id AND ps.index_id = i.index_id)
WHERE i.name = 'IX_Address_StateProvinceID'
결과를 비교하면 IX_Address_StateProvinceID 인덱스의 조각화가 약 81%에서 0%로 감소한 것을 확인할 수 있다.



항목
REBUILD 전
REBUILD 후



IX_Address_StateProvinceID 조각화율
약 81%
0%



인덱스 재작성 후 논리적 읽기 비교
1. 동일한 SELECT 쿼리 재실행
이전 섹션에서 실행했던 집계 쿼리를 다시 실행한다.
SET STATISTICS IO,TIME ON
GO

USE AdventureWorks2017
GO

SELECT DISTINCT (StateProvinceID)
 ,count(StateProvinceID) AS CustomerCount
FROM person.Address
GROUP BY StateProvinceID
ORDER BY count(StateProvinceID) DESC;

GO

2. Messages 탭에서 logical reads 재확인
인덱스를 다시 작성했기 때문에 이전보다 효율적으로 데이터를 읽을 수 있다.
실습 자료 기준으로 인덱스 재작성 후 논리적 읽기는 다음과 같이 감소한다.
logical reads = 70



상태
logical reads



인덱스 REBUILD 전
94


인덱스 REBUILD 후
70


즉, 인덱스 유지 관리가 쿼리 성능에 영향을 줄 수 있다는 것을 확인할 수 있다.

실습 결과 정리
이번 실습에서는 인덱스를 다시 작성하고 논리적 읽기를 분석하여 쿼리 성능을 높이는 방법을 확인했다.

1. 인덱스 조각화의 이해 및 영향 확인
인덱스 조각화(Index Fragmentation)는 데이터베이스에서 데이터가 삽입, 업데이트, 삭제되는 과정에서 발생한다.
인덱스의 논리적 순서와 실제 디스크상의 물리적 순서가 달라지거나, 데이터 페이지 내부에 빈 공간이 생기는 현상을 말한다.
이 실습에서는 대량의 데이터를 삽입하여 인덱스 조각화를 인위적으로 발생시켰다. 이를 통해 조각화가 실제로 어떻게 발생하는지 간접적으로 경험할 수 있었다.
가장 중요한 점은 조각화가 심해지면 SQL Server가 데이터를 읽을 때 더 많은 페이지를 읽어야 한다는 것이다.
그래서 이 실습에서는 SET STATISTICS IO ON을 사용해 논리적 읽기(Logical Reads) 횟수를 측정했다. 조각화된 인덱스를 사용하는 쿼리는 불필요하게 많은 페이지를 읽게 되어 성능 저하를 유발할 수 있다.

2. 조각화 진단 방법 학습
조각화 상태는 sys.dm_db_index_physical_stats 동적 관리 뷰(DMV)를 사용해 확인한다.
이 DMV를 통해 특정 테이블이나 특정 인덱스의 조각화 수준을 퍼센트로 확인할 수 있다.
DBA가 시스템 상태를 진단할 때 사용하는 핵심 도구 중 하나이다.

3. 조각화 해결 방법 학습 및 효과 검증
심하게 조각화된 인덱스는 ALTER INDEX REBUILD 명령어를 사용하여 다시 작성할 수 있다.
인덱스 재구축은 인덱스 페이지를 새로 만들고, 물리적 순서를 논리적 순서에 가깝게 정리하며, 페이지 내부의 빈 공간을 제거한다.
참고로 ALTER INDEX REORGANIZE는 온라인으로 조각화를 일부 정리하는 다른 방법이다.
실습에서는 인덱스를 재구축한 후 동일한 쿼리를 다시 실행했다. 그 결과 논리적 읽기 수가 감소하는 것을 확인했다.
이는 조각화 해결이 실제 쿼리 성능 향상으로 이어질 수 있음을 보여준다.

4. 데이터베이스 유지 관리의 중요성
인덱스 조각화는 시간이 지나면서 자연스럽게 발생한다.
따라서 데이터베이스 성능을 최적으로 유지하려면 정기적인 인덱스 유지 관리가 필요하다.
DBA는 주기적으로 조각화 수준을 모니터링하고, 필요에 따라 인덱스를 재구성하거나 다시 작성해야 한다.

핵심 요약



구분
내용



문제
인덱스 조각화로 인해 불필요한 페이지 읽기 증가


진단 도구
sys.dm_db_index_physical_stats


측정 지표
avg_fragmentation_in_percent, logical reads


조각화 유발
Person.Address에 대량 INSERT


해결 방법
ALTER INDEX ... REBUILD


효과
조각화율 약 81% → 0%, logical reads 94 → 70


의미
인덱스 유지 관리가 쿼리 성능에 영향을 미침



사용한 주요 T-SQL 모음
데이터베이스 복원
RESTORE DATABASE AdventureWorks2017
FROM DISK = 'C:\LabFiles\Monitor and optimize\AdventureWorks2017.bak'
WITH RECOVERY,
 MOVE 'AdventureWorks2017'
 TO 'C:\LabFiles\Monitor and optimize\AdventureWorks2017.mdf',
 MOVE 'AdventureWorks2017_log'
 TO 'C:\LabFiles\Monitor and optimize\AdventureWorks2017_log.ldf';
조각화 확인
USE AdventureWorks2017
GO
SELECT i.name Index_Name
, avg_fragmentation_in_percent
, db_name(database_id)
, i.object_id
, i.index_id
, index_type_desc
FROM
sys.dm_db_index_physical_stats(db_id('AdventureWorks2017'),object_id('person.address'),NULL,NULL,'DETAILED') ps
INNER JOIN sys.indexes i ON ps.object_id = i.object_id 
AND ps.index_id = i.index_id
WHERE avg_fragmentation_in_percent > 50
-- find indexes where fragmentation is greater than 50%
데이터 삽입으로 조각화 유발
USE AdventureWorks2017
GO

INSERT INTO [Person].[Address]
 ([AddressLine1]
 ,[AddressLine2]
 ,[City]
 ,[StateProvinceID]
 ,[PostalCode]
 ,[SpatialLocation]
 ,[rowguid]
 ,[ModifiedDate])

SELECT AddressLine1,
 AddressLine2, 
 'Amsterdam',
 StateProvinceID, 
 PostalCode, 
 SpatialLocation, 
 newid(), 
 getdate()
FROM Person.Address;
GO
논리적 읽기 측정
SET STATISTICS IO,TIME ON
GO

USE AdventureWorks2017
GO

SELECT DISTINCT (StateProvinceID)
 ,count(StateProvinceID) AS CustomerCount
FROM person.Address
GROUP BY StateProvinceID
ORDER BY count(StateProvinceID) DESC;
GO
인덱스 다시 작성
USE AdventureWorks2017
GO
ALTER INDEX [IX_Address_StateProvinceID] ON [Person].[Address] REBUILD PARTITION = ALL
WITH (PAD_INDEX = OFF, 
 STATISTICS_NORECOMPUTE = OFF, 
 SORT_IN_TEMPDB = OFF, 
 IGNORE_DUP_KEY = OFF, 
 ONLINE = OFF, 
 ALLOW_ROW_LOCKS = ON, 
 ALLOW_PAGE_LOCKS = ON)
특정 인덱스 조각화 확인
USE AdventureWorks2017
GO

SELECT DISTINCT i.name Index_Name
 , avg_fragmentation_in_percent
 , db_name(database_id)
 , i.object_id
 , i.index_id
 , index_type_desc
FROM
sys.dm_db_index_physical_stats(db_id('AdventureWorks2017'),object_id('person.address'),NULL,NULL,'DETAILED') ps
 INNER JOIN sys.indexes i ON (ps.object_id = i.object_id AND ps.index_id = i.index_id)
WHERE i.name = 'IX_Address_StateProvinceID'



[MicrosoftDataSchool] 80일차 - Azure VM, SQL Server 실습
Thu, 30 Apr 2026 03:42:02 GMT
중고차 커뮤니티 MVP 실습
VM 생성

디스크

여기서는 안쓰지만, 디스크를 사용하여 애플리케이션 등 저장이 가능하다.
자동 종료
관리탭

이후 검토 + 만들기 하고 .pem 확장자의 ssh 키를 다운받는다.
VM 연결



SSH 명령 탭의 경로 입력하기
powershell 연결

ssh -i "키경로" azureuser@ip주소

OS 정보 확인

패키지 업데이트
sudo apt update
sudo apt upgrade -y
sudo apt install -y curl wget gnupg2 software-properties-common apt-transport-https ca-certificates
Swap 파일 생성(SQL Server 안정성)
B2s의 4GB RAM은 SQL Server + Python + OS 동시 구동에 빠듯합니다. 2GB swap을 추가하여 OOM Killer 발동을 예방합니다.
sudo fallocate -l 2G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab
free -h
free -h 출력의 Swap 행에 2.0Gi 표시되면 OK.

Swap(스왑) 파일은 물리적 메모리(RAM)가 부족할 때 디스크(HDD/SSD)의 일부를 메모리처럼 사용하는 가상 메모리 공간입니다.RAM이 가득 찼을 때 스왑 공간이 없으면 리눅스 커널은 OOM(Out of Memory) Killer를 동작시켜 중요 프로세스를 강제로 종료합니다. 스왑 파일은 이러한 갑작스러운 시스템 멈춤이나 응용 프로그램 종료를 막아줍니다. 
시간대 설정

SQL Server2025 설치
Microsoft 공식 저장소 등록
# Microsoft GPG 키 등록 (Ubuntu 24.04 권장 방식)
curl -fsSL https://packages.microsoft.com/keys/microsoft.asc | \
  sudo gpg --dearmor -o /usr/share/keyrings/microsoft-prod.gpg

# SQL Server 2025 저장소 등록 (Ubuntu 24.04 공식)
curl -fsSL https://packages.microsoft.com/config/ubuntu/24.04/mssql-server-2025.list | \
  sudo tee /etc/apt/sources.list.d/mssql-server-2025.list

sudo apt update
SQL Server 패키지 설치
sudo apt install -y mssql-server
mssql-conf setup — Edition · 비밀번호 설정
sudo /opt/mssql/bin/mssql-conf setup


서비스 상태 확인
systemctl status mssql-server --no-pager
Active: active (running) 표시되면 OK.
LISTEN 0.0.0.0:1433 으로 바인딩 — 다음 단계에서 localhost-only로 변경합니다.

SQL Server를 localhost 전용으로 바인딩 (보안 핵심)
SQL Server를 외부에 노출하면 Brute force 공격의 1순위 대상이 됩니다. NSG뿐 아니라 SQL Server 자체에서도 localhost만 바인딩하도록 이중 차단합니다.
# /var/opt/mssql/mssql.conf 에 IP 바인딩 설정 추가
sudo /opt/mssql/bin/mssql-conf set network.ipaddress 127.0.0.1
sudo systemctl restart mssql-server
sudo ss -tlnp | grep 1433
ss 출력이 127.0.0.1:1433 으로만 표시되면 OK. 0.0.0.0:1433 또는 *:1433 이면 실패.

설정 제거 방법
sudo /opt/mssql/bin/mssql-conf unset network.ipaddress
sudo systemctl restart mssql-server
0.0.0.0:1433 나오면 외부 접속 가능 상태

mssql-tools, ODBC Driver, Python
# prod.list 저장소 등록 (Ubuntu 24.04용)
curl -fsSL https://packages.microsoft.com/config/ubuntu/24.04/prod.list | \
  sudo tee /etc/apt/sources.list.d/mssql-release.list

sudo apt update
sudo ACCEPT_EULA=Y apt install -y mssql-tools18 unixodbc-dev msodbcsql18

# PATH에 sqlcmd 추가
echo 'export PATH="$PATH:/opt/mssql-tools18/bin"' >> ~/.bashrc
source ~/.bashrc
sqlcmd 접속
sqlcmd -S localhost -U sa -P '' -C -Q "SELECT @@VERSION"
Microsoft SQL Server 2025 (RTM-CU...) 또는 17.x 버전 정보 출력되면 OK.


-C 옵션: TrustServerCertificate (자체 서명 인증서 신뢰). 실습용.
비밀번호에 특수문자가 있을 때는 작은따옴표 ' ' 로 감쌀 것.
명령 히스토리에 비밀번호가 남는 것을 피하려면 -P 생략 후 프롬프트 입력 권장.

Python3 + 가상환경 + 필수 패키지 설치
sudo apt install -y python3 python3-pip python3-venv

# 작업 디렉토리
mkdir -p ~/carmarket && cd ~/carmarket

# 가상환경 생성
python3 -m venv venv
source venv/bin/activate

# 패키지 설치
pip install --upgrade pip
pip install flask pyodbc python-dotenv gunicorn
pip list | grep -E 'Flask|pyodbc|python-dotenv' 로 3개 패키지 출력 확인.

pyodbc 동작 검증
python3 -c "import pyodbc; print(pyodbc.drivers())"
출력에 ['ODBC Driver 18 for SQL Server'] 가 포함되면 OK.

데이터베이스, 스키마, 시드 데이터
CarMarket 데이터베이스를 만들고 Users, Cars, Inquiries 3-table 모델을 구축, 시드 데이터를 적재
스키마 SQL 파일 작성
cd ~/carmarket
nano schema.sql
schema.sql
CREATE DATABASE CarMarket;
GO
USE CarMarket;
GO

CREATE TABLE Users (
    UserId    INT IDENTITY(1,1) PRIMARY KEY,
    Name      NVARCHAR(100) NOT NULL,
    Email     NVARCHAR(200) NOT NULL UNIQUE,
    Phone     NVARCHAR(20),
    UserType  NVARCHAR(10) NOT NULL DEFAULT 'both'
              CHECK (UserType IN ('seller','buyer','both')),
    CreatedAt DATETIME2 DEFAULT SYSUTCDATETIME()
);

CREATE TABLE Cars (
    CarId       INT IDENTITY(1,1) PRIMARY KEY,
    SellerId    INT NOT NULL FOREIGN KEY REFERENCES Users(UserId),
    Brand       NVARCHAR(50) NOT NULL,
    Model       NVARCHAR(100) NOT NULL,
    Year        INT NOT NULL,
    Price       DECIMAL(12,0) NOT NULL,
    Mileage     INT NOT NULL,
    FuelType    NVARCHAR(20),
    Description NVARCHAR(MAX),
    Status      NVARCHAR(20) NOT NULL DEFAULT 'available'
                CHECK (Status IN ('available','reserved','sold')),
    CreatedAt   DATETIME2 DEFAULT SYSUTCDATETIME()
);

CREATE TABLE Inquiries (
    InquiryId INT IDENTITY(1,1) PRIMARY KEY,
    CarId     INT NOT NULL FOREIGN KEY REFERENCES Cars(CarId),
    BuyerId   INT NOT NULL FOREIGN KEY REFERENCES Users(UserId),
    Message   NVARCHAR(1000) NOT NULL,
    CreatedAt DATETIME2 DEFAULT SYSUTCDATETIME()
);

CREATE INDEX IX_Cars_Brand     ON Cars(Brand);
CREATE INDEX IX_Cars_Status    ON Cars(Status);
CREATE INDEX IX_Cars_CreatedAt ON Cars(CreatedAt DESC);
GO
시드 데이터 작성
nano seed.sql
USE CarMarket;
GO

INSERT INTO Users (Name, Email, Phone, UserType) VALUES
(N'김판매', 'seller1@test.com', '010-1111-1111', 'seller'),
(N'이판매', 'seller2@test.com', '010-2222-2222', 'seller'),
(N'박판매', 'seller3@test.com', '010-3333-3333', 'seller'),
(N'최구매', 'buyer1@test.com',  '010-4444-4444', 'buyer'),
(N'정구매', 'buyer2@test.com',  '010-5555-5555', 'buyer');

INSERT INTO Cars (SellerId, Brand, Model, Year, Price, Mileage, FuelType, Description) VALUES
(1, N'현대',   N'쏘나타 DN8',     2021, 18500000, 45000, N'가솔린', N'무사고, 1인 소유, 정기점검 완료'),
(1, N'기아',   N'K5 3세대',        2020, 16000000, 62000, N'가솔린', N'썬루프, 어라운드뷰 옵션'),
(2, N'BMW',   N'520d (G30)',      2019, 28000000, 78000, N'디젤',   N'풀옵션, 가죽시트, 무사고'),
(2, N'벤츠',   N'E300 (W213)',     2020, 38000000, 55000, N'가솔린', N'AMG 패키지, 1인 소유'),
(3, N'제네시스', N'G80 (RG3)',      2022, 45000000, 28000, N'가솔린', N'신차급, 출고 1년');
GO
sql 파일 실행
read -s -p "SA Password: " SA_PWD
export SA_PWD

sqlcmd -S localhost -U sa -P "$SA_PWD" -C -i schema.sql
sqlcmd -S localhost -U sa -P "$SA_PWD" -C -i seed.sql

데이터 검증
sqlcmd -S localhost -U sa -P "$SA_PWD" -C -d CarMarket -Q \
  "SELECT c.Brand, c.Model, c.Year, c.Price, u.Name AS Seller
   FROM Cars c JOIN Users u ON c.SellerId = u.UserId
   ORDER BY c.Price DESC"
Flask 백엔드 구현(REST API)
Python Flask로 5개의 REST 엔드포인트(/health, GET·POST /cars, POST /inquiries, GET /users)를 구현하고 SQL Server와 연결
.env파일로 비밀번호 분리
nano .env

SA_PASSWORD=YourStrongP@ssw0rd
DB_SERVER=localhost
DB_NAME=CarMarket
FLASK_PORT=5000

# 권한 600 — 본인만 읽기·쓰기
chmod 600 .env
ls -la .env
app.py
nano app.py
import os
from contextlib import contextmanager
import pyodbc
from flask import Flask, request, jsonify, render_template_string
from dotenv import load_dotenv

load_dotenv()

app = Flask(__name__)

DB_SERVER   = os.environ.get("DB_SERVER", "localhost")
DB_NAME     = os.environ.get("DB_NAME", "CarMarket")
DB_USER     = "sa"
DB_PASSWORD = os.environ.get("SA_PASSWORD")
FLASK_PORT  = int(os.environ.get("FLASK_PORT", 5000))

CONN_STR = (
    "DRIVER={ODBC Driver 18 for SQL Server};"
    f"SERVER={DB_SERVER};DATABASE={DB_NAME};"
    f"UID={DB_USER};PWD={DB_PASSWORD};"
    "TrustServerCertificate=yes;Encrypt=yes;"
)

@contextmanager
def db():
    conn = pyodbc.connect(CONN_STR, autocommit=False)
    try:
        yield conn
        conn.commit()
    except Exception:
        conn.rollback()
        raise
    finally:
        conn.close()

# ====== Health check ======
@app.route("/health")
def health():
    try:
        with db() as conn:
            cur = conn.cursor()
            cur.execute("SELECT 1")
            cur.fetchone()
        return jsonify({"status": "ok", "db": "connected"}), 200
    except Exception as e:
        return jsonify({"status": "error", "db": str(e)}), 500

# ====== Users ======
@app.route("/api/users", methods=["GET"])
def list_users():
    with db() as conn:
        cur = conn.cursor()
        cur.execute("SELECT UserId, Name, Email, Phone, UserType FROM Users ORDER BY UserId")
        rows = cur.fetchall()
    return jsonify([
        {"id": r[0], "name": r[1], "email": r[2], "phone": r[3], "type": r[4]}
        for r in rows
    ])

# ====== Cars: 목록 + 검색 ======
@app.route("/api/cars", methods=["GET"])
def list_cars():
    brand = request.args.get("brand")
    max_price = request.args.get("max_price", type=int)

    sql = """
        SELECT c.CarId, u.Name, c.Brand, c.Model, c.Year, c.Price,
               c.Mileage, c.FuelType, c.Description, c.Status, c.CreatedAt
          FROM Cars c
          JOIN Users u ON c.SellerId = u.UserId
         WHERE c.Status = 'available'
    """
    params = []
    if brand:
        sql += " AND c.Brand = ?"
        params.append(brand)
    if max_price:
        sql += " AND c.Price <= ?"
        params.append(max_price)
    sql += " ORDER BY c.CreatedAt DESC"

    with db() as conn:
        cur = conn.cursor()
        cur.execute(sql, params)
        rows = cur.fetchall()

    return jsonify([
        {
            "id": r[0], "seller": r[1], "brand": r[2], "model": r[3],
            "year": r[4], "price": int(r[5]), "mileage": r[6],
            "fuel": r[7], "desc": r[8], "status": r[9],
            "created_at": r[10].isoformat() if r[10] else None
        } for r in rows
    ])

# ====== Cars: 등록 ======
@app.route("/api/cars", methods=["POST"])
def create_car():
    data = request.get_json(silent=True) or {}
    required = ["seller_id", "brand", "model", "year", "price", "mileage"]
    missing = [k for k in required if k not in data]
    if missing:
        return jsonify({"error": f"missing fields: {missing}"}), 400

    with db() as conn:
        cur = conn.cursor()
        cur.execute("""
            INSERT INTO Cars (SellerId, Brand, Model, Year, Price, Mileage, FuelType, Description)
            OUTPUT INSERTED.CarId
            VALUES (?, ?, ?, ?, ?, ?, ?, ?)
        """, data["seller_id"], data["brand"], data["model"], int(data["year"]),
             int(data["price"]), int(data["mileage"]),
             data.get("fuel", ""), data.get("desc", ""))
        new_id = cur.fetchone()[0]
    return jsonify({"car_id": new_id}), 201

# ====== Inquiries ======
@app.route("/api/inquiries", methods=["POST"])
def create_inquiry():
    data = request.get_json(silent=True) or {}
    for k in ("car_id", "buyer_id", "message"):
        if k not in data:
            return jsonify({"error": f"missing {k}"}), 400

    with db() as conn:
        cur = conn.cursor()
        cur.execute("""
            INSERT INTO Inquiries (CarId, BuyerId, Message)
            OUTPUT INSERTED.InquiryId
            VALUES (?, ?, ?)
        """, int(data["car_id"]), int(data["buyer_id"]), data["message"])
        new_id = cur.fetchone()[0]
    return jsonify({"inquiry_id": new_id}), 201

# ====== UI: 단일 페이지 (Step 8에서 추가) ======
INDEX_HTML = ""  # Step 8에서 채움

@app.route("/")
def index():
    return render_template_string(INDEX_HTML)

if __name__ == "__main__":
    app.run(host="0.0.0.0", port=FLASK_PORT, debug=False)
로컬 테스트
source venv/bin/activate
python app.py
# 다른 터미널 또는 같은 세션에서:
curl -s http://localhost:5000/health | python3 -m json.tool

API 동작 테스트
curl -s http://localhost:5000/api/cars | python3 -m json.tool

# 브랜드 필터
curl -s "http://localhost:5000/api/cars?brand=BMW" | python3 -m json.tool

# 차량 등록
curl -s -X POST http://localhost:5000/api/cars \
  -H "Content-Type: application/json" \
  -d '{"seller_id":1,"brand":"기아","model":"카니발","year":2022,"price":35000000,"mileage":15000,"fuel":"디젤","desc":"하이리무진 풀옵"}' \
  | python3 -m json.tool

# 문의 등록
curl -s -X POST http://localhost:5000/api/inquiries \
  -H "Content-Type: application/json" \
  -d '{"car_id":1,"buyer_id":4,"message":"실차 확인 가능한가요?"}' \
  | python3 -m json.tool
백그라운드 프로세스 종료
ps aux | grep "[p]ython app.py"
kill 

프론트엔드
Bootstrap 5 CDN으로 차량 목록·등록·문의 UI를 구현. 단일 HTML 문자열을 Flask render_template_string으로 제공
app.py의 INDEX_HTML = "" 라인을 아래 내용으로 교체
INDEX_HTML = """



  
  
  중고차 마켓 MVP
  
  



  🚗 중고차 마켓 MVP
  
    
    checking…
  



  
    
      브랜드
      
    
    
      최대 가격(원)
      
    
    
      
    
    
      
    
  

  




  
    
      매물 등록
      
        
          판매자
            
          브랜드
            
          모델
            
          연식
            
          연료
            
          가격(원)
            
          주행(km)
            
          설명
            
        
      
      
        
        
      
    
  




  
    
      문의하기
      
        차량 ID: 
        구매자
        
        메시지
        
      
      
        
        
      
    
  






"""
로컬 테스트
source venv/bin/activate
python app.py &

curl -s http://localhost:5000/ | head -20

외부 접근 설정(NSG) + systemd 서비스화
NSG에 5000 포트를 열어 외부 브라우저에서 접근 가능하게 하고, Flask 앱을 systemd 서비스로 등록해 SSH 종료 후에도 동작하게 설정
NSG 규칙 추가 - Flask 5000 포트
로컬 개발 머신(VM이 아닌, 로컬 PC)에서 실행
# 5000 포트 외부 노출
az vm open-port \
  --resource-group $RG \
  --name $VM \
  --port 5000 \
  --priority 1010

# 현재 NSG 규칙 확인
az network nsg rule list \
  --resource-group $RG \
  --nsg-name ${VM}NSG \
  --output table


1433 포트는 절대 열지 마세요. SQL Server는 Step 4에서 127.0.0.1 바인딩했지만 NSG도 이중 차단입니다.
우선순위(priority) 1010은 SSH 1000과 충돌하지 않도록 100 이상 차이를 둡니다.
끝나면 5000도 다시 닫는것 필수

외부 차단 검증
# 외부에서 SQL Server 접속 시도 — 반드시 timeout 발생해야 정상
sqlcmd -S $PUBIP,1433 -U sa -P 'dummy' -C -l 5
# 출력 예: Login timeout expired ... (10 ~ 60초 후)

# 또는 nc(netcat) / Test-NetConnection
# Linux/Mac:
nc -zv $PUBIP 1433
# 결과: "Connection refused" 또는 "timed out" → OK

# Windows PowerShell:
Test-NetConnection -ComputerName $env:PUBIP -Port 1433
# TcpTestSucceeded : False → OK
1433 포트가 외부에서 timeout 또는 refused — 정상. 만약 connect 성공하면 즉시 NSG와 SQL Server bind 설정 재점검.
Flask앱 systemd 서비스 등록
sudo nano /etc/systemd/system/carmarket.service

[Unit]
Description=CarMarket Flask App
After=network.target mssql-server.service
Requires=mssql-server.service

[Service]
Type=simple
User=azureuser
WorkingDirectory=/home/azureuser/carmarket
EnvironmentFile=/home/azureuser/carmarket/.env
ExecStart=/home/azureuser/carmarket/venv/bin/gunicorn \
  --bind 0.0.0.0:5000 \
  --workers 2 \
  --access-logfile - \
  app:app
Restart=on-failure
RestartSec=5

[Install]
WantedBy=multi-user.target

# 서비스 활성화 및 시작
sudo systemctl daemon-reload
sudo systemctl enable carmarket
sudo systemctl start carmarket
sudo systemctl status carmarket --no-pager

Active: active (running) 표시되면 OK. 실패 시 journalctl -u carmarket -n 50 으로 로그 확인.
외부 브라우저로 접속
로컬 PC 브라우저에서 http://:5000/ 로 접근
(azure portal의 vm 리소스에 기본 NIC 공용 IP 사용)

정리
리소스 삭제하거나, vm의 인바운드 포트 규칙의 5000 삭제



[MicrosoftDataSchool] 79일차 - DB 역사
Wed, 29 Apr 2026 01:09:14 GMT
supabase, postgresql, mysql, mariadb, firebase 등으로 시작하고 후에 확장해서 로드밸런서 붙이거나 하는 것
MVP: Minimum Viable Product
초기에 죄다 azure function(서버리스)로 처리하면 의존성이 증가하여 유지보수가 힘들다 → NOSQL로도 만들수 있지만, RDBMS를 함께 써야 확장성이 좋다.
MySQL을 쓰더라도 온프레미스로 vm(월 100$)에 설치해서 직접 관리하냐 vs 돈 좀 내고 Paas 서비스(Azure Database for MySQL 월 200$) 쓸거냐


Azure Database Engineer Bootcamp 정리
지형도 & 환경 셋업
Azure 데이터 서비스의 전체 그림을 이해하고, 실습 환경을 직접 구축하는 과정이다.
예상 비용은 1인당 약 $0.5로 안내되어 있다.

학습 목표
이번 과정의 학습 목표는 다음과 같다.



학습 목표



DB 진화 과정(계층형 → RDBMS → NoSQL → NewSQL) 설명 가능


CAP / BASE 차이를 실무 사례로 비교 가능


Azure 데이터 서비스 전체 지형도 + 의사결정 트리 활용


구독 · 리소스 그룹 · VNet · NSG 직접 생성


Budget Alert로 비용 사전 통제


리소스 정리 스크립트 작성 및 실행



선수 지식 확인



스킬
수준
구분



SQL
SELECT / JOIN 기본 쿼리 작성 · 조인 이해
필수


Linux CLI
ls, cd, ssh, vi 기본 조작
필수


Azure Portal
리소스 검색 · 생성 화면 탐색
필수


네트워킹 기초
IP, 서브넷, 방화벽 개념
권장


Git 기초
clone, commit 수준
권장



DB 역사와 이론
왜 DB 역사를 배우는가?
DB 역사를 배우는 이유는 현재 기술의 장단점이 과거 문제 해결 과정에서 탄생했기 때문이다.

현재 기술의 장단점은 과거 문제 해결 과정에서 탄생
NoSQL은 RDBMS를 “대체”하는 것이 아님
워크로드에 맞는 DB 선택 = DBA 핵심 역량
Azure에 데이터 서비스가 10가지 넘는 이유를 이해하기 위함


계층형 DB → 관계형 DB
1960s 계층형 DB



항목
내용



대표 시스템
IBM IMS (1966)


구조
트리 구조: 부모 → 자식


장점
빠른 읽기


한계
유연성 부족


1970s 네트워크 DB



항목
내용



대표 모델
CODASYL


특징
다대다 관계 지원


1970~80s 관계형 DB



항목
내용



핵심 인물
E.F. Codd (1970)


핵심 개념
데이터를 테이블로 추상화


쿼리 언어
SQL: 선언적 쿼리 언어


대표 DB
Oracle (1979), SQL Server (1989), PostgreSQL (1996)



계층형·네트워크 DB의 한계
RDBMS가 혁명적이었던 이유는 기존 계층형·네트워크 DB의 한계를 해결했기 때문이다.

트리/그래프 구조에서는 데이터 접근 경로를 프로그래머가 직접 코딩해야 했다.
스키마 변경 시 애플리케이션 전체 수정이 필요했다.
데이터 독립성이 부족했다.
물리적 저장 구조와 논리적 구조가 결합되어 있었다.
다대다 관계 표현이 복잡했다.
이러한 문제들이 Codd의 관계 모델 탄생 배경이 되었다.


SQL의 탄생과 표준화
SQL의 진화



연도
내용



1970
Codd 관계 모델 논문


1974
SEQUEL (IBM)


1979
Oracle V2, 최초 상용


1986
SQL-86, ANSI 표준


1992
SQL-92


1999
SQL:1999, CTE / 윈도우 함수


2016
SQL:2016, JSON



SQL의 선언적 혁신
SQL은 “어떻게 가져올지”가 아니라 “무엇을 가져올지”를 기술한다.



방식
설명



절차적
HOW를 기술, 어떻게 데이터를 가져올지 작성


선언적
WHAT을 기술, 무엇을 가져올지 작성


예시:
SELECT name FROM users
WHERE age > 30;
이 경우 사용자는 원하는 결과만 선언하고, 실제 최적 경로는 DB 엔진이 결정한다.

RDBMS 30년 지배
1980년대부터 2000년대까지 RDBMS는 데이터베이스 시장을 지배했다.

1980~2000: Oracle, SQL Server, MySQL, PostgreSQL 시장 장악
ACID 트랜잭션: 금융 · ERP · 재고 시스템의 기반
SQL 표준화: 어떤 RDBMS든 비슷한 쿼리 사용 가능
정규화 이론: 중복 제거, 무결성 보장
예)중복되는 부분을 테이블 분리 후 ID로 관리


그러나 2000년대 웹 스케일 문제가 RDBMS의 한계를 드러냄


NoSQL
Not Only SQL
NoSQL 4가지 데이터 모델



모델
대표 기술
특징
사용 예



Key-Value
Redis, DynamoDB
최고 성능
캐시, 세션 관리


Document
MongoDB, Cosmos DB
JSON / BSON, 유연한 스키마
문서형 데이터


Column-Family
Cassandra, HBase
대규모 쓰기
시계열, 로그


Graph
Neo4j, Gremlin
관계 탐색
소셜, 추천



NoSQL이 등장한 배경
2000년대 Google과 Amazon이 NoSQL의 길을 열었다.

2004: Google BigTable 논문 → Column-Family 모델에 영감

2007: Amazon Dynamo 논문 → Key-Value + Eventual Consistency

2009: MongoDB, Cassandra, Redis 등 폭발적 등장

핵심 동인: 웹 스케일

수십억 사용자
페타바이트 데이터


RDBMS의 수직 확장 한계

단일 서버 성능에 의존


수평 확장 필요

Scale-Out
분산 시스템
CAP 트레이드오프 발생



실시간으로 기록해야하는 부분(그날 게임점수 신기록) 이런건 NoSQL로 처리하는게 이득

데이터베이스의 종류와 역사
데이터베이스란?
데이터베이스는 구조화된 정보나 데이터의 조직화된 모음이다. 일반적으로 컴퓨터 시스템에 전자적으로 저장된다.
DBMS(Database Management System)는 사용자와 애플리케이션이 데이터베이스와 상호 작용할 수 있게 해주는 소프트웨어이다.
주요 역할



역할



데이터의 일관성 유지


보안 및 접근 제어 관리


중복 데이터 제거 및 저장 공간 최적화


다중 사용자 접근 제어



데이터와 정보의 차이
데이터(Data)
데이터는 가공되지 않은 원시 사실이나 관찰 결과를 의미한다. 그 자체로는 특별한 의미가 없는 단순한 숫자, 문자, 이미지 등의 모음이다.



구분
내용



예시
36.5, "홍길동", 2023-05-15


특징
컴퓨터가 처리할 수 있는 형태로 표현된 사실


상태
해석되지 않은 원시 상태


정보(Information)
정보는 데이터를 가공·처리하여 의미를 부여한 결과물이다. 특정 목적을 위해 데이터를 해석하고 조직화한 형태이다.



구분
내용



예시
“체온은 정상(36.5℃)입니다”


특징
의사결정에 활용 가능한 가치 있는 결과물


상태
맥락과 관계성이 부여된 상태



데이터베이스의 역사 개요
데이터베이스 기술은 1960년대부터 시작되어 컴퓨팅 기술의 발전과 함께 계속 진화해왔다.
초기에는 단순한 파일 시스템으로 데이터를 관리했지만, 시간이 지나면서 계층형 DB, 네트워크형 DB, 관계형 DB, 객체지향 DB, NoSQL, NewSQL, 클라우드 DB까지 발전했다.
이러한 변화는 다음 요인에 의해 가속화되었다.



발전 요인



하드웨어 성능 향상


네트워크 기술 발전


비즈니스 요구사항 변화



파일 시스템 시대
파일 시스템 시대 (1세대)
파일 시스템은 초기 데이터 관리 방식이다. 데이터를 데이터베이스가 아니라 파일 단위로 저장하고, 애플리케이션이 직접 파일을 읽고 쓰는 방식이었다.
파일 시스템의 특징



특징



데이터를 단순 텍스트 파일이나 바이너리 파일로 저장


각 애플리케이션마다 독립적인 파일 구조 사용


메인프레임 컴퓨터에서 주로 사용


파일 시스템의 한계



한계



데이터 중복 발생 불가피


일관성 유지 어려움


복잡한 쿼리나 검색 기능 부재


데이터 보안 취약


동시 접근 제어 불가능


이 시기에는 프로그래머가 직접 파일 관리 로직을 구현해야 했다. 따라서 데이터 접근과 관리에 많은 시간과 자원이 소모되었다.

계층형 데이터베이스
계층형 데이터베이스 (2세대)
계층형 데이터베이스는 데이터를 트리 구조로 구성한다. 부모-자식 관계를 중심으로 데이터를 표현하며, 하향식으로 데이터를 탐색한다.
주요 특징



특징



트리 구조로 데이터 구성


부모-자식 관계(1:N) 표현


하향식 데이터 탐색 방식


IBM IMS(Information Management System, 1966년) 등장


한계점



한계



복잡한 관계 표현 어려움


데이터 접근 경로 사전 정의 필요


구조 변경 시 전체 시스템에 영향


계층형 데이터베이스는 파일 시스템의 한계를 극복하고 구조화된 데이터 관리를 가능하게 했지만, 복잡한 다대다 관계를 표현하기에는 제한적이었다.

네트워크형 데이터베이스
네트워크형 데이터베이스
네트워크형 데이터베이스는 계층형 모델보다 복잡한 관계를 표현하기 위해 등장했다. 그래프 구조를 사용하며 레코드 간 다대다 관계를 표현할 수 있다.



요소
설명



그래프 구조
레코드 간 다대다(N:M) 관계 표현 가능


CODASYL
1970년대 네트워크 DB 표준화 모델 개발


포인터 시스템
레코드 간 직접 연결 포인터 사용


유연한 쿼리
계층형보다 향상된 데이터 검색 기능


네트워크형 데이터베이스는 계층형 모델의 제한을 극복했지만, 여전히 데이터 구조와 쿼리가 복잡하다는 한계가 있었다.

관계형 데이터베이스 도입
E.F. Codd의 혁신
1970년 IBM 연구원 에드거 F. 코드(E.F. Codd)는 “A Relational Model of Data for Large Shared Data Banks”라는 논문을 발표했다. 이 논문은 관계형 데이터베이스의 이론적 기반을 마련했다.
주요 혁신점



혁신점



테이블(릴레이션) 구조 도입


수학적 집합 이론 기반


데이터와 물리적 저장 구조 분리


선언적 쿼리 언어 개념 제시


코드의 관계형 모델은 이전 데이터베이스 패러다임의 복잡성을 극복하고, 직관적이고 유연한 데이터 구조를 제공했다. 이 개념은 현대 데이터베이스 발전의 토대가 되었다.

관계형 DBMS의 발전 (3세대)



시기
내용



1974
IBM System R 프로젝트에서 SQL(Structured Query Language) 개발


1979
Oracle V2 출시, 최초의 상업용 RDBMS


1980년대
IBM DB2, Informix, Sybase 등장


1989
ANSI 및 ISO에서 SQL 표준 제정


1990년대
Microsoft SQL Server, MySQL 등장으로 RDBMS 대중화


관계형 데이터베이스는 표준화된 SQL의 등장과 함께 산업 표준으로 자리 잡았다. 비즈니스 애플리케이션과 공공 시스템에서 널리 채택되었고, 이 시기에 데이터 무결성, 트랜잭션 처리, 백업/복구 등의 핵심 기능이 발전했다.

객체지향 DBMS
객체지향 DBMS (4세대)
1980년대 후반 객체지향 프로그래밍이 인기를 얻으면서 복잡한 데이터 구조를 더 잘 표현할 수 있는 데이터베이스의 필요성이 커졌다.
객체지향 DB의 등장 배경



내용



객체지향 프로그래밍의 확산


복잡한 데이터 구조 표현 필요


객체와 데이터베이스 간 표현 차이 해소 필요


주요 특징



특징



객체와 클래스 개념을 데이터베이스에 적용


상속, 다형성, 캡슐화 지원


복잡한 데이터 타입과 관계 표현 가능


객체 참조를 통한 관계 표현


대표 시스템



대표 객체지향 DBMS



GemStone


ObjectStore


Versant


객체지향 DBMS는 복잡한 데이터 표현에 강점이 있었지만, 관계형 데이터베이스의 강력한 점유율과 표준화된 SQL의 부재로 인해 주류 시장에서는 제한적인 성공을 거두었다.

객체-관계형 DBMS
객체-관계형 DBMS (5세대)
객체-관계형 DBMS는 관계형 데이터베이스의 테이블 구조와 객체지향 데이터베이스의 유연성을 결합한 하이브리드 모델이다.
하이브리드 접근법
관계형 데이터베이스의 테이블 구조와 객체지향 데이터베이스의 유연성을 결합한다.
확장된 데이터 타입
복잡한 사용자 정의 데이터 타입, 배열, XML, JSON 등 다양한 형식의 데이터를 직접 저장하고 처리할 수 있다.
SQL 확장
객체 조작을 위한 확장된 SQL 구문을 제공하여 복잡한 데이터 구조에 대한 쿼리를 쉽게 한다.
대표 시스템



대표 객체-관계형 DBMS



PostgreSQL


Oracle Database


IBM DB2


Microsoft SQL Server


현대적인 관계형 데이터베이스 대부분은 객체-관계형 기능을 통합하고 있다.

DBMS 역사 총정리



세대
유형
시기
주요 특징
대표 시스템



1세대
파일 시스템
1960년대 초
단순 파일 기반 데이터 저장
ISAM, VSAM


2세대
계층형
1960년대 중반
트리 구조, 부모-자식 관계
IBM IMS


3세대
네트워크형
1970년대 초
그래프 구조, 복잡한 관계
IDMS, CODASYL


4세대
관계형
1970~80년대
테이블 구조, SQL
Oracle, DB2, SQL Server


5세대
객체지향 / 객체관계형
1990년대
객체 모델, 복잡한 데이터 처리
PostgreSQL, ObjectStore


데이터베이스 시스템은 단순 파일 저장에서 시작해 복잡한 데이터 관계와 구조를 표현할 수 있는 형태로 발전했다. 각 세대는 이전 세대의 한계를 극복하고 새로운 요구사항을 충족하기 위해 등장했다.

대표적 관계형 DBMS
Oracle Database
1979년 출시된 엔터프라이즈급 RDBMS이다. 대규모 트랜잭션 처리와 안정성에 강점이 있다.



항목
내용



출시
1979년


특징
대규모 트랜잭션 처리, 안정성


주요 사용처
금융, 통신, 제조 등 대형 기업


MySQL
1995년 출시된 오픈소스 RDBMS이다. 웹 애플리케이션과의 뛰어난 호환성과 속도가 특징이다.



항목
내용



출시
1995년


특징
오픈소스, 웹 애플리케이션 친화적, 빠른 속도


주요 사용처
WordPress, Facebook 등 웹 서비스 기반


Microsoft SQL Server
1989년 출시된 Microsoft의 RDBMS이다. Windows 환경과의 통합성이 뛰어나다.



항목
내용



출시
1989년


특징
Windows 환경과 뛰어난 통합성


주요 사용처
중소기업부터 대기업까지 다양한 비즈니스


PostgreSQL
1996년 출시된 고급 오픈소스 RDBMS이다. 확장성과 표준 준수에 강점이 있다.



항목
내용



출시
1996년


특징
확장성, SQL 표준 준수, 복잡한 쿼리 처리


주요 사용처
대규모 데이터베이스, 복잡한 분석 시스템



MySQL과 PostgreSQL 비교
MySQL의 특징



특징



읽기 작업에 최적화된 성능


단순한 설치와 구성


웹 애플리케이션과의 호환성


다양한 스토리지 엔진 지원


빠른 처리 속도 중심


MySQL은 주로 콘텐츠 관리 시스템, 블로그, 웹 애플리케이션에 적합하다.
PostgreSQL의 특징



특징



SQL 표준 준수 중시


복잡한 쿼리 최적화


고급 데이터 타입과 함수 지원


지리 정보 시스템(GIS) 기능


동시성과 안정성 중심


PostgreSQL은 금융 시스템, 과학 연구, 복잡한 데이터 분석에 적합하다.

오픈소스 DB의 부상



시기
내용



1995년
MySQL 출시. Michael Widenius와 David Axmark이 개발. 무료 관계형 DB로 웹 개발에 혁신을 가져옴


1996년
PostgreSQL 출시. 버클리 대학 POSTGRES 프로젝트에서 발전한 고급 오픈소스 RDBMS


2000년대 초
닷컴 붐과 저비용 웹 솔루션 수요 증가로 MySQL 등 오픈소스 DB 채택 급증


2008년
Sun Microsystems가 MySQL을 10억 달러에 인수. 오픈소스 DB의 상업적 가치 입증


2010년 이후
오픈소스 DB가 엔터프라이즈 영역에서도 주류화. MariaDB, MongoDB 등 다양한 솔루션 등장



엔터프라이즈 DBMS
Oracle Database
글로벌 금융 기관과 대기업에서 많이 사용되는 엔터프라이즈 DBMS이다.



주요 특징



고성능 트랜잭션 처리(OLTP) 지원


실시간 애플리케이션 클러스터(RAC)


고급 보안 및 암호화 기능


다양한 데이터 유형 지원: 공간 데이터, 멀티미디어 등


IBM Db2
대형 메인프레임 환경에서 강점을 가진 엔터프라이즈 데이터베이스이다.



주요 특징



고성능 분석 처리


AI 기반 쿼리 최적화


하이브리드 트랜잭션/분석 처리(HTAP)


메인프레임 환경과의 통합 지원


Microsoft SQL Server
Windows 환경에서 강력한 통합 기능을 제공하는 엔터프라이즈 솔루션이다.



주요 특징



비즈니스 인텔리전스 도구 통합


인메모리 OLTP 엔진


Microsoft 생태계와 높은 통합성


고급 보안 및 감사 기능



NoSQL의 등장
NoSQL의 의미
NoSQL은 Not Only SQL을 의미한다. 전통적인 관계형 데이터베이스의 한계를 넘어서기 위해 등장한 새로운 데이터베이스 패러다임이다.
등장 배경



배경



웹 2.0과 소셜 미디어의 폭발적 성장


빅데이터와 실시간 분석 필요성


수평적 확장성(Scale-out) 요구


유연한 스키마와 다양한 데이터 형식 필요


2000년대 후반 Google의 BigTable과 Amazon의 Dynamo 논문이 발표되면서 NoSQL 움직임이 본격화되었다. 이후 MongoDB, Cassandra, Redis 등 다양한 NoSQL 데이터베이스가 등장하며 새로운 데이터 저장 패러다임을 형성했다.

NoSQL 배경



수치
의미
설명



2.5EB
일일 생성 데이터
2020년 기준 전 세계에서 하루에 생성되는 데이터 양. 이 중 80% 이상이 비정형 데이터


1B+
소셜 미디어 사용자
소셜 미디어 플랫폼 사용자는 매일 수십억 건의 상호작용 데이터를 생성


40%
연간 데이터 증가율
기업 데이터는 연평균 40% 이상 증가


1000x
처리 속도 향상
일부 NoSQL 시스템은 특정 워크로드에서 관계형 DB보다 최대 1000배 빠른 처리 속도 제공



NoSQL 주요 유형 개관



유형
설명



Key-Value
단순한 키와 값의 쌍으로 데이터 저장. 고속 읽기/쓰기에 최적화


Document
JSON/BSON 형식의 문서로 데이터 저장. 유연한 스키마


Column
컬럼 패밀리 단위로 데이터 저장. 대규모 분석에 적합


Graph
노드와 관계로 데이터 저장. 복잡한 연결 분석에 최적화


각 NoSQL 유형은 특정 사용 사례와 데이터 모델에 최적화되어 있다. 관계형 데이터베이스로 해결하기 어려운 특정 문제를 효율적으로 해결할 수 있다. 오늘날 많은 기업은 다양한 워크로드를 위해 여러 유형의 데이터베이스를 함께 사용하는 멀티 모델 접근 방식을 채택하고 있다.

Key-Value DB
작동 원리
Key-Value DB는 단순한 키(key)와 값(value)의 쌍으로 데이터를 저장하는 가장 기본적인 NoSQL 데이터베이스이다.
주요 특징



특징



초고속 읽기/쓰기 성능


수평적 확장성(Scale-out) 용이


단순한 API: GET, PUT, DELETE


스키마 제약 없음


대표적 시스템



시스템
설명



Redis
인메모리 기반, 다양한 데이터 구조 지원


Amazon DynamoDB
완전 관리형 서비스


Riak
고가용성, 분산 아키텍처


Memcached
분산 캐싱 시스템


주요 활용 분야



활용 분야



세션 관리 및 사용자 프로필


실시간 추천 엔진


쇼핑 카트 및 캐싱 시스템


IoT 데이터 저장



Document DB
작동 원리
Document DB는 JSON, BSON 또는 XML과 같은 반구조화된 형식의 문서로 데이터를 저장한다. 각 문서는 자체적으로 완결된 정보를 포함하며, 다양한 필드와 중첩 구조를 가질 수 있다.
예시 문서
{
  "id": "user123",
  "name": "홍길동",
  "email": "hong@example.com",
  "orders": [
    { "id": "ord1", "date": "2023-01-15" },
    { "id": "ord2", "date": "2023-02-20" }
  ]
}
주요 특징



특징



유연한 스키마: 문서마다 다른 구조 가능


복잡한 데이터 구조의 자연스러운 표현


개발자 친화적인 데이터 모델


수평적 확장성 및 복제 지원


강력한 쿼리 기능: 인덱싱, 집계 등


대표 시스템 및 활용



대표 Document DB



MongoDB


Couchbase


Firebase Firestore


Amazon DocumentDB


주요 활용 분야는 웹 애플리케이션, 콘텐츠 관리 시스템, 카탈로그, 사용자 프로필 관리 등이다.

컬럼형 데이터베이스
작동 원리
컬럼형 데이터베이스는 데이터를 행이 아닌 컬럼 단위로 저장한다. 관련 컬럼들은 컬럼 패밀리로 그룹화된다. 분석 쿼리에서 필요한 컬럼만 효율적으로 읽을 수 있다는 장점이 있다.
주요 특징



특징



대규모 데이터 분석에 최적화


고도의 확장성: 페타바이트 규모


희소 매트릭스 효율적 처리


데이터 압축률이 높음


분산 아키텍처 기본 지원


대표 시스템



시스템
설명



Apache Cassandra
높은 가용성, 선형적 확장성


HBase
Hadoop 에코시스템 기반


Google Bigtable
구글의 대규모 데이터 처리 시스템


ScyllaDB
고성능 Cassandra 호환 시스템


주요 활용 분야



활용 분야



시계열 데이터


센서 데이터


로그 분석


대규모 분석 시스템



그래프 DB
그래프 DB는 실제 세계의 연결 구조를 노드와 관계로 모델링한다.



요소
설명



노드와 관계
실제 세계의 연결 구조를 노드(개체)와 엣지(관계)로 자연스럽게 모델링


관계 탐색
복잡한 관계를 효율적으로 탐색하는 쿼리 성능 우수


속성 그래프
노드와 관계 모두에 속성을 부여할 수 있는 유연한 모델


그래프 쿼리
Cypher, Gremlin 등 그래프 전용 쿼리 언어 지원


대표 시스템



대표 그래프 DB



Neo4j


Amazon Neptune


JanusGraph


ArangoDB


주요 활용 분야



활용 분야



소셜 네트워크 분석


추천 엔진


사기 탐지


지식 그래프


네트워크 및 IT 운영 분석



NewSQL의 출현
NewSQL은 전통적인 관계형 데이터베이스의 강점과 NoSQL의 확장성을 결합한 데이터베이스이다.



핵심 요소
설명



관계형 모델
SQL 및 ACID 트랜잭션 지원


수평적 확장성
NoSQL 수준의 분산 아키텍처


고성능 처리
트랜잭션과 분석 워크로드 동시 최적화


주요 특징



특징



분산 SQL 쿼리 처리


자동 샤딩(Sharding) 지원


실시간 분석 기능


클라우드 네이티브 설계


대표 시스템



시스템
설명



Google Spanner
글로벌 분산 트랜잭션


CockroachDB
Spanner에서 영감을 받은 오픈소스 DB


VoltDB
인메모리 트랜잭션 처리


TiDB
MySQL 호환 분산 데이터베이스


NewSQL은 미션 크리티컬한 트랜잭션 처리와 대규모 데이터 처리를 동시에 요구하는 현대적 애플리케이션에 적합하다.

인메모리 DBMS
기본 개념
인메모리 DBMS는 주로 디스크가 아닌 메인 메모리(RAM)에 데이터를 저장하고 처리하는 데이터베이스 시스템이다. 디스크 I/O 병목을 제거하여 매우 빠른 처리 속도를 제공한다.
주요 특징



특징



초고속 데이터 접근: 디스크 대비 수십~수백 배


실시간 데이터 처리 및 분석


복잡한 쿼리의 빠른 실행


낮은 지연 시간(latency)


대표 시스템



시스템
설명



Redis
오픈소스 인메모리 키-값 저장소


SAP HANA
기업용 인메모리 분석 플랫폼


MemSQL(SingleStore)
SQL 기반 분산 인메모리 DB


VoltDB
고성능 트랜잭션 처리


주요 활용 분야



활용 분야



실시간 분석


금융 거래


게임


IoT


실시간 대시보드



데이터베이스의 활용 변화
데이터베이스의 활용 영역은 단순 트랜잭션 처리에서 실시간 분석, AI 기반 의사결정, 엣지 컴퓨팅까지 확장되고 있다.



활용 영역
설명



웹 애플리케이션
초기 인터넷과 웹사이트를 위한 단순 데이터 저장


소셜 미디어
대규모 사용자 관계와 상호작용 데이터 처리


빅데이터
페타바이트 규모의 구조화/비구조화 데이터 분석


IoT 센서 데이터
수백만 디바이스의 실시간 데이터 수집과 처리


AI 및 머신러닝
모델 훈련 및 추론을 위한 대규모 데이터 저장소


현대 애플리케이션은 다양한 데이터 유형과 워크로드를 처리할 수 있는 다기능 데이터 플랫폼을 요구한다.

데이터베이스와 클라우드
클라우드 전환의 배경
기업들은 자체 데이터센터에서 데이터베이스를 운영·유지보수하는 대신, 클라우드 제공업체가 관리하는 서비스형 데이터베이스(DBaaS)로 전환하고 있다.
주요 이점



이점



초기 투자 비용(CapEx) 감소


자동화된 확장성 및 고가용성


관리 부담 및 운영 비용 감소


신속한 배포 및 테스트 환경 구성


최신 기술로의 지속적 업그레이드


주요 클라우드 제공업체



클라우드 제공업체



Amazon Web Services(AWS)


Microsoft Azure


Google Cloud Platform(GCP)


IBM Cloud


Oracle Cloud


2023년 기준 새로 배포되는 데이터베이스의 75% 이상이 클라우드 환경에서 구축되고 있으며, 이 비율은 계속 증가할 전망이라고 설명한다.

클라우드 DBMS 개요
관리형 서비스
패치, 백업, 확장, 고가용성 설정 등 데이터베이스 관리 작업을 클라우드 제공업체가 자동으로 처리한다.
탄력적 확장성
필요에 따라 컴퓨팅 및 스토리지 리소스를 자동으로 확장하거나 축소하여 비용을 최적화할 수 있다.
서버리스 옵션
사용한 만큼만 비용을 지불하는 서버리스 데이터베이스 옵션을 통해 인프라 관리 부담을 제거한다.
멀티 모델 지원
하나의 서비스에서 관계형, 문서, 그래프 등 다양한 데이터 모델을 지원하여 애플리케이션 개발을 단순화한다.
글로벌 분산
전 세계 데이터 센터에 데이터를 자동으로 복제하여 지연 시간을 줄이고 데이터 주권 준수를 지원한다.
서비스 통합
분석, 머신러닝, IoT 등 다른 클라우드 서비스와 통합하여 데이터 활용 가치를 높인다.

AWS의 주요 DB 서비스
Amazon RDS
관리형 관계형 데이터베이스 서비스이다. MySQL, PostgreSQL, Oracle, SQL Server, MariaDB 등 다양한 엔진을 지원한다.



주요 기능



자동 백업 및 패치 적용


다중 AZ 배포를 통한 고가용성


읽기 전용 복제본 지원


Amazon DynamoDB
완전 관리형 NoSQL 데이터베이스 서비스이다. 무제한 확장성과 밀리초 단위 성능을 제공한다.



주요 기능



서버리스 아키텍처


자동 다중 리전 복제


온디맨드 용량 모드


Amazon Aurora
MySQL 및 PostgreSQL과 호환되는 클라우드 네이티브 관계형 데이터베이스이다. 기존 엔진보다 최대 5배 빠른 성능을 제공한다고 설명한다.



주요 기능



분산 스토리지 아키텍처


자동 복구 기능


글로벌 데이터베이스 지원


기타 AWS DB 서비스



서비스
용도



Amazon Redshift
데이터 웨어하우스


ElastiCache
인메모리 캐싱


Neptune
그래프 DB


DocumentDB
MongoDB 호환


Timestream
시계열 DB



Google Cloud DB 서비스
Cloud Spanner
글로벌 분산 트랜잭션을 지원하는 수평적 확장 관계형 데이터베이스이다. 강력한 일관성과 99.999% 가용성을 제공한다.



주요 기능



글로벌 트랜잭션 일관성


자동 샤딩 및 복제


SQL 인터페이스


Cloud Bigtable
대규모 분석 및 운영 워크로드를 위한 완전 관리형 NoSQL 데이터베이스 서비스이다.



주요 기능



선형적 확장성


HBase API 호환성


빅데이터 워크로드 최적화


Cloud SQL
MySQL, PostgreSQL, SQL Server를 위한 완전 관리형 관계형 데이터베이스 서비스이다.



주요 기능



자동 백업 및 복제


고가용성 구성


암호화 및 VPC 지원


BigQuery
서버리스 엔터프라이즈 데이터 웨어하우스이다. 페타바이트 규모의 데이터를 실시간으로 분석할 수 있다.



주요 기능



SQL 기반 분석


머신러닝 통합


실시간 스트리밍 분석


기타 Google Cloud DB 서비스



서비스
용도



Firestore
문서형 DB


Memorystore
인메모리 DB


Firebase Realtime Database
실시간 동기화 DB



Microsoft Azure DB 서비스
Azure SQL Database
Microsoft SQL Server 기반의 완전 관리형 관계형 데이터베이스 서비스이다.



주요 기능



지능형 성능 최적화


자동 확장 및 백업


고급 보안 기능


서버리스 컴퓨팅 옵션


Azure Cosmos DB
글로벌 분산 멀티 모델 데이터베이스 서비스이다. 다양한 데이터 모델과 API를 지원한다.



주요 기능



SQL, MongoDB, Cassandra, Gremlin, Table API 지원


글로벌 분산 및 다중 지역 쓰기


밀리초 단위 응답 시간 SLA


자동 인덱싱 및 확장


Azure Database for MySQL/PostgreSQL
오픈소스 데이터베이스를 위한 완전 관리형 서비스이다.



주요 기능



자동 패치 및 백업


고가용성 구성


확장 가능한 스토리지


고급 보안 기능


기타 Azure DB 서비스



서비스
용도



Azure Synapse Analytics
데이터 웨어하우스


Azure Cache for Redis
인메모리 DB


Azure Database for MariaDB
관리형 MariaDB



클라우드 DBMS 특징
무중단 백업 및 복구
자동화된 백업 시스템과 시점 복구(Point-in-Time Recovery)를 통해 데이터 손실 위험을 최소화한다. 백업 작업이 성능에 영향을 미치지 않으며 재해 복구 계획도 쉽게 구현할 수 있다.
자동 확장 및 성능 최적화
워크로드 증가에 따라 리소스를 자동 확장하고, AI 기반 성능 모니터링과 최적화 도구로 데이터베이스 성능을 지속적으로 개선한다.
제공 기능:



기능



쿼리 분석


인덱스 추천


자동 튜닝


향상된 보안 및 규정 준수
저장 및 전송 중 암호화, 세밀한 접근 제어, 위협 감지 등 다양한 보안 기능이 기본 제공된다.
지원하는 규정 준수 예시:



규정



GDPR


HIPAA


PCI DSS


고가용성 및 재해 복구
다중 가용 영역 및 지역 복제, 자동 장애 조치(failover), 상시 가동 아키텍처 등을 통해 최대 99.999%의 가용성을 보장한다. 자연재해나 지역 장애에도 서비스 연속성을 유지할 수 있다.

온프레미스 DB vs 클라우드 DB
온프레미스 데이터베이스
장점



장점



데이터에 대한 완전한 제어권


네트워크 지연 시간 최소화


라이선스 기반 일회성 비용 구조


클라우드 의존성 없음


단점



단점



높은 초기 투자 비용


확장성 제한 및 복잡성


인력 및 유지보수 부담


재해 복구 구현 어려움


클라우드 데이터베이스
장점



장점



빠른 배포 및 확장성


사용량 기반 비용 구조


관리 부담 최소화


내장된 고가용성 및 재해 복구


단점



단점



데이터 주권 및 규제 이슈


네트워크 의존성 및 지연 가능성


장기적인 비용 증가 가능성


벤더 종속성(Lock-in) 위험


많은 기업은 두 접근 방식의 장점을 결합한 하이브리드 방식을 채택하고 있다. 워크로드 특성과 비즈니스 요구사항에 따라 최적의 배포 모델을 선택한다.

멀티 클라우드·하이브리드 DB
멀티 클라우드 전략
멀티 클라우드는 여러 클라우드 제공업체의 데이터베이스 서비스를 동시에 활용하는 접근 방식이다.
장점



장점



벤더 종속성 감소


각 제공업체의 강점 활용


지역별 최적 서비스 선택


협상력 및 위험 분산


단점



단점



일관된 관리의 복잡성 증가


데이터 동기화 복잡성 증가


하이브리드 데이터베이스 환경
하이브리드 데이터베이스 환경은 온프레미스와 클라우드 데이터베이스를 함께 운영하는 방식이다.
장점



장점



민감한 데이터는 온프레미스에 보관


탄력적 워크로드는 클라우드로 이동


점진적 클라우드 마이그레이션


기존 투자 활용과 혁신 균형


주요 과제



과제



데이터 일관성 유지


복잡한 네트워크 구성


최근에는 Kubernetes 기반 데이터베이스 운영과 같은 컨테이너화된 접근 방식이 등장하여 환경 간 이식성을 높이고 있다. 데이터베이스 가상화 및 추상화 레이어를 통해 복잡성을 관리하는 솔루션도 발전하고 있다.

DBMS 발전의 핵심 트렌드
오픈소스 확산
엔터프라이즈 영역에서도 오픈소스 데이터베이스 채택이 급증하고 있다.



주요 흐름



PostgreSQL의 기업용 워크로드 확대


MongoDB, Redis 등 NoSQL 솔루션의 성숙


클라우드 제공업체의 오픈소스 호환 서비스


개발자 커뮤니티 중심 혁신 가속화


클라우드 전환 가속
기업들이 자체 데이터센터에서 클라우드 환경으로 데이터베이스를 이전하는 추세가 가속화되고 있다.



주요 흐름



DBaaS(Database as a Service) 모델 확산


서버리스 데이터베이스 도입 증가


멀티 클라우드 및 하이브리드 전략 채택


마이그레이션 도구 및 서비스 발전


다양한 데이터 포맷 지원
정형 데이터 외에도 다양한 비정형/반정형 데이터를 처리할 수 있는 능력이 중요해지고 있다.



주요 흐름



JSON, XML, 지리공간 데이터 네이티브 지원


텍스트, 이미지, 오디오 분석 기능 통합


그래프 데이터 및 관계 분석 강화


멀티 모델 데이터베이스 증가



데이터베이스 선택 기준
용도 파악
트랜잭션 처리(OLTP), 분석(OLAP), 혼합(HTAP) 중 어떤 워크로드인지 파악해야 한다.
데이터 특성
정형 데이터인지 비정형 데이터인지, 데이터 크기와 성장률은 어느 정도인지, 관계 복잡성은 어떤지 고려해야 한다.
확장성 요구
예상 사용자 수, 트래픽 패턴, 수직/수평 확장 필요성을 고려해야 한다.
일관성 vs 가용성 요구사항
CAP 이론에 따라 강한 일관성(CP)이 중요한지, 가용성과 파티션 허용(AP)이 중요한지 고려해야 한다.
예를 들어 금융 거래는 강한 일관성이 필요하지만, 소셜 미디어는 일시적 불일치를 허용할 수 있다.
쿼리 패턴 및 성능 요구사항
복잡한 조인이 필요한지, 단순 키-값 검색이 중심인지, 실시간 응답이 필요한지에 따라 적합한 DB가 달라진다.
명확히 정의해야 할 성능 지표:



성능 지표



지연 시간


처리량


동시 사용자 수


기술 생태계 및 개발자 역량
팀의 기존 기술 스택과 호환되는지, 개발자가 얼마나 익숙한지, 커뮤니티 지원과 도구 생태계가 충분한지 고려해야 한다.
좋은 데이터베이스라도 팀이 효과적으로 활용할 수 없다면 가치가 제한된다.

주요 DBMS 비교 표



유형
대표 시스템
강점
약점
주요 사용 사례



관계형
Oracle, MySQL, PostgreSQL
트랜잭션 처리, 데이터 일관성, SQL 표준
수평적 확장성 제한, 스키마 변경 어려움
금융, ERP, CRM 시스템


문서형
MongoDB, Couchbase
유연한 스키마, 개발 생산성, JSON 지원
복잡한 조인, 트랜잭션 처리 제한
콘텐츠 관리, 모바일 앱, 카탈로그


키-값
Redis, DynamoDB
초고속 응답, 단순성, 확장성
복잡한 쿼리 제한, 데이터 관계 표현 어려움
캐싱, 세션 관리, 실시간 분석


컬럼형
Cassandra, HBase
대규모 쓰기/분석, 수평적 확장성
실시간 읽기 성능, 복잡한 구성
IoT 데이터, 로그 분석, 시계열 데이터


그래프
Neo4j, Neptune
관계 탐색, 연결 데이터 분석
대규모 확장성, 학습 곡선
소셜 네트워크, 추천 엔진, 사기 탐지


인메모리
Redis, SAP HANA
초고속 성능, 실시간 처리
비용, 메모리 제한, 지속성 관리
실시간 분석, 캐싱, 게임 리더보드


NewSQL
Google Spanner, CockroachDB
확장성 + SQL + 트랜잭션
성숙도, 복잡성, 비용
글로벌 금융 시스템, 고확장성 앱


각 데이터베이스 유형은 고유한 강점과 약점을 가지고 있으며, 특정 워크로드와 사용 사례에 최적화되어 있다.
많은 현대 애플리케이션은 다양한 유형의 데이터베이스를 함께 사용하는 폴리글랏 퍼시스턴스(Polyglot Persistence) 접근 방식을 채택하고 있다.

미래의 데이터베이스 전망
AI 기반 자율 데이터베이스
인공지능이 자동으로 데이터베이스를 튜닝, 최적화, 관리하는 시스템이 확산되고 있다.
자동화되는 영역:



영역



쿼리 최적화


인덱스 생성


리소스 할당


보안 위협 감지


DBA의 역할도 단순 운영보다 전략적 방향으로 진화하고 있다.
서버리스 데이터베이스의 확산
인프라 관리 없이 필요한 만큼만 사용하고 비용을 지불하는 서버리스 DB가 주류화될 전망이다. 개발자는 데이터베이스 운영보다 비즈니스 로직과 애플리케이션 개발에 집중할 수 있다.
엣지 컴퓨팅과 분산 데이터베이스
IoT 장치와 5G 네트워크 확산으로 데이터 생성 지점에 가까운 엣지 위치에서 데이터를 처리하는 분산 데이터베이스 시스템이 중요해질 것이다.
핵심 과제는 중앙 클라우드와 엣지 노드 간의 효율적인 데이터 동기화이다.
데이터베이스와 AI의 통합
데이터베이스 시스템 내에서 직접 머신러닝 모델을 실행하고 학습하는 기능이 강화될 것이다.
데이터 이동 없이 데이터베이스 내부에서 분석과 예측을 수행하는 AI in DB 개념이 발전할 것이다.
블록체인 기반 분산 데이터베이스
높은 투명성과 변조 방지가 필요한 애플리케이션을 위한 블록체인 기반 데이터베이스 시스템이 발전할 것이다.
중요성이 증가할 산업:



산업



공급망


금융


의료



결론: 데이터베이스의 진화 방향
다종 복합 DB 환경 도래
단일 데이터베이스 시스템으로 모든 요구사항을 충족하는 시대는 지나고 있다. 현대적인 데이터 아키텍처는 다양한 유형의 데이터베이스를 목적에 맞게 조합하는 방향으로 진화하고 있다.



변화



워크로드별 최적화된 데이터 저장소 활용


마이크로서비스와 연계된 분산 데이터 관리


데이터 통합 및 거버넌스의 중요성 증가


데이터 활용 방식의 변화
데이터베이스는 단순한 저장소를 넘어 비즈니스 가치 창출의 핵심 도구로 진화하고 있다.



변화



실시간 인사이트 생성과 의사결정 지원


AI/ML과 결합한 예측 분석 기능 강화


데이터 중심 조직으로의 변화 가속화


데이터 민주화와 셀프 서비스 분석 확산


데이터베이스 기술은 60년이 넘는 역사 동안 계속 진화해왔다. 앞으로도 클라우드, AI, IoT 등의 기술과 융합하며 발전할 것이다.
이러한 변화에 맞춰 데이터 전략을 수립하고 적응하는 조직이 디지털 시대의 경쟁에서 우위를 점할 수 있다.

참고 자료
DBMS 선택 실전 사례
다양한 산업 분야에서 비즈니스 요구사항에 따라 데이터베이스를 선택한 실제 사례를 살펴볼 수 있다.



사례



전자상거래 플랫폼의 멀티 모델 DB 전략


금융 기관의 하이브리드 클라우드 구현


의료 기관의 데이터 보안 및 규정 준수 접근법



NewSQL과 Vector DB
NewSQL
NewSQL은 ACID와 수평 확장을 동시에 목표로 한다.



항목
내용



핵심
ACID + 수평 확장


대표 기술
CockroachDB, Google Spanner, TiDB



Vector DB
Vector DB는 AI/ML 임베딩 검색에 사용된다.



항목
내용



핵심
AI/ML 임베딩 검색


대표 기술
Pinecone, Weaviate, Azure AI Search


주요 활용
RAG 패턴 핵심



ACID 트랜잭션
ACID는 관계형 DB의 핵심 보장이다.



요소
의미



Atomicity
전부 성공 또는 전부 실패


Consistency
전후 무결성 유지


Isolation
동시 트랜잭션 비간섭


Durability
커밋 후 장애에도 보존



CAP 정리
CAP는 분산 시스템에서 중요한 세 가지 특성이다.



요소
의미
설명



C
Consistency
모든 노드 동일 데이터, 강한 일관성


A
Availability
모든 요청에 응답, 다운타임 없음


P
Partition Tolerance
네트워크 분할 시에도 동작, 분산 시스템 필수


세가지를 모두 동시에 만족할 순 없다.(동시에 두개까지만 가능)

CAP 실무 적용 — 서비스별 선택



서비스
CAP 선택
일관성
가용성



SQL Server
CP
강한 일관성
장애 시 다운타임


Cosmos DB (Strong)
CP
강한 일관성
쓰기 지연


Cosmos DB (Session)
AP (실질)
세션 내 일관
항상 응답


Cassandra
AP
최종 일관성
항상 응답


MongoDB (기본)
CP
강한 일관성
Primary 장애 시 선출 대기



BASE 특성
BASE는 NoSQL에서 많이 사용하는 유연한 일관성 모델이다.



요소
의미



Basically Available
항상 응답, 오래된 데이터라도 응답


Soft State
시스템 상태가 시간에 따라 변함


Eventually Consistent
충분한 시간이 지나면 일관성에 도달



ACID vs BASE 비교



구분
ACID (RDBMS)
BASE (NoSQL)



일관성
강한 일관성 (Strong)
최종 일관성 (Eventual)


확장
수직 확장 (Scale-Up)
수평 확장 (Scale-Out)


스키마
고정 (DDL)
유연 (Schema-less)


트랜잭션
복잡한 조인 최적
대량 읽기/쓰기 최적


사용 사례
금융 · ERP · 재고
소셜 · IoT · 실시간 분석



DB 진화 요약
60년의 DB 진화를 한 장으로 요약하면 다음과 같다.



시대
변화
핵심 의미



1960s → 1970s
계층형 → 관계형
데이터 독립성 혁명


2000s
NoSQL
스케일과 유연성 혁명


2010s
NewSQL
ACID + Scale-Out 결합 시도


2020s
Vector DB
AI/ML 시대의 검색 인프라


핵심 메시지는 다음과 같다.

정답은 없다. 워크로드에 맞는 선택이 최선이다.

이 원칙이 이후 전체 과정의 판단 기준이 된다.

Azure 데이터 서비스 지형도
Azure 데이터 서비스 전체 맵
Azure에서 선택할 수 있는 데이터 서비스는 크게 네 영역으로 나눌 수 있다.



분류
서비스
특징



IaaS — VM 기반
SQL Server on VM, PG/MySQL on VM
100% 제어


PaaS — 관계형
SQL Database, SQL MI, Flexible Server
관리형 관계형 DB


PaaS — NoSQL
Cosmos DB
5 API, 글로벌 분산


분석 · 시계열
Synapse, ADX, Fabric
분석 및 시계열 처리



SQL VM vs SQL DB vs SQL MI



구분
SQL VM
SQL DB
SQL MI



관리
OS 직접 관리
완전 관리
거의 완전 관리


호환성
100%
일부 제한
99%


HA
AG 직접 구성
내장 자동
내장 자동


비용
VM + 라이선스
DTU / vCore
vCore


프로비저닝
수 분
수 분
약 4시간


부트캠프
Day 2-3
Day 4-5
이론만 (D-2)



Cosmos DB 개요
Cosmos DB는 글로벌 분산 NoSQL 서비스이다.

글로벌 분산 NoSQL
60개 이상 Azure 리전 지원
10ms 미만 읽기/쓰기
5가지 일관성 수준
5가지 API
상세 실습은 Day 6에서 진행 예정


OSS PaaS + 분석 서비스



서비스
설명



PG Flexible Server
Day 5 마이그레이션 타깃


MySQL Flexible Server
MySQL 관리형 서비스


Synapse Analytics
데이터 웨어하우스


ADX
시계열 분석, Day 7 실습, Free Cluster


Microsoft Fabric
통합 분석 플랫폼



의사결정 트리 — 5개 질문
Azure 데이터 서비스를 선택할 때 다음 질문을 기준으로 판단한다.



질문
선택



SQL Server 100% 필요?
SQL VM


완전 관리형 + SQL 호환?
SQL MI (이론)


관계형 + 비용 최적?
SQL DB Serverless


PG/MySQL 워크로드?
Flexible Server


글로벌 분산 + 다중 모델?
Cosmos DB



워크샵: 시나리오별 서비스 선택



시나리오
선택



온프레미스 SQL 2016 이관
MI가 이상적이지만 프로비저닝 4시간 → SQL DB 검토


글로벌 게임 프로필
Cosmos DB NoSQL API


IoT 센서 실시간
ADX + KQL



환경 셋업 실습
Azure 구독부터 Budget Alert까지 직접 구축한다.

워크샵 가이드: 의사결정 트리 실습
목표는 3개 시나리오에 대해 2~3인 조별 토론 후 서비스 선택 결과를 발표하는 것이다.



순서
내용



1
강사가 시나리오 3개를 화면에 표시


2
2~3인 조 구성


3
조별 5분 토론: 각 시나리오에 적합한 Azure 서비스 선택


4
각 조 1분 발표: 선택한 서비스와 이유


5
강사가 정답과 추가 고려사항 설명


6
의사결정 트리와 비교하며 피드백



실습 1: 구독 · 리소스 그룹 생성
부트캠프 전용 리소스 그룹을 생성한다.
# Cloud Shell: Portal 상단 >_ 아이콘

# 구독 확인
az account show --output table

# 리소스 그룹 생성
az group create \
--name rg-bootcamp-day1 \
--location koreacentral \
--tags "project=bootcamp" "owner=<이름>"

# 확인
az group show --name rg-bootcamp-day1 -o table

실습 2: VNet · NSG
부트캠프 전 과정에서 사용할 VNet과 NSG를 생성한다.
# VNet 생성
az network vnet create \
-g rg-bootcamp-day1 \
--name vnet-bootcamp \
--address-prefix 10.0.0.0/16 \
--subnet-name snet-default \
--subnet-prefix 10.0.1.0/24

# NSG 생성 + SSH 규칙
az network nsg create \
-g rg-bootcamp-day1 -n nsg-bootcamp

az network nsg rule create \
-g rg-bootcamp-day1 --nsg-name nsg-bootcamp \
-n AllowSSH --priority 1000 \
--destination-port-ranges 22 \
--access Allow --protocol Tcp --direction Inbound

VNet과 NSG 기본 개념
VNet (가상 네트워크)
VNet은 Azure 내 프라이빗 네트워크이다.



항목
내용



주소 공간
10.0.0.0/16


서브넷
10.0.1.0/24


역할
VM, DB, 서비스가 통신하는 기반


확장
온프레미스 VPN 연결 가능


부트캠프 사용
vnet-bootcamp (Day 1~9)



NSG (네트워크 보안 그룹)
NSG는 방화벽 규칙 집합이다.



항목
내용



역할
인바운드 / 아웃바운드 제어


기본 정책
모든 인바운드 차단


AllowSSH (22)
Day 2 VM용


AllowRDP (3389)
Day 3 SQL VM


원칙
최소 필요 포트만 개방



실습 3: Cloud Shell 환경
목표는 CLI 환경을 확인하고 기본 명령을 연습하는 것이다.



순서
내용



1
Portal → Cloud Shell (>_) → Bash


2
az version으로 CLI 버전 확인


3
az account show로 구독 확인


4
az group list로 리소스 그룹 목록 확인


5
az resource list로 리소스 확인


6
로컬 CLI 설치는 선택사항



실습 4: Budget Alert 설정
목표는 비용 한도 초과를 사전에 감지하는 것이다.



순서
내용



1
Portal → Cost Management → Budgets


2
+ Add → bootcamp-budget


3
Amount: ₩30,000 ~ ₩50,000


4
Alert: 80%, 100% 이메일


5
Action Group: 본인 이메일


6
Create



리소스 정리 스크립트
Day 1은 VM이 없으므로 모든 리소스를 유지한다.
유지 리소스는 다음과 같다.



유지 리소스



rg-bootcamp-day1


vnet-bootcamp


nsg-bootcamp


bootcamp-budget


확인 명령:
# Day 1은 VM 없음 — 모두 유지

# 유지 리소스:
# rg-bootcamp-day1
# vnet-bootcamp
# nsg-bootcamp
# bootcamp-budget

# 확인만:
az resource list -g rg-bootcamp-day1 -o table

# Cost Analysis에서 비용 확인: $0.5 이하

Day 1 리소스 정리 + 체크리스트
# Day 1 체크리스트
az resource list -g rg-bootcamp-day1 -o table
정리 체크리스트는 다음과 같다.



체크리스트



VNet / NSG / Budget 유지 확인


Cost Analysis: $0.5 이하


불필요 리소스 없음


Day 1 예상 비용: $0.5
한도: $10/일

비용 관리 — 9일 전체 전략
이 습관이 9일간의 비용을 결정한다.



항목
내용



일일 1인당 한도
$10


대부분 사용 비용
$0.5 ~ $1.0


9일 총 예상
$10.8


한도 대비
6~8배 버퍼


Budget Alert
80%, 100% 도달 시 이메일


Cost Analysis
매일 실습 종료 시 직접 확인


가장 중요한 절약 수단
VM deallocate


주의
Stop ≠ Deallocate, Stop은 계속 과금됨



Q&A



질문
답변



SQL MI를 왜 실습 안 하나?
프로비저닝 4시간이 걸리므로 이론 + 매트릭스로 대체


Vector DB는 Azure에서?
AI Search 벡터 검색, Cosmos MongoDB vCore


Budget Alert 안 와요
최대 24시간 지연 가능, Cost Analysis 직접 확인


Free Trial로 9일 가능?
$200 크레딧, 예상 $10.8로 충분



정리



모듈
내용



DB 역사와 이론
계층형 → RDBMS → NoSQL → NewSQL


DB 이론
ACID vs BASE, CAP


Azure 서비스 지형도
SQL VM / DB / MI, Cosmos DB


의사결정
의사결정 트리 워크샵


환경 셋업 실습
구독 · RG · VNet · NSG


비용 관리
Budget Alert 설정


다음 과정
OSS DB on VM: PostgreSQL · MySQL · MongoDB



핵심 요약
이번 과정은 단순히 Azure 리소스를 만드는 실습이 아니라,
데이터베이스가 왜 지금과 같은 형태로 발전했는지 이해하고,
워크로드에 따라 적절한 Azure 데이터 서비스를 선택하기 위한 기준을 세우는 과정이다.
핵심은 다음과 같다.

RDBMS는 데이터 독립성과 ACID를 기반으로 발전했다.
NoSQL은 웹 스케일과 수평 확장 문제를 해결하기 위해 등장했다.
NewSQL은 ACID와 Scale-Out을 동시에 추구한다.
Vector DB는 AI/ML 시대의 검색 인프라로 중요해졌다.
Azure에서는 SQL VM, SQL DB, SQL MI, Cosmos DB, Flexible Server, ADX, Fabric 등 다양한 선택지가 있다.
정답은 하나가 아니라, 워크로드에 맞는 선택이 최선이다.
실습 환경은 RG, VNet, NSG, Budget Alert를 기준으로 구성한다.
비용 관리는 매일 Cost Analysis 확인과 VM deallocate가 핵심이다.




[MicrosoftDataSchool] 78일차 - Azure SQL Database 데이터 복구 실습
Tue, 28 Apr 2026 00:54:20 GMT

Azure의 대표 컨셉은 Microsoft Entra ID이다(AAD)

Azure SQL Database 실습



항목
Azure SQL Database
Managed Instance



단위
DB
인스턴스


파일 시스템
없음
있음


SQL Server 엔진
추상화됨
거의 그대로


OS 접근
불가
일부 가능


복원 방식
.bacpac
.bak


물리 구조 접근
불가
가능


보안 구조
다중 테넌트
격리된 환경


Lab 1 – Lab 환경 구축

Bastion은 가상 네트워크 생성시 선택 가능

Portal에서 Azure SQL 찾기
Azure Portal 상단 검색창에서 Azure SQL을 검색하면
Azure SQL과 관련된 서비스 목록이 표시된다. 
이 화면에서는 다음과 같은 리소스를 확인할 수 있다.

Azure SQL Database
Azure SQL Managed Instance
SQL Server on Azure VM


Azure SQL 선택을 위한 질문
Azure SQL 선택 화면에서는 사용자의 요구사항을 기반으로
적절한 서비스를 추천하기 위해 질문을 제공한다. 
이 질문들은 다음과 같은 기준을 포함한다.

어떤 유형의 워크로드인가
기존 시스템을 마이그레이션하는가
새로운 애플리케이션인가


Azure SQL 선택 의사 결정 트리


Azure로 Database 마이그레이션
Azure에서는 데이터베이스 마이그레이션을 쉽게 하기 위한 도구를 제공한다. 
마이그레이션 시작 화면에서 다음 옵션을 확인할 수 있다.

Azure Database Migration Service
Azure Arc enabled SQL Server
Azure Migrate


데이터베이스를 Azure로 이전하기 위한 방법
Azure에서 제공하는 마이그레이션 방법은 다음과 같다.

다양한 DB → Azure 이전
→ Azure Database Migration Service

SQL Server → Azure 이전
→ Azure Arc enabled SQL Server

앱 + DB 전체 이전
→ Azure Migrate 



Azure SQL Database 만들기
https://learn.microsoft.com/ko-kr/azure/private-link/tutorial-private-endpoint-sql-portal



항목
Azure SQL Database
Managed Instance



단위
DB
인스턴스


파일 시스템
없음
있음


SQL Server 엔진
추상화됨
거의 그대로


OS 접근
불가
일부 가능


복원 방식
.bacpac
.bak


물리 구조 접근
불가
가능


보안 구조
다중 테넌트
격리된 환경


워크로드 환경 및 백업 스토리지 설정
다음과 같이 설정한다. 

SQL Elastic Pool: 사용 안 함
워크로드 환경: 개발
백업 스토리지: 로컬 중복


컴퓨팅 요소 설정
컴퓨팅 계층 및 하드웨어를 설정한다. 

서비스 계층: 범용
컴퓨팅 계층: 프로비전됨
하드웨어: Gen5

👉 이후 Serverless와 비교 목적

네트워크 설정
데이터베이스 접근을 위한 네트워크 설정을 수행한다. 

연결 방법: 퍼블릭 엔드포인트
방화벽: 현재 IP 추가
연결 정책: 기본값
TLS: 1.2


보안 설정
기본 제공 옵션을 그대로 유지한다. 

추가 설정
기존 데이터 사용에서
👉 샘플 선택 (AdventureWorks) 

생성
“만들기”를 선택하면 배포가 진행된다. 

소요 시간: 약 1~2분


DB 확인 및 쿼리 실행

DB 확인
쿼리 편집기를 통해 생성된 DB를 확인한다. 

SQL Server 인증 방식 사용


쿼리 실행
SELECT TOP 20 pc.Name as CategoryName, p.name as ProductName
FROM SalesLT.ProductCategory pc
JOIN SalesLT.Product p
ON pc.productcategoryid = p.productcategoryid;
쿼리 실행 결과를 통해 데이터 확인 가능 

SSMS 설치
SSMS 설치 가이드를 통해 설치 진행 
연결시 Microsoft Entra 인증으로 생성했다면 Microsoft Entra 암호 입력 후 
인증서 신뢰를 체크하면 연결됨

데이터베이스 복구

삭제 유형별 비교



선택
결과
복구 가능성



데이터베이스만 삭제
서버 유지, DB 삭제
일정 기간 복구 가능


서버 삭제
서버 + DB 삭제
서버 복구 불가, DB만 일부 복구


둘 다 삭제
전부 삭제
DB만 복구 가능



방화벽 확인
Azure SQL Database에서
현재 IP 확인 후 방화벽 등록 

Virtual Network 생성

Bastion

virtual machine

bastion을 통해야하므로 공용 인바운드 포트 X
sql db 프라이빗 엔드포인트



연결
vm-bastion으로 연결-ssh 로컬 파일로 접속(azureuser)



SQL Server 도구 설치
https://learn.microsoft.com/ko-kr/sql/linux/sql-server-linux-setup-tools?view=sql-server-ver17&tabs=redhat-install%2Codbc-ubuntu-1804
sudo su
curl -sSL -O https://packages.microsoft.com/config/ubuntu/24.04/packages-microsoft-prod.deb
sudo dpkg -i packages-microsoft-prod.deb
exit

sudo apt-get update
sudo apt-get install mssql-tools18 unixodbc-dev

sudo apt-get update
sudo apt-get install mssql-tools18

echo 'export PATH="$PATH:/opt/mssql-tools18/bin"' >> ~/.bash_profile
source ~/.bash_profile

echo 'export PATH="$PATH:/opt/mssql-tools18/bin"' >> ~/.bashrc
source ~/.bashrc

Managed Instance 생성




설정

Public endpoint 사용
포트 3342 오픈
NSG에서 IP 허용 


SSMS 연결

Endpoint 복사
Server name 입력
Connect



Lab 2 – 데이터 복원 및 관리

데이터 적재
AdventureWorks2022.bak 다운로드 후
Blob Storage에 업로드 

Blob Storage 구성

Storage Account 생성
Container 생성
파일 업로드


SAS 생성
SAS는 다음 역할 수행 

제한된 시간 동안 접근 허용
권한 제어 가능
URL 기반 인증


Managed Instance에서 복원

SSMS → Restore Database
Blob URL + SAS 사용











SQL Database vs Managed Instance

구조 차이



항목
SQL Database
Managed Instance



구조
논리 DB
인스턴스


파일 시스템
없음
있음


복원 방식
.bacpac
.bak


MI는 Lift & Shift에 적합

.bacpac vs .bak 비교
.bak은 완벽한 시점 복원용 백업/복구 파일이고, .bacpac은 클라우드 이전 및 버전 업/다운그레이드용 마이그레이션 파일이다. 



구분
.bak
.bacpac



성격
물리적 백업
논리적 아카이브


목적
특정 시점의 DB를 그대로 복원
DB 구조와 데이터를 다른 환경으로 이전


포함 내용
데이터 파일 구조, 트랜잭션 로그 상태 등
테이블 구조(스키마) + 데이터


일관성
트랜잭션 로그 포함으로 특정 시점 일관성 보장
데이터와 구조를 추출해서 이동


속도
빠름
상대적으로 느릴 수 있음


용량
큼
작음


대용량 DB
적합
대용량에는 비효율적일 수 있음


버전 호환성
낮음. 상위 버전에서 만든 .bak은 하위 버전 복원 불가
높음. 하위 버전으로도 이동 가능


Azure SQL Database
직접 가져오기 불가
가져오기 가능


Azure SQL Managed Instance
복원 가능
가져오기 가능하지만 .bak이 더 적합



.bak의 장점
1. 완벽한 데이터 일관성
.bak 파일은 특정 시점의 데이터베이스를 그대로 저장한 Point-in-time 스냅샷이다.
백업 도중 데이터가 변경되더라도 트랜잭션 로그를 함께 포함하기 때문에 데이터 무결성이 보장된다. 
즉, 운영 중인 DB를 백업하더라도
“백업 시점 기준으로 데이터가 깨지지 않은 상태”를 유지할 수 있다.

2. 압도적인 속도와 성능
.bak은 데이터베이스의 물리적 페이지 단위 블록을 통째로 백업한다.
그래서 대용량 데이터베이스에서는 .bacpac보다 백업/복원 속도가 훨씬 유리하다. 
특히 수백 GB~TB 단위 DB에서는 .bak 방식이 사실상 필수에 가깝다.

3. 시스템 부하가 비교적 작음
.bak 백업은 SQL Server 엔진의 기본 백업 기능을 사용한다.
그래서 운영 중인 서버에서 백업을 수행해도 비교적 안정적으로 동작하고, 시스템 부하도 상대적으로 적다. 

.bacpac의 장점
1. 버전 호환성과 이식성
.bacpac은 데이터베이스의 물리 구조를 그대로 복사하는 것이 아니라,
테이블 구조와 데이터를 논리적으로 추출한 파일이다.
그래서 SQL Server 버전에 덜 종속된다.
예를 들어 SQL Server 2022에서 만든 .bak은 SQL Server 2019로 복원할 수 없지만, .bacpac은 구조와 데이터를 추출한 형태이기 때문에 하위 버전으로 이동할 수 있다. 

2. Azure SQL Database 이전에 적합
Azure SQL Database는 사용자에게 파일 시스템 접근 권한을 제공하지 않는다.
그래서 SQL Server의 물리 백업 파일인 .bak을 직접 복원할 수 없다.
반면 .bacpac은 스키마와 데이터만 담은 논리적 아카이브이기 때문에 Azure SQL Database로 가져올 수 있다. 
즉,

Azure SQL Managed Instance → .bak 복원 가능
Azure SQL Database → .bacpac 가져오기 사용


3. 파일 크기가 작음
.bacpac은 트랜잭션 로그나 여유 디스크 공간을 포함하지 않는다.
순수하게 구조와 데이터만 추출해서 압축하기 때문에 .bak보다 파일 크기가 훨씬 작아질 수 있다.
자료 예시에서는 4.3GB .bak 파일이 197MB .bacpac 파일로 줄어들 수 있음을 설명한다. 

정리



상황
적합한 파일



SQL Server 전체를 특정 시점으로 복구
.bak


대용량 DB 백업/복원
.bak


Managed Instance로 복원
.bak


Azure SQL Database로 이전
.bacpac


버전 차이가 있는 환경으로 이동
.bacpac


파일 크기를 줄여 이관
.bacpac


한 줄로 정리하면,
.bak은 “복구용”, .bacpac은 “이전용”에 가깝다.

Database Watcher


클라우드 비교



서비스 분야
AWS (Amazon Web Services)
Azure (Microsoft Azure)
GCP (Google Cloud Platform)



컴퓨팅 (가상 서버)
EC2 (Elastic Compute Cloud)
가장 다양한 인스턴스 타입 제공
Azure Compute
Windows 서버와의 호환성 우수
Compute Engine
빠른 부팅 속도와 자동 할인 기능


컨테이너 (컨테이너 관리)
ECS / EKS
Kubernetes 및 자체 서비스 지원
Azure Kubernetes Service (AKS)
Kubernetes 관리 및 통합 강점
Google Kubernetes Engine (GKE)
Kubernetes 원조, 안정적 관리


스토리지 (객체 스토리지)
S3
클라우드 스토리지 사실상 표준
Blob Storage
온프레미스 연동 용이
Cloud Storage
다양한 클래스, 비용 효율


데이터베이스 (관계형 DB)
RDS
MySQL, PostgreSQL 등 다양한 엔진 지원
Azure SQL Database
SQL Server와 완벽 호환
Cloud SQL
간편한 관리와 성능


서버리스 (코드 실행)
Lambda
다양한 언어 및 서비스 연동
Azure Functions
.NET 환경과 자연스러운 통합
Cloud Functions
사용량 기반 단순 과금


빅데이터 (분석, DW)
Redshift / EMR
DW + 빅데이터 플랫폼
Synapse Analytics
데이터 통합 및 분석 강점
BigQuery
압도적 속도와 확장성


AI/ML (머신러닝 플랫폼)
SageMaker
모델 개발~배포 End-to-End
Azure Machine Learning
MS AI 기술과 통합
Vertex AI
TensorFlow 기반 최신 AI 기술





[MicrosoftDataSchool] 77일차 - Azure SQL Database 이론
Mon, 27 Apr 2026 02:13:45 GMT
Azure SQL Database 정리
Azure SQL 개요
Azure SQL은 Azure 클라우드에서 SQL Server 데이터베이스 엔진을 사용하는 관리형, 보안 및 인텔리전트 제품군이다. SQL Server 엔진 기반이기 때문에 기존 애플리케이션을 비교적 쉽게 마이그레이션할 수 있고, 익숙한 도구와 언어, 리소스를 계속 사용할 수 있다.
Azure SQL 제품군은 크게 세 가지로 나뉜다.



제품
설명
적합한 상황



Azure SQL Database
서버리스 컴퓨팅을 포함하는 인텔리전트 관리형 데이터베이스 서비스
클라우드에서 새로운 앱을 구축하는 경우


Azure SQL Managed Instance
SQL Server 데이터베이스 엔진과 거의 100% 동일한 기능을 제공하는 완전 관리형 인스턴스
기존 SQL Server 애플리케이션을 대규모로 현대화하거나 마이그레이션하는 경우


Azure VM 위의 SQL Server
SQL Server 워크로드를 Azure VM으로 리프트 앤 시프트하며 SQL Server 호환성과 OS 수준 액세스를 유지
OS 수준 제어와 완전한 호환성이 필요한 경우


리프트 앤 시프트는 주로 IaaS 환경에서 많이 한다.

Azure SQL 포트폴리오 비교
Azure SQL은 SQL Server 엔진을 기반으로 구축된 통합 SQL 포트폴리오이다. 서비스 선택은 관리 책임, 호환성, 제어 수준에 따라 달라진다.



구분
Azure Virtual Machines 위의 SQL Server
Azure SQL Managed Instance
Azure SQL Database



서비스 유형
IaaS
PaaS
PaaS


가장 적합한 앱
리호스팅 및 OS 수준 액세스/제어가 필요한 앱
기존 앱 현대화
클라우드 신규 앱 구축


주요 특징
자동화된 관리 기능 및 OS 수준 액세스
SQL Server와의 높은 호환성, 기본 VNet 지원
사전 프로비저닝 또는 서버리스 컴퓨팅, 하이퍼스케일 스토리지


제어 수준
가장 높음
중간
가장 낮음


관리 부담
가장 큼
중간
가장 작음


리호스팅은 IT 시스템 마이그레이션에서 대표적으로 사용되는 방식으로, 기존 시스템을 큰 변경 없이 다른 환경으로 이전하는 방법이다.(센터 이전도 가능)
신기능은 Azure Virtual Machines 외의 2종류 정도에만 잘 들어간다.

Versionless Database 엔진과 호환성
Azure VM 위의 SQL은 선택한 특정 SQL Server 버전에 묶여 있다. 반면 Azure SQL Database와 Azure SQL Managed Instance는 PaaS 특성상 특정 버전에 종속되지 않는다. 특히 Always-up-to-date 업데이트 정책을 사용하면 최신 클라우드 기능을 빠르게 반영할 수 있다.



구분
SQL Server 2025 업데이트 정책
Always-up-to-date 업데이트 정책



특징
SQL Server 2025 버전과의 호환성 유지
최신 클라우드 기능 즉시 반영


장점
온프레미스 SQL 2025로 복원 및 링크 가능
최신 엔진 성능 및 보안 업데이트 자동 적용


제한
최신 클라우드 전용 엔진 기능 사용 불가
이전 버전 정책으로 복구 불가, 하향 불가


핵심은 SQL Server, Azure SQL Database, Managed Instance가 하나의 공통 코드베이스를 기반으로 최신 엔진 기능을 제공한다는 점이다. SQL Server 버전은 몇 년 단위로 출시되지만, PaaS 서비스는 지속적으로 엔진이 업데이트된다. 이 구조 덕분에 OS 및 SQL Server 패치 부담이 줄어든다.

Azure SQL 서비스 비교
Azure SQL 서비스는 Bare Metal부터 PaaS까지 다양한 형태로 SQL Server를 사용할 수 있게 한다.
(Bare Metal은 가상화 없이 사용하는 것)
Private Cloud는 자체적으로 구축한 클라우드 환경



구분
Azure SQL Database
Azure SQL Managed Instance
Azure VM의 SQL Server



지원 기능
대부분의 SQL DB 기능 지원, 일부 제약
거의 모든 온프레미스 인스턴스 수준
모든 온프레미스 기능 지원


가용성/확장성
99.995% SLA, 단일/풀링 지원
99.99% SLA, 단일/풀링 가능
99.99% SLA, VM 크기/구성에 따름


유지 관리/패치
자동 패치·백업
자동 패치·백업
직접 관리 필요, 일부 자동 기능 지원


네트워크 접근
Azure Private Link 등 지원
ExpressRoute, VPN Gateway 등 지원
Azure Virtual Network 내에 배치


최대 저장 공간
128TB
16TB
256TB 이상, 스토리지 추가 가능


마이그레이션 용이성
일부 SQL Server 기능 제한적 호환
더 높은 호환성, 마이그레이션 쉬움
온프레미스와 동일, 완벽 호환


운영 책임
대부분 Azure에서 관리
일부 Azure와 공동 책임 모델
사용자 직접 관리


온프레미스 연계
기본 제공, 제한적
네트워크/도메인 연계 지원
도메인/애플리케이션 등 완벽 연동


사용 사례
SaaS 앱, 단일/풀링 DB
리프트 앤 시프트, 복잡한 SQL 앱
레거시 이전, 사용자화 앱, 고도의 통제 필요



Azure SQL 결정 트리
Azure SQL 결정 트리는 신규 앱인지, 기존 DB 마이그레이션인지, OS 접근이 필요한지, SQL Server 호환성이 어느 정도 필요한지에 따라 서비스를 선택하도록 돕는다.

신규 클라우드 앱이면 Azure SQL Database가 우선 고려된다.
기존 SQL Server 앱을 마이그레이션하고 호환성이 중요하면 Managed Instance가 적합하다.
OS 수준 접근, 특정 SQL Server 기능, 완전한 제어가 필요하면 SQL Server on Azure VM이 적합하다.
대규모 확장, 서버리스, 하이퍼스케일 요구가 있으면 Azure SQL Database의 Hyperscale 또는 Serverless 옵션을 고려한다.


Azure SQL DB 내부 구조: Control Ring vs Data Ring
Azure SQL은 단일 서버가 아니라 Control Ring과 Data Ring으로 나뉜 분산 시스템이다. Control Ring은 라우팅을 담당하고, Data Ring은 실제 연산을 수행한다. 백엔드 노드에 장애가 발생해도 Control Ring이 정상 노드로 트래픽을 우회하여 연결 단절을 최소화한다.




구성 요소
역할



클라이언트 App
포트 1433으로 쿼리 요청


Control Ring / Gateway Layer
TDS 프로토콜의 앞문 역할, 인증 처리, 방화벽 검사, DB 위치 메타데이터 확인


Data Ring / Database Compute Layer
SQL Server 프로세스가 동작하는 컨테이너/VM 풀, 쿼리 파싱·컴파일·실행


Storage Layer
Azure Blob Storage 기반 데이터 및 로그 파일 저장



연결 토폴로지: Proxy vs Redirect
Azure SQL은 성능과 네트워크 보안 요구에 따라 Proxy와 Redirect 방식의 연결 토폴로지를 제공한다.



구분
Proxy 모드
Redirect 모드



작동 방식
모든 통신이 Gateway를 경유하여 Data Node로 전달
최초 연결 시 Gateway에 노드 위치를 질의한 뒤, 이후 Data Node에 직접 연결


포트 요구사항
아웃바운드 TCP 1433만 개방
TCP 1433 + 11000~11999 범위 개방 필요


장점
보안 설정이 단순함
지연 시간 최소화, 처리량 극대화


사용 환경
인터넷을 통한 외부 연결 시 기본값
Azure 내부망, VNet, VM 연결 시 기본값 또는 성능 권장 방식



Azure SQL 주요 기능
Azure SQL은 안전하고 안정적인 운영을 위해 다양한 기능을 제공한다.



기능
설명



Business continuity
비즈니스 연속성 보장


High Availability
고가용성 구성


Automated Backups
자동 백업


Geo-replication
지리적 복제


Scalability
확장성


Automated patching
자동 패치


Security
보안


Automatic tuning
자동 튜닝


Built-in monitoring and intelligence
내장 모니터링 및 지능형 분석


Migrating to Azure
Azure 마이그레이션 지원



구매 모델 및 스케일링 전략
Azure SQL 배포 옵션
Azure SQL은 다양한 워크로드 요구 사항에 맞게 여러 배포 옵션을 제공한다.



배포 옵션
설명
대표 형태



SQL virtual machines
OS 수준 접근이 필요한 마이그레이션 및 애플리케이션에 적합
SQL virtual machine


Managed instances
리프트 앤 시프트 마이그레이션에 적합
Single instance, Instance pool


Databases
최신 클라우드 애플리케이션에 적합
Single database, Elastic pool


SQL virtual machines는 SQL Server와 OS를 직접 접근하고 관리할 수 있다. Managed Instance는 SQL Server surface area 대부분을 지원하면서도 완전 관리형 서비스이다. Database는 Hyperscale, Serverless, Elastic Pool 등을 통해 최신 앱에 적합한 운영 방식을 제공한다.
Elastic이라는 단어가 들어갔다면 확장성에 집중한 모델임을 알 수 있다.

DTU vs vCore 모델
Azure SQL Database는 DTU 기반 구매 모델과 vCore 기반 구매 모델을 제공한다. vCore 기반 모델이 권장된다.



구매 모델
설명
적합한 대상



DTU 기반
컴퓨팅, 스토리지, IO 리소스를 번들로 묶은 측정값 기반. 단일 DB는 DTU, 탄력적 풀은 eDTU로 표시
간단하고 미리 구성된 리소스 옵션을 원하는 고객


vCore 기반
컴퓨팅과 스토리지 리소스를 독립적으로 선택 가능. Azure 하이브리드 혜택으로 비용 절감 가능
유연성, 제어, 투명성을 중요시하는 고객


DTU는 단순하고 미리 구성된 리소스 옵션을 제공하는 반면, vCore는 CPU와 스토리지 등 리소스를 더 투명하게 선택할 수 있다.

Provisioned vs Serverless 설계 및 Auto-pause
워크로드 패턴에 따라 고정 리소스 방식과 자동 스케일링 방식을 선택할 수 있다.



구분
Provisioned
Serverless



동작 방식
24시간 내내 지정된 vCore와 메모리 항상 할당
최소~최대 vCore 범위 안에서 수요에 따라 자동 스케일링


과금
시간당 고정 과금
초 단위 과금


장점
성능이 일정하고 쿼리 응답 지연이 없음
사용하지 않을 때 비용 절감 가능


Auto-pause
없음
지정 시간 동안 쿼리가 없으면 DB 일시 중지, 스토리지 비용만 청구


Auto-resume
없음
새 연결 발생 시 자동 재개, 첫 연결 시 1~2초 지연 가능


적용 대상
트래픽이 꾸준하거나 리소스 사용량을 예측 가능한 Production 워크로드
간헐적·예측 불가능한 워크로드, 야간 트래픽 없는 시스템, Dev/Test 환경



Scalability
Azure SQL 서비스 유형별 확장 방식과 특징은 다르다.



서비스 유형
확장 방식
주요 특징 및 옵션
유의할 점



Azure SQL Database (PaaS)
포털에서 CPU/메모리/스토리지 슬라이더로 즉시 상향/하향 조정, Elastic Pool/서버리스 등 리소스 풀링·자동 확장
다운타임 없이 수분 내 리소스 증감, Elastic Pool로 여러 DB 간 자원 공유, 서버리스 부하 기반 자동 확장/축소, Premium·Hyperscale·DTU/vCore 옵션
자동 확장/축소는 서버리스 전용, Elastic/Hyperscale은 별도 과금 및 일부 제한


Azure SQL Managed Instance
인스턴스 단위 CPU/메모리/스토리지 증감, Instance Pool로 여러 인스턴스 자원 풀링
Portal/CLI에서 인스턴스 리사이즈, Instance Pool 활용 가능
자동화 옵션 없음, 수동 확장, 증설 시 엔진 재구동 등 단기 중단 가능


SQL Server on Azure VM (IaaS)
VM 크기 변경, 디스크 추가/변경, AG 등으로 Scale-Out
Azure VM 관리화면에서 VM 스펙 교체, 스토리지 추가, AG로 수평 분산 가능
VM 리사이즈나 스토리지 증설 시 OS/DB 재시작 필요, 직접 관리 필요



Elastic Database 풀
Elastic Database Pool은 여러 데이터베이스 또는 인스턴스 간에 리소스를 공유하고 비용을 최적화하는 기능이다.



구분
SQL Database Elastic Pool
SQL Managed Instance Pool



개념
하나의 프로비저닝된 SQL Database 리소스 세트 내에서 여러 DB 호스트
여러 Managed Instance를 호스트하고 리소스를 공유


장점
여러 DB 성능을 하나의 간소화된 방식으로 관리·모니터링
컴퓨팅 리소스를 사전 프로비저닝하여 배포 시간 단축, 더 작은 MI 구성 가능


적합 사례
SaaS 애플리케이션 또는 공급자
대규모 Managed Instance 마이그레이션 및 통합


상태
일반적으로 사용
공개 미리 보기 상태로 언급됨


Paychex 사례에서는 여러 고객의 시간 및 결제 관리를 개별 DB로 운영하면서도 비용 절감을 위해 SQL Database Elastic Pool을 선택했다.

하이퍼스케일 모델: 지역 중복 가용성
하이퍼스케일 모델은 기존 로컬/공유 스토리지 모델과 달리 컴퓨트와 스토리지 계층을 완전히 분리한다. 이로 인해 대용량 데이터, 빠른 확장성, 효율적 장애 복구를 제공한다.



구성 요소
설명



컴퓨팅 노드
읽기/쓰기 노드와 읽기 전용 노드 등으로 구성 가능


페이지 서버
데이터 페이지를 관리하는 분산 스토리지 계층


로그 서비스
로그 처리를 담당하는 고가용성 구성 요소


영구 스토리지
Azure Storage 기반, 네이티브 고가용성 및 중복 기능 제공


Azure Service Fabric
구성 요소 상태를 제어하고 장애 시 정상 노드로 장애 조치 수행


하이퍼스케일 모델의 특징은 다음과 같다.

컴퓨트와 스토리지가 완전히 분리된다.
여러 컴퓨트와 여러 스토리지 구성 요소가 독립적으로 확장된다.
노드 장애 시 다른 컴퓨트 노드에서 서비스를 재개할 수 있다.
수십 TB급 대용량 데이터베이스에 적합하다.
새 복제본 또는 스냅샷을 빠르게 생성할 수 있다.


하이퍼스케일 모델: 영역간 중복 가용성
영역 중복성을 선택하면 하이퍼스케일 계층 전체에 대해 가용성 영역 간 복제가 적용되어 영역 수준 복원력이 보장된다.

애플리케이션 로직 변경 없이 엔터프라이즈급 내결함성 구성 가능
한 가용성 영역 장애 시 실시간 자동 failover 지원
데이터 손실 없는 고가용성 보장
서비스 중단 없이 패치 및 업그레이드 가능
대용량 확장성과 빠른 복구 제공


네트워크 보안
방화벽 규칙: 서버 수준 vs DB 수준
Azure SQL 방화벽은 서버 수준과 데이터베이스 수준 두 겹으로 동작한다. 최소 권한 원칙에 따라 특정 DB에만 접근을 허용하는 데이터베이스 수준 방화벽 규칙이 권장된다.



구분
서버 수준 방화벽
데이터베이스 수준 방화벽



적용 범위
논리적 SQL 서버에 속한 모든 DB 접근 허용
규칙이 생성된 특정 단일 DB에만 접근 허용


설정 방법
Azure Portal, PowerShell, Azure CLI, REST API
포털 설정 불가, T-SQL sp_set_database_firewall_rule 사용


보안성
범위가 넓어 상대적으로 낮음
특정 DB만 허용하므로 높음


주의사항
“Azure 서비스 및 리소스에서 이 서버에 액세스하도록 허용” 옵션은 전 세계 Azure 서비스 IP를 허용하므로 위험
규칙 관리가 T-SQL 기반


규칙 평가 순서는 데이터베이스 수준 규칙이 먼저이며, 매칭되면 해당 DB만 접속된다. 데이터베이스 수준 규칙이 없으면 서버 수준 규칙을 확인하고, 둘 다 없으면 접속이 차단된다.

VNet Service Endpoint vs Private Link
PaaS 데이터베이스를 퍼블릭 인터넷에서 격리하고 회사 내부망과 연동하는 방식은 서비스에 따라 다르다.
온프레미스라면 VNet Injection이 적합(다만 전용인 VNet Injection이 더 비쌈)
각각 공용, 전용
| 구분 | Azure SQL Database: Private Link | SQL Managed Instance: VNet Injection |
|---|---|---|
| 방식 | 프라이빗 엔드포인트 사용 | 가상 네트워크 주입 방식 |
| 구조 | 기존 VNet 변경 불필요, 개별 DB 단위 사설 IP 매핑 | MI 전용 서브넷 필수 |
| 인프라 | 외부 PaaS 인프라 유지 | 내 VNet 안에 서버를 통째로 넣는 구조 |
| 장점 | 개별 DB 단위로 안전하게 사설 접근 가능 | 완벽한 양방향 통신, 온프레미스 VPN 연동, 물리적 격리에 가까운 수준 |

데이터베이스 보안 및 관리
데이터 암호화 및 접근 제어
Azure SQL은 TDE, Always Encrypted, RLS, DDM 등 다계층 데이터 보호를 제공한다.



구분
기능
설명



물리적 암호화
TDE
디스크에 저장되는 데이터와 백업 파일을 실시간 암호화. 기본값 ON. 디스크 탈취 시에도 데이터 보호


물리적 암호화
Always Encrypted
클라이언트 애플리케이션에서 데이터를 암호화한 뒤 DB 엔진으로 전송. DB 메모리에서도 암호화 상태 유지


논리적 필터링
RLS
로그인 사용자 권한에 따라 보이는 행을 필터링. 예: 서울 지점 직원은 서울 지점 매출만 조회


논리적 필터링
DDM
주민등록번호, 신용카드 번호 등 민감한 열을 마스킹해 반환. 실제 데이터는 변경되지 않음



Microsoft Entra ID 및 비밀번호 없는 연결
Azure SQL은 SQL Server 인증 대신 Microsoft Entra ID 기반 토큰 인증을 지원한다. 이를 통해 소스코드에서 비밀번호를 제거할 수 있다.



항목
내용



중앙 집중식 통제
퇴사자 발생 시 Entra ID에서 계정만 비활성화하면 DB 접근 차단


MFA 지원
로그인 시 스마트폰 앱 승인 등 추가 인증 강제 가능


온프레미스 AD 연동
기존 사내 Active Directory와 동기화하여 SSO 가능


Managed Identity
Azure 리소스에 고유 ID를 부여하고, Connection String에 Authentication=Active Directory Managed Identity를 사용


Entra-only authentication
SQL sa 계정 로그인을 원천 차단하고 토큰 기반 접근만 허용



Azure SQL Ledger
Azure SQL Ledger는 블록체인의 SHA-256 해시 기술을 관계형 데이터베이스 엔진에 탑재하여 데이터 위변조를 탐지할 수 있도록 하는 기능이다.



구분
설명



작동 원리
INSERT/UPDATE/DELETE 발생 시 트랜잭션 내용을 SHA-256 해시로 암호화하여 블록 생성


해시 체인
이전 트랜잭션 해시를 다음 트랜잭션이 참조하여 중간 데이터 조작 시 전체 해시값이 깨짐


Updatable Ledger
일반 테이블처럼 UPDATE/DELETE 가능. 변경 이력은 History Table에 영구 보존


Append-Only Ledger
INSERT만 가능. UPDATE/DELETE는 엔진 레벨에서 거부


사용 사례
SIEM, 보안 감사 로그, 금융 거래, 결제 내역, 외부 감사용 데이터 무결성 증명



성능 모니터링 및 최적화
Built-in monitoring and intelligence
Azure SQL은 여러 도구를 통해 모니터링과 성능 분석을 제공한다.



기능/도구
설명
Azure SQL Database
Managed Instance
SQL on Azure VM



Azure Monitor
CPU, 메모리, 저장소, 연결 등 리소스 실시간 관찰, 알림 및 진단 로그 집계
지원
지원
지원


Database Watcher
DB 성능, 건강 상태, 트랜잭션 등 심층 모니터링 및 대시보드
지원
지원
미지원


Query Performance Insights
상위 리소스 소모/비효율 쿼리 현황 시각화, 실행 성능 분석
지원
일부 지원
SSMS에서 지원


Intelligent Insights
AI 기반 장애/성능 저하 원인 자동 감지 및 해결 가이드 제공
지원
지원
미지원


Alert & 대시보드
포털 기반 임계치 알림, 상태/로그 대시보드 제공
지원
지원
Portal/Log Analytics 지원


Deep Query Analytics
Query Store 등으로 쿼리 실행 이력, 실행 계획, 상세 워크로드 분석
지원
지원
직접 또는 외부 도구 활용


Best Practice 검사
보안, 아키텍처, 성능 등 운영 모범 실천 기준 자동 점검 및 경고
지원
지원
IaaS Agent 필요



대기 통계 Wait Stats 분석 방법
Wait Stats는 쿼리가 실행되는 동안 어떤 자원을 기다리느라 시간이 소요되었는지 알려주는 성능 트러블슈팅 핵심 지표이다.



항목
설명



Wait Stats 의미
SQL 엔진이 필요한 자원을 기다린 시간과 이유를 기록한 데이터


분석 가치
“쿼리가 느리다”를 “디스크 읽기를 기다리느라 70% 시간을 썼다”처럼 구체화 가능


DMV
sys.dm_db_wait_stats를 통해 DB 레벨 누적 대기 통계 확인


Query Store
특정 쿼리별, 시간대별 대기 통계를 과거 이력까지 추적





주요 Wait Type
의미
해결 방향



PAGEIOLATCH_*
디스크에서 데이터 페이지를 메모리로 읽어오기를 기다림
인덱스 튜닝, 메모리 증설


LCK_M_*
다른 쿼리가 테이블/행 잠금을 잡고 있어 해제를 기다림
트랜잭션 최적화


CXPACKET
병렬 쿼리 처리 중 스레드 간 속도 차이로 인한 대기
MAXDOP 설정 조정



Automatic tuning 및 지능형 인사이트
PaaS 서비스인 Azure SQL Database와 Managed Instance는 AI 기반 자동/추천 성능 최적화 기능을 제공한다. VM 기반 SQL은 운영자가 직접 튜닝해야 한다.



서비스 유형
지원 여부
주요 기능/특징



Azure SQL Database (PaaS)
기본 제공, 자동/수동 설정
자동 인덱스 관리, 인덱스 자동 생성/삭제, 실행 계획 비효율 발견 시 자동 롤백, 지속적 성능 분석, 튜닝 이력 제공


Azure SQL Managed Instance
기본 제공, 동일
Azure SQL Database와 동일


SQL Server on Azure VM (IaaS)
미지원, 직접 관리
수동 튜닝 필수, 자동 제안/적용 기능 없음



고가용성 아키텍처 및 재해 복구
High Availability
Azure SQL의 고가용성 내부 구현은 서비스 계층에 따라 다르다.



특성
General Purpose 계층
Business Critical 계층
Hyperscale 계층



적용 서비스
Azure SQL Database & Managed Instance
Azure SQL Database & Managed Instance
Azure SQL Database 전용


HA 설계 원칙
컴퓨팅/스토리지 분리
Always On 가용성 그룹
분산 함수 모델, 컴퓨팅·스토리지·로그 분리


아키텍처 구성
스테이트리스 컴퓨팅 노드 클러스터, Azure Premium Storage, 3중 복제 스토리지
1개 주 복제본(RW), 3개 보조 복제본(RO), 모든 복제본 로컬 SSD 사용
1개 주 복제본(RW), 0~4개 HA 보조 복제본(RO), 분산 페이지 서버, 고가용성 로그 서비스


데이터 복제 방식
스토리지 계층에서 3중 복제(LRS/ZRS)
동기식 복제
로그 서비스 및 페이지 서버를 통한 비동기 복제


장애 조치 메커니즘
컴퓨팅 노드 장애 시 다른 정상 노드로 연결 자동 전환
주 복제본 장애 시 보조 복제본 중 하나로 자동 승격
주 컴퓨팅 복제본 장애 시 HA 복제본 중 하나로 초고속 승격


RTO
수십 초
일반적으로 10초 이내
수 초


RPO
0, 커밋된 데이터 손실 없음
0, 데이터 손실 없음
0, 데이터 손실 없음


읽기 스케일 아웃
제한적
보조 복제본을 통한 읽기 스케일 아웃 가능
HA 보조 복제본을 통한 읽기 스케일 아웃 가능


스토리지 유형
원격 Azure Premium Storage
로컬 SSD
분산 페이지 서버 기반 관리형 스토리지


주요 장점
비용 효율성, 컴퓨팅/스토리지 독립 확장성
높은 성능, 낮은 RTO/RPO, 미션 크리티컬 워크로드 적합
극대화된 확장성, 초고속 복구, 대규모 워크로드 적합



Availability Architectural Models
Azure SQL Database와 SQL Managed Instance는 각각 고유한 고가용성 아키텍처 모델을 제공한다.



서비스
고가용성 아키텍처 모델



Azure SQL Database
General Purpose: 원격/로컬 저장소 분리, Business Critical: Always On/로컬 스토리지/복제, Hyperscale: 분산 스토리지·컴퓨트 계층 구조


SQL Managed Instance
General Purpose: Standard Availability, Business Critical: Always On 기반 고가용성 클러스터



Azure SQL Database 가용성 모델



서비스 티어
고가용성 모드
지역 중복 가용성
영역간 중복 가용성



General Purpose (vCore)
원격 스토리지
예
예


Business Critical (vCore)
로컬 스토리지
예
예


Hyperscale (vCore)
하이퍼스케일
예
예


Basic (DTU)
원격 스토리지
예
아니오


Standard (DTU)
원격 스토리지
예
아니오


Premium (DTU)
로컬 스토리지
예
예



Azure SQL Managed Instance 가용성 모델



서비스 티어
고가용성 모드
지역 중복 가용성
영역간 중복 가용성



General Purpose (vCore)
원격 스토리지
예
예


Next-gen General Purpose (vCore) - preview
원격 스토리지
예
예


Business Critical (vCore)
로컬 스토리지
예
예



원격 스토리지 모델: 지역 중복 가용성
DTU 기반 Basic/Standard 계층과 vCore 기반 General Purpose 계층은 Remote Storage 가용성 모델을 사용한다. 컴퓨팅 레이어와 저장소 계층이 분리되어 있다.
Stateful한건 늘리거나 하지 않고, Stateless에 computing 가능한 부분을 두어 늘릴 수 있게 함.
예를 들자면, 홈쇼핑 데이터베이스라면 주 기능에 관한건 Stateful한 부분에, 그리고 접속이나 계산 등 computing하고 가변적으로 늘려야 하는 부분은 Stateless 사용



계층
설명



Stateless compute layer
데이터베이스 엔진 프로세스를 실행하는 컴퓨팅 계층. 장애 시 다른 노드로 전환 가능


Stateful data layer
Azure Blob/Premium Storage에 데이터 파일과 로그 파일 저장. 원격 스토리지 기반 복제 제공



로컬 스토리지 모델: 지역 중복 가용성
DTU Premium 계층과 vCore Business Critical 계층은 컴퓨팅 리소스와 로컬 SSD 스토리지를 단일 노드에 통합하는 로컬 스토리지 모델을 사용한다.

각 컴퓨트 노드에는 데이터베이스 엔진과 로컬 SSD가 결합되어 있다.
주요 데이터 파일과 로그 파일이 각 노드의 로컬 SSD에 저장된다.
Always On Availability Group을 통해 노드 간 동기화 복제를 수행한다.
로컬 SSD 직접 접근으로 IO 지연이 낮고 성능이 높다.
장애 발생 시 동기화된 Secondary 노드가 Primary로 승격된다.

로컬이 더 비싸고 빠름

원격 스토리지 모델: 영역간 중복 가용성
Zone-redundant 옵션을 사용하면 하나의 Region 내 서로 다른 가용성 영역에 컴퓨트 노드가 분산 배치된다.



구분
설명



Remote storage model
컴퓨트와 스토리지가 분리. 컴퓨트 노드는 stateless, 영구 데이터는 Azure Premium Storage 등에 저장


Zone redundant availability
여러 Azure Zone에 Control Ring, 노드, 스토리지 계층이 존재. 데이터와 로그는 ZRS 등 zone-redundant storage에 보관


장애 대응
Azure Traffic Manager를 통해 정상 Zone 노드로 자동 우회



로컬 스토리지 모델: 영역간 중복 가용성
Premium 또는 Business Critical 계층에서 영역 중복을 사용하면 복제본이 동일 지역의 여러 가용성 영역에 배치된다.

SPOF 제거를 위해 Control Ring이 여러 영역에 걸쳐 복제된다.
게이트웨이 링 라우팅은 Azure Traffic Manager가 제어한다.
기존 복제본을 다양한 가용성 영역에 배치하므로 추가 비용 없이 사용할 수 있다.
데이터센터 중단 같은 큰 장애에도 탄력적으로 복구 가능하다.
기존 Premium/Business Critical DB 또는 Elastic Pool을 영역 중복 구성으로 변환할 수 있다.


Automated Backups
Azure SQL 서비스별 자동 백업 방식은 다르다.



유형
자동 백업 기본 제공
백업 종류/주기
보존 기간
백업 저장 위치
추가 설정/특징



Azure SQL Database
O, 자동
주 1회 전체, 12시간마다 증분, 약 10분마다 로그
7~35일 기본, 최대 10년 LTR 옵션
RA-GRS
PITR, LTR 지원


SQL Managed Instance
O, 자동
전체, 차등, 로그
7~35일 기본, 최대 10년 LTR
RA-GRS
PaaS 서비스의 통합 자동 백업 관리


SQL on Azure VM
X, 별도 설정 필요
사용자 지정
사용자 지정
Azure Storage, Recovery Services Vault, 외부 저장소
SQL IaaS Agent, Azure Backup 등 설정 필요. 관리자가 주기·보존·저장소 직접 결정


LTR: Long Term Retention

Automated Patching
Azure SQL Database와 Azure SQL Managed Instance는 PaaS 서비스이므로 OS와 SQL 데이터베이스 엔진의 최신 보안 업데이트 및 성능 개선 패치가 자동 적용된다.



구분
내용



Azure SQL Database / Managed Instance
OS 및 SQL 엔진 패치 자동 적용, 관리자가 별도 패치하지 않아도 최신 버전과 보안 수준 유지


Managed Instance 유지 관리 기간
자동 패치가 적용될 주간 시간대를 선택해 단기 가용성 영향을 제어 가능


Managed Instance 업데이트 정책
Always Up-to-date 정책 또는 지연 정책 선택 가능


SQL Server on Azure VM
SQL IaaS Agent Extension 등록 및 별도 설정 필요. Windows Update, 보안 패치, SQL Patch 스케줄을 관리자가 직접 구성 가능



Business Continuity 참고
Business Continuity는 기업의 핵심 자산, 서비스, 수익에 대한 위협을 식별하고, 주요 비즈니스 기능이 재난이나 장애 상황에서도 계속 운영될 수 있도록 하는 전략이다.
Azure SQL Database에서는 내장된 고가용성, 지역 중복, 장애 복구 기능을 통해 서비스 지속성을 보장한다. SPOF는 시스템, 네트워크, 소프트웨어 등 특정 지점 장애가 전체 시스템 중단으로 이어지는 단일 실패 지점을 의미한다.

Azure Site Recovery 참고
Azure Site Recovery는 Microsoft Azure에서 제공하는 재해 복구 서비스이다. 주요 IT 중단 발생 시에도 비즈니스 애플리케이션과 워크로드를 계속 실행하여 Business Continuity를 보장하도록 돕는다.

Geo-replication
Geo-replication은 Azure SQL Database, Managed Instance, SQL Server on Azure VM에 따라 지원 방식이 다르다.



서비스 계층
주요 Geo-replication 옵션
복제 방향/방식
페일오버/관리 특징
지원 및 제한 사항



Azure SQL Database (PaaS)
Active Geo-replication: 최대 4개 세컨더리 지원, Failover groups: 그룹 단위 페일오버/엔드포인트 자동 전환
단일 DB, Elastic Pool, 그룹 단위. 단방향/읽기 전용 세컨더리
자동 복제, 수동/자동 페일오버 선택. Failover group으로 일괄 관리, 연결 엔드포인트 자동 생성
PaaS라 설정/운영 간편. 서버리스, Hyperscale 등은 제한적 지원


Azure SQL Managed Instance
Failover groups: 전체 인스턴스 단위 DR, Geo-replication 일부
인스턴스 전체/그룹 단위, 읽기/쓰기 세컨더리
Failover group 자동/수동, 엔드포인트 리디렉션, 정책에 따른 자동 복구
Managed Instance 전용. 일부 설정/기능 변동 가능


SQL Server on Azure VM (IaaS)
Always On Availability Groups, Distributed Availability Group
VM 간 멀티 리전, 양방향 AG, 복수 세컨더리
쿼럼/AG 정책에 따른 페일오버. 복수 세컨더리로 로드 분산 가능. 수동/자동 다양
IaaS 직접 구성. Windows Failover Cluster 필요, 네트워크/쿼럼 설정 직접 관리, 비용/관리 책임



Migration & Innovation
Migrating to Azure
Azure는 온프레미스 SQL Server, 다른 클라우드, 타 DB 등에서 Azure SQL 제품으로 안전하게 이전하기 위한 절차와 도구를 제공한다.



도구/방식
대상 플랫폼
주요 방식/설명
지원 대상/특이사항



Azure Database Migration Service (DMS)
온프레미스 SQL Server, 타 클라우드 DB, Oracle, MySQL 등
온라인/오프라인 마이그레이션, 다운타임 최소화, 스키마+데이터+보안+연결 전환 지원
Azure SQL Database, Managed Instance, SQL Server on VM


Dacpac / BACPAC
모든 SQL Server/DB
스키마 및 데이터 옵션을 dacpac/bacpac 파일로 추출 후 신규 DB에 업로드 및 Import
소형 또는 부분 데이터 이전에 적합


Log Replay Service
온프레미스 SQL → Managed Instance
트랜잭션 로그 전송, 실시간 또는 순차적 로그 누적 적용
Managed Instance 전용


Managed Instance Link
온프레미스/VM SQL Server → Managed Instance
Always On AG 기술 활용, 실시간 데이터 싱크
Hybrid DR, 긴밀한 실시간 연동에 적합


Native backup/restore
온프레미스/VM SQL Server → Managed Instance
백업 파일을 Azure Storage로 업로드
대용량, 장기 보관, 이관, 복구에 적합


Distributed Availability Groups
온프레미스 ↔ Azure VM 상 SQL Server
AG 기반 장애 복구, 저지연 클러스터, VM 간 이중화 복제, 직접적 고가용성 구성
IaaS VM 기반 SQL 전용


Azure Migrate/Arc
대규모, 복합 자원, 하이브리드 등 다양한 환경
전체 인프라/워크로드 평가, 추천, 예측, DB 포함 전체 인프라 및 서비스 분석·상품 제안
대형·엔터프라이즈·하이브리드 환경에 적합



클라우드 마이그레이션: 비즈니스 드라이버 및 전략
성공적인 클라우드 마이그레이션은 기술 이동만이 아니라 명확한 비즈니스 이유를 기반으로 전략을 선택하는 과정이다.



단계
설명



비즈니스 목표 정의
클라우드 채택으로 달성하려는 상위 수준 성과 정의. 예: AI 도입, 민첩성 향상, 비용 절감, 혁신 가속화


격차 식별
현재 상태와 목표 수준 간 차이 분석. 성능, 확장성, 규정 준수, 아키텍처 제한 식별


비즈니스 드라이버 결정
파악된 격차를 메워야 하는 구체적이고 실행 가능한 이유 확정. 최적의 8R 전략 선택 기준





비즈니스 드라이버
마이그레이션 전략



중복되거나 가치가 낮은 워크로드를 용도 폐기
Retire


비즈니스 중단 최소화, 가까운 시일 내 현대화 계획 없음
Rehost


관리 부담을 줄이고 신뢰성을 높이기 위해 PaaS 솔루션과 최소한의 코드 수정 필요
Replatform


기술 부채를 줄이거나 클라우드 최적화를 위해 코드 수정 필요
Refactor


클라우드 네이티브 기능 활용을 위해 아키텍처 변경 필요
Rearchitect


운영 단순화를 위해 SaaS/AI 솔루션 필요
Replace


요구사항 충족을 위해 새로운 클라우드 네이티브 솔루션 필요
Rebuild


안정성이 필요하고 변경 사항이 없어야 함
Retain



Azure Cloud Migration Strategy: 8R



전략
Business driver
주요 지표



Retire
중복되거나 가치가 낮은 워크로드를 용도 폐기
현재 또는 미래 비즈니스 가치 제한, 마이그레이션/현대화 비용이 이점보다 큼


Rehost
비즈니스 중단 최소화, 현대화 계획 없음
워크로드 안정적, Azure 호환, 마이그레이션 리스크 낮음, 단기 클라우드 도입 목표, 현대화 급하지 않음, 자본 지출 절감, 데이터센터 공간 확보, Azure 경험 부족


Replatform
관리 부담 감소, 신뢰성 향상, PaaS와 최소 코드 수정 필요
안정성과 재해 복구 단순화, OS 및 라이선스 관리 부담 감소, 적절한 투자로 전환 시간 단축, 애플리케이션 컨테이너화


Refactor
기술 부채 감소 또는 클라우드 최적화를 위한 코드 수정
유지보수 비용 감소, 기술 부채 감소, Azure SDK 사용, 코드 성능 개선, 코드 비용 최적화, 클라우드 디자인 패턴 적용, 모니터링용 코드 계측 적용


Rearchitect
클라우드 네이티브 기능 활용을 위한 아키텍처 변경
애플리케이션 모듈화/서비스 분해 필요, 구성 요소별 확장 요구 다름, 미래 혁신 지원 필요, 기술 스택 혼재


Replace
운영 단순화를 위해 SaaS/AI 솔루션 필요
운영 단순화, 내부 개발 리소스를 다른 곳에 활용, 커스터마이징 필요성 적음


Rebuild
새로운 클라우드 네이티브 솔루션 필요
레거시 시스템이 낡거나 유연하지 않음, 더 빠른 개발/출시 필요, 운영 비용 절감, 최신 프레임워크와 도구 필요


Retain
안정성이 필요하고 변경 사항이 없어야 함
워크로드 안정적, 규정 준수, 비즈니스 요구 충족, 단기 이동 동인 없음, ROI 낮음


참고로 Gartner의 5R 이후 AWS에서는 Repurchase를 추가한 6R 및 7R이 많이 활용되며, Azure에서는 8R로 분류해 설명한다.

AWS Cloud Migration Strategy 참고
AWS 7R은 다음과 같이 시각적으로 정리된다.



그룹
전략
설명



Sustain
Rehost
Lift and shift, Amazon EC2에 호스트


Sustain
Relocate
Hypervisor-level lift and shift, 인프라를 클라우드로 이동


Optimize
Replatform
Lift and reshape, 일부 클라우드 기능 활용


Optimize
Repurchase
Drop and shop, 일반적으로 SaaS 제품으로 전환


Grow
Refactor
Re-architect, Amazon Aurora나 DynamoDB 등 목적 기반 DB 활용


별도 판단
Retain
유지


별도 판단
Retire
폐기



최신 기능
Vector 데이터 지원 및 RAG 아키텍처
Azure SQL Database는 VECTOR 데이터 형식과 VECTOR_DISTANCE 함수를 지원하여 별도 벡터 DB 없이 기존 관계형 데이터와 함께 RAG 아키텍처를 구현할 수 있다.



구분
설명



VECTOR 데이터 타입
OpenAI 등 AI 모델이 생성한 다차원 임베딩 배열을 테이블 컬럼에 직접 저장 가능


VECTOR_DISTANCE 함수
코사인 유사도 등을 이용해 사용자 질문과 의미가 비슷한 데이터를 SQL 쿼리로 검색


기존 문제
RDBMS 데이터와 벡터 DB가 분리되어 데이터 동기화 및 조인 분석이 어려움


해결 방식
Azure SQL 하나에서 일반 데이터 필터링과 의미론적 벡터 검색을 동시에 수행. RLS 정책도 유지 가능



JSON Native Support
기존에는 JSON을 NVARCHAR 문자열 컬럼에 담아 처리했지만, JSON 타입으로 처리하면서 성능 개선이 가능해졌다.



항목
개선 내용



Total Storage Footprint
약 82% 감소


Data I/O
약 80% 감소


Query Execution
약 2.5~4배 빠름


Throughput
약 20~40배 증가


CPU Usage
약 27% 감소


Logical Reads
쿼리 실행당 약 80% 감소


예시 저장 공간
사용량이 5.94GB 수준에서 1.06GB 수준으로 감소한 비교 화면 제시



Fabric Mirrored Databases 연동
Azure SQL은 Microsoft Fabric의 Mirrored Database와 연결된다. 포털에서 미러링을 켜면 Azure SQL 데이터가 Fabric OneLake에 실시간에 가깝게 Delta 포맷으로 복제된다.



특징
설명



Zero-ETL
복잡한 파이프라인 개발 없이 버튼 클릭만으로 연동


Near Real-time
Insert, Update, Delete 변경분을 실시간에 가깝게 증분 복제


Delta Parquet
분석에 최적화된 개방형 포맷으로 자동 변환 저장


성능 격리
원본 운영 DB 성능 저하 없이 OLAP 분석 가능



사례
Azure Virtual Machines의 SQL Server 사례: Allscripts
Allscripts는 의료 서비스 소프트웨어 제조업체이다. 애플리케이션을 안전하고 안정적으로 호스트하기 위해 Azure로 빠르게 이동하려 했고, Azure Site Recovery를 사용해 약 1,000개의 VM에서 실행 중이던 애플리케이션 수십 개를 3주 만에 Azure로 마이그레이션했다.



구분
내용



고객 과제
애플리케이션을 자주 변환하고 안정적으로 호스트해야 함


선택 서비스
Azure Virtual Machines의 SQL Server


주요 도구
Azure Site Recovery


결과
약 1,000개 VM 기반 애플리케이션을 빠르게 Azure로 이동



Azure SQL Managed Instance 사례: Komatsu
Komatsu는 건설용 중장비 제조 회사로, 여러 메인프레임 애플리케이션의 다양한 데이터를 통합적으로 파악하고 오버헤드를 줄이고자 했다. SQL Server 기능 호환성이 중요했기 때문에 Azure SQL Managed Instance를 선택했다.



구분
내용



고객 과제
여러 메인프레임 애플리케이션 통합, 관리 오버헤드 절감


선택 서비스
Azure SQL Managed Instance


이전 데이터
약 1.5TB


주요 혜택
자동 패치, 버전 업데이트, 자동 백업, 고가용성, 관리 오버헤드 절감


결과
약 49% 비용 절감, 약 25~30% 성능 향상



Azure SQL Database 사례: AccuWeather
AccuWeather는 날씨 분석 및 예측 기업으로, 빅데이터, 머신러닝, AI 기능을 활용하기 위해 Azure를 선택했다. 데이터베이스 관리보다 모델과 애플리케이션 구축에 집중하고자 SQL Database를 Azure Data Factory, Azure Machine Learning 등과 함께 사용했다.



구분
내용



고객 과제
기상 분석 및 예측 기능을 강화하고 빅데이터/AI 기능 활용 필요


선택 서비스
Azure SQL Database


연계 서비스
Azure Data Factory, Azure Machine Learning


목적
매출 및 고객 예측을 위한 내부 애플리케이션 빠른 배포


주요 장점
관리 부담 감소, 확장성, 최신 클라우드 서비스와의 연계



전체 정리
Azure SQL은 SQL Server 엔진을 기반으로 한 Azure의 통합 데이터베이스 제품군이다. Azure SQL Database, Azure SQL Managed Instance, SQL Server on Azure VM은 각각 관리 수준, 호환성, 제어 범위가 다르며, 워크로드 특성에 따라 선택해야 한다.
PaaS 기반의 Azure SQL Database와 Managed Instance는 자동 패치, 자동 백업, 고가용성, 보안, 성능 모니터링, 자동 튜닝을 제공한다. 특히 Serverless, Elastic Pool, Hyperscale, Private Link, Entra ID 인증, Ledger, Vector, Fabric Mirroring 등 최신 기능을 통해 운영 부담을 줄이면서 확장성과 보안성을 강화할 수 있다.
마이그레이션 관점에서는 DMS, BACPAC, Log Replay Service, Managed Instance Link, Native backup/restore, Azure Migrate/Arc 등 다양한 도구를 제공한다. 클라우드 이전 전략은 Retire, Rehost, Replatform, Refactor, Rearchitect, Replace, Rebuild, Retain의 8R 관점에서 비즈니스 목표와 워크로드 특성에 맞게 선택해야 한다.
한 줄 요약
Azure SQL은 SQL Server 기반 워크로드를 Azure에서 운영하기 위한 통합 데이터베이스 플랫폼이며, 서비스 유형별로 관리 책임과 호환성, 확장성, 보안 기능이 다르므로 워크로드 특성에 맞는 선택이 중요하다.


실습
Azure SQL 생성




[MicrosoftDataSchool] 75일차 - Azure DevOps
Thu, 23 Apr 2026 08:51:59 GMT
Azure DevOps
소프트웨어 개발 프로젝트의 계획, 개발, 테스트 및 배포 전 과정을 지원하는 통합 플랫폼



주요서비스명
역할 및 기능
개발 단계



Azure Boards
애자일 계획, 작업 추적, 백로그 관리, 칸반 보드 및 스크럼 지원
계획 & 추적


Azure Repos
Git 기반의 무제한 프라이빗 저장소 제공, 코드 버전 관리 및 협업
코드 관리


Azure Pipelines
CI/CD 파이프라인 자동화, 코드 커밋 시 자동 빌드, 테스트, 배포 실행
빌드 & 배포


Azure Test Plans
수동 및 탐색적 테스트 도구, 테스트 케이스 관리 및 실행 결과 추적
테스트 관리


Azure Artifacts
Maven, npm, NuGet 등 패키지 종속성 저장 및 공유 피드 관리
패키지 관리



GraphQL 기반 API 배포
Fabric에서 레이크하우스 생성

graphQL 생성


데이터 업로드 후 graphQL 연결






엔드포인트 복사로 확인


network를 확인해서 http request 내역 확인 가능
엔드포인트, 메소드, 헤더, 바디
Postman으로 확인
Authorization Token은 개발자도구로 확인해야하는데, safari를 사용한다면 환경설정에서 웹 개발자 도구 보기를 선택해야한다.

opt+cmd+i를 누르고, 개발자도구탭에서 네트워크를 선택한다

graphql을 찾고, 우클릭해서 curl로 복사 선택

이후 postman에서 import로 추가해준다.

자동으로 authorization token이 들어가고

정상적으로 200 OK 가 떨어진다.

참고로 체크는 GraphQL로 해야하는데, 로그인 안하면 지원 안하는듯. 로그인하니 뜬다.

가상환경 생성
# 1. 'fabric-lab'이라는 이름의 새로운 폴더(디렉토리)를 생성합니다.
mkdir fabric-lab

# 2. 생성한 'fabric-lab' 폴더 안으로 이동합니다.
cd fabric-lab

# 3. 'fabric'이라는 이름의 콘다 가상 환경을 생성합니다.
#    -c conda-forge: 패키지를 가져올 채널(저장소) 지정
#    nodejs=24: 최신 버전인 Node.js 24 버전을 함께 설치합니다.
conda create -n fabric -c conda-forge nodejs=24

# 4. 방금 만든 'fabric3' 가상 환경을 활성화합니다. 
# (주의: 위에서 'fabric'으로 만드셨다면 'conda activate fabric'이 맞습니다.)
conda activate fabric3

# 5. 서버 코드를 담을 'server' 폴더를 생성합니다.
mkdir server

# 6. 'server' 폴더 안으로 이동합니다.
cd server

# 7. Node.js 프로젝트를 초기화합니다. (-y는 모든 설정을 기본값으로 자동 승인함)
# 이 명령어를 치면 package.json 파일이 생성됩니다.
npm init -y

# 8. 서버 운영에 필요한 핵심 라이브러리들을 설치합니다.
# express: 웹 서버 프레임워크
# cors: 교차 출처 리소스 공유(보안 정책) 해결용
# @azure/identity: Azure 서비스 인증용 (패브릭 연결 시 필요)
# node-fetch@2: API 요청을 보내기 위한 라이브러리 (버전 2)
npm install express cors @azure/identity node-fetch@2

샘플 코드 실행
fabric-lab/server 에서 실행
npm init -y
npm install express cors @azure/identity node-fetch@2

fabric의 graphQL에서 코드 생성(js)

commonjs 를 module로 바꿔줘야한다

샘플 코드 저장 후 node {파일명}.js로 실행하면 브라우저 인증 후 데이터 조회 가능 (graphql.js 의 경로가 package.json과 동일한 경로여야 함)
이 경우 authentication을 브라우저에서 열리면서 해야한다.

클라이언트 secret을 통해서 인증하는방식으로 해야 앱 개발 가능(매번 브라우저 인증은 불가능)
앱등록 후 액세스 관리
Entra Id 화면- 관리- 앱등록에서 Fabric 전체를 관리할 어플리케이션 등록 가능
등록 후 ClientId와 Secretkey 발급 가능
이후 fabric에서 액세스관리에서 기여자로 추가
tenant ID client ID client Secret 필요
클라이언트로 인증 처리
import { ClientSecretCredential, InteractiveBrowserCredential } from "@azure/identity";

// Acquire a token
// DO NOT USE IN PRODUCTION.
// Below code to acquire token is for development purpose only to test the GraphQL endpoint
// For production, always register an application in a Microsoft Entra ID tenant and use the appropriate client_id and scopes
// https://learn.microsoft.com/en-us/fabric/data-engineering/connect-apps-api-graphql#create-a-microsoft-entra-app

const TENANT_ID = "";
const CLIENT_ID = "";
const CLIENT_SECRET = "";

let app = new ClientSecretCredential(TENANT_ID, CLIENT_ID, CLIENT_SECRET);
let tokenPromise = app.getToken('https://analysis.windows.net/powerbi/api/.default');
let accessToken = await tokenPromise;

const endpoint = '';
const query = `
query {
  namhae_travels(first: 10) {
     items {
        no
        name
        address
     }
  }
}
`;

const variables = 
  {

  }
  ;

const headers = {
    'Content-Type': 'application/json',
    'Authorization': `Bearer ${accessToken.token}`
};

async function fetchData()     {
    try {
        const response = await fetch(endpoint, {
            method: 'POST',
            headers: headers,
            body: JSON.stringify({ query, variables }),
        });

        const result = await response.json();
        console.log(JSON.stringify(result));
    } catch (error) {
        console.log('Error fetching data:', error);
    }
}

fetchData();

DevOps에 레포지토리 업로드

devops의 repos-files의 링크를 local에서 add remote에 사용
vscode상에서는 차례대로 링크복붙-origin입력-git credentials 복붙(password)

CI 파이프라인
Settings-Agent Pool-Default



이후 mac에서는 엄청나게 비밀번호 입력을 많이 해야한다고 하셔서 안내해주신대로 비밀번호 입력을 한 번만 하도록 설정했다.(권한변경)
sudo xattr -rd com.apple.quarantine 
이후
./config.sh
하는 도중에 해당 폴더가 documents 하위에 있어 루트권한으로도 접근이 막히는 문제가 발생했다.
따라서 agent폴더 자체를 루트디렉토리로 옮겨서 해결했다.
PAT 토큰 발급은 우상단 user settings로 하면 된다.






trigger:
  paths:
    include:
      - server/*

pool:
  name: 'Default'

steps:
  - checkout: self
    clean: true       # 기존에 남은 찌꺼기 파일들을 깨끗이 지우고 시작
    fetchDepth: 1     # 최신 커밋 1개만 빠르게 가져옴
    displayName: 'Get Sources (Manual)'
  - task: NodeTool@0
    inputs:
      versionSpec: '24.x'
    displayName: 'Install Node.js'

  - script: |
      cd server
      npm install
      # NestJS나 TypeScript를 사용한다면 build 스크립트가 필수입니다.
      # 일반 Express라면 생략 가능하지만, 관례상 포함하는 경우가 많습니다.
      npm run build --if-present
    displayName: 'Install and Build'

  - task: ArchiveFiles@2
    inputs:
      # 중요: 'server' 폴더 전체를 압축하되,
      # 보통 node_modules를 포함해야 App Service에서 바로 실행됩니다.
      rootFolderOrFile: 'server'
      includeRootFolder: false
      archiveType: 'zip'
      archiveFile: '$(Build.ArtifactStagingDirectory)/$(Build.BuildId).zip'
    displayName: 'Archive files'

  - task: PublishBuildArtifacts@1
    inputs:
      PathtoPublish: '$(Build.ArtifactStagingDirectory)'
      ArtifactName: 'drop'
    displayName: 'Publish Artifact'




import { ClientSecretCredential } from "@azure/identity";
import express from 'express';
import cors from 'cors';
import fetch from 'node-fetch';

const TENANT_ID = "";
const CLIENT_ID = "";
const CLIENT_SECRET = "";

let credential = new ClientSecretCredential(TENANT_ID, CLIENT_ID, CLIENT_SECRET);
let tokenPromise = credential.getToken('https://analysis.windows.net/powerbi/api/.default');
let accessToken = await tokenPromise;

const app = express();
app.use(cors()); //이부분 괄호 안쳤다가 접속 안됨
app.use(express.json());

const config = {

}

app.get('/', (req, res) => {
    res.json({
        status: "OK",
        message: "조회에 성공하였습니다.",
        token: accessToken
    })
});

app.listen(3000, () => {
    console.log("Server is running on port 3000");
});




[MicrosoftDataSchool] 74일차 - Fabric T-SQL, Data Warehouse, Direct Lake, KQL
Wed, 22 Apr 2026 08:35:09 GMT
Microsoft Fabric Data Warehouse를 활용한 고성능 T-SQL 분석 및 데이터 통합
SQL Endpoint vs Dedicated Warehouse
Microsoft Fabric는 전통적인 Data Warehouse 외에도 Lakehouse에 정제된 데이터를 두고 SQL Endpoint로 읽는 방법도 제공



특징
SQL Endpoint (Lakehouse)
Dedicated Warehouse
선택 기준



용도
읽기 전용 분석 (Silver/Gold)
읽기/쓰기 모두 가능
데이터를 쓰냐? → DW, 읽기만? → Endpoint


데이터 위치
Lakehouse의 Delta Table 직접 액세스
독립적 저장소
이미 Lakehouse 있다? → Endpoint


성능
V-Order 최적화 활용
전용 리소스
대용량 DW 작업 → DW, 분석 → Endpoint


비용
저렴 (공유 리소스)
높음 (전용 리소스)
예산 조건 확인


Power BI 연결
Direct Lake 최적
Direct Query / Import
Direct Lake 필요 → Endpoint


T-SQL 지원
완전 지원
완전 지원
문법 동일


Spark SQL vs T-SQL



기능 영역
Spark SQL (Databricks/Fabric Notebook)
T-SQL (Fabric Warehouse/Endpoint)



주 목적
대용량 데이터 처리 및 ETL 변환
정형 데이터 조회, 보고, 비즈니스 로직 구현


로직 구현
UDF (Python/Scala 결합)
Stored Procedure (SQL 전용)


트랜잭션
파일 기반 (ACID), 암시적
세션 기반, 명시적 (BEGIN TRAN)


제어 흐름
외부 코드 (Python/Scala)에 의존
SQL 자체 지원 (IF, WHILE, 변수)


사용자층
데이터 엔지니어, 데이터 사이언티스트
데이터 분석가, BI 개발자, DBA


문법 특징
LIMIT, current_date(), approx_distinct()
TOP, GETDATE(), COUNT(DISTINCT)


T-SQL: Microsoft SQL Server와 Azure SQL Database에서 사용하는 표준 SQL 언어의 확장판으로서 데이터 정의, 데이터 조작, 데이터 제어 뿐만 아니라, 절차적 프로그래밍 기능을 추가하여 복잡한 비즈니스 로직을 서버 측에서 구현
T-SQL을 쓰는 이유

Universal Connectivity: Excel, 3rd Party BI도구와 높은 호환성
Standard Governance: GRATN/DENY 기반의 명확한 오브젝트 레벨 권한 관리
Logic Encapsulation: Stored Procedure를 통해 비즈니스 로직을 DB 내부에 안전하게 격리

Cross-Database Query

다른 Database, 다른 Lakehouse에 있는 테이블을 JOIN 하기 위해서 데이터를 이동할 필요가 없음
Power BI Direct Lake Mode

Import는 메모리 한계가 있고 Direct Query는 느림
이럴때 Direct Lake를 사용하면 빠른 속도에 대용량 파일도 로드 가능




Feature
Import
Direct Query
Direct Lake



Speed
Very Fast
Slow
Very Fast


Data Copy
Yes (Duplication)
No
No (Zero Copy)


Freshness
Schedule Refresh
Real-time
Real-time


Limit
Memory Limit
DB Load
Large Scale Support


### Semantic Models





Direct Lake모드가 제공하는 빠른 속도 덕분에 기본 모델 생성을 해서 BI 리포트 생성을 좀 더 편하게 해주는 default semantic model 기능이 제공되었으나, 자동 생성의 부작용으로 필요 없는 모델들이 생기고 워크스페이스가 복잡해짐에 따라서 해당 기능은 중단되었고, 대신 사용자가 명시적으로 생성하도록 변경







실습: Microsoft Fabric에서 Data Warehouse 쿼리

Data Warehouse 쿼리
SQL 쿼리 편집기는 IntelliSense, 코드 완성, 구문 강조 표시, 클라이언트 측 구문 분석(parsing) 및 유효성 검사를 지원합니다. Data Definition Language (DDL), Data Manipulation Language (DML) 및 Data Control Language (DCL) 문을 실행할 수 있다.
SELECT
    D.MonthName,
    COUNT(*) AS TotalTrips,
    SUM(T.TotalAmount) AS TotalRevenue
FROM dbo.Trip AS T
JOIN dbo.[Date] AS D
    ON T.[DateID]=D.[DateID]
GROUP BY D.MonthName;

이 쿼리를 통해 각 월별 전체 이동 횟수와 총 수익을 확인할 수 있다.

다음으로 요일별 평균 이동 시간과 평균 이동 거리를 분석한다.
SELECT
    D.DayName,
    AVG(T.TripDurationSeconds) AS AvgDuration,
    AVG(T.TripDistanceMiles) AS AvgDistance
FROM dbo.Trip AS T
JOIN dbo.[Date] AS D
    ON T.[DateID]=D.[DateID]
GROUP BY D.DayName;

이를 통해 요일별 이동 패턴을 파악할 수 있다.

또한, 이동이 많이 발생한 도시를 확인하기 위해
도시별 이동 수 상위 10개를 조회한다.
SELECT TOP 10
    G.City,
    COUNT(*) AS TotalTrips
FROM dbo.Trip AS T
JOIN dbo.Geography AS G
    ON T.DropoffGeographyID=G.GeographyID
GROUP BY G.City
ORDER BY TotalTrips DESC;

이 쿼리는 특정 도시에서의 이동량이 얼마나 집중되는지 확인하는 데 유용하다.

데이터 일관성 확인
분석 결과의 신뢰성을 확보하기 위해 데이터의 일관성을 확인한다.
먼저 비정상적으로 긴 이동 시간이 존재하는지 확인한다.
(24시간 = 86400초 기준)
-- Check for trips with unusually long duration
SELECT COUNT(*) FROM dbo.Trip WHERE TripDurationSeconds > 86400; -- 24 hours

이 값이 존재한다면 데이터 오류 가능성을 의심할 수 있다.

다음으로 음수 이동 시간이 존재하는지 확인한다.
-- Check for trips with negative trip duration
SELECT COUNT(*) FROM dbo.Trip WHERE TripDurationSeconds < 0;

음수 이동 시간은 명백한 데이터 오류이므로 반드시 제거해야 한다.
확인된 데이터 오류를 제거하여 데이터 품질을 개선한다.
-- Remove trips with negative trip duration
DELETE FROM dbo.Trip WHERE TripDurationSeconds < 0;
이 과정을 통해 분석에 사용되는 데이터의 정확도를 높일 수 있다.

뷰로 저장
이제 자주 사용하는 분석 쿼리를 View로 저장하여 재사용할 수 있도록 한다.
먼저 기본 집계 쿼리를 작성한다.
SELECT
    D.DayName,
    AVG(T.TripDurationSeconds) AS AvgDuration,
    AVG(T.TripDistanceMiles) AS AvgDistance
FROM dbo.Trip AS T
JOIN dbo.[Date] AS D
    ON T.[DateID]=D.[DateID]
GROUP BY D.DayName;


이후 특정 조건(예: 1월 데이터)으로 필터링한다.
SELECT
    D.DayName,
    AVG(T.TripDurationSeconds) AS AvgDuration,
    AVG(T.TripDistanceMiles) AS AvgDistance
FROM dbo.Trip AS T
JOIN dbo.[Date] AS D
    ON T.[DateID]=D.[DateID]
WHERE D.Month = 1
GROUP BY D.DayName


해당 쿼리를 선택한 후 Save as view 기능을 사용하여
vw_JanTrip이라는 이름으로 저장한다.

이렇게 생성된 View는 이후 반복적인 분석이나 BI 도구에서 재사용할 수 있다.


T-SQL을 사용하여 Data Warehouse에 데이터 로드
Lakehouse 생성 및 데이터 준비
먼저 Microsoft Fabric에서 Workspace를 생성한 뒤, Lakehouse를 생성한다.
이후 제공된 sales.csv 파일을 Lakehouse의 Files 영역에 업로드한다.
업로드한 파일을 기반으로 테이블을 생성(Create table) 하여 staging_sales 테이블을 만든다.
이 테이블은 이후 Data Warehouse로 데이터를 적재하기 위한 Staging 영역 역할을 한다.

Data Warehouse 생성
다음으로 Data Warehouse를 생성한다.
이 Warehouse는 Lakehouse의 데이터를 기반으로
분석용 Fact/Dimension 테이블을 구성하는 공간이다.
Warehouse에서 안하고 Lakehouse에서 하면 create table 할때 denied되니 명심하자

Fact 및 Dimension 테이블 생성
Warehouse에서 SQL Query를 열고,
Fact 테이블과 Dimension 테이블을 생성한다.
CREATE SCHEMA Sales;
GO

CREATE TABLE Sales.Fact_Sales
(
    SalesOrderNumber NVARCHAR(20) NOT NULL,
    SalesOrderLineNumber INT NOT NULL,
    OrderDate DATE NOT NULL,
    CustomerKey INT NOT NULL,
    ItemKey INT NOT NULL,
    Quantity INT,
    UnitPrice FLOAT,
    Tax FLOAT
);
GO

CREATE TABLE Sales.Dim_Customer
(
    CustomerKey INT IDENTITY(1,1) NOT NULL,
    CustomerName NVARCHAR(100),
    Email NVARCHAR(100)
);
GO

CREATE TABLE Sales.Dim_Item
(
    ItemKey INT IDENTITY(1,1) NOT NULL,
    ItemName NVARCHAR(100)
);
GO

Fact_Sales → 판매 데이터 저장 (Fact Table)
Dim_Customer, Dim_Item → 차원 테이블


Staging 데이터 연결 (View 생성)
Lakehouse의 staging_sales 테이블을 Warehouse에서 참조하기 위해 View를 생성한다.
CREATE VIEW Sales.Staging_Sales
AS
SELECT *
FROM staging_sales;
이 View를 통해 Lakehouse 데이터를 Warehouse에서 직접 조회할 수 있다.

데이터 로드를 위한 저장 프로시저 생성
Staging 데이터를 Fact/Dimension 테이블로 적재하기 위해
저장 프로시저를 생성한다.
CREATE PROCEDURE Sales.LoadDataFromStaging (@OrderYear INT)
AS
BEGIN

-- Load customers
INSERT INTO Sales.Dim_Customer (CustomerName, Email)
SELECT DISTINCT CustomerName, Email
FROM Sales.Staging_Sales
WHERE YEAR(OrderDate) = @OrderYear
AND CustomerName NOT IN (SELECT CustomerName FROM Sales.Dim_Customer);

-- Load items
INSERT INTO Sales.Dim_Item (ItemName)
SELECT DISTINCT Item
FROM Sales.Staging_Sales
WHERE YEAR(OrderDate) = @OrderYear
AND Item NOT IN (SELECT ItemName FROM Sales.Dim_Item);

-- Load fact table
INSERT INTO Sales.Fact_Sales
SELECT
    s.SalesOrderNumber,
    s.SalesOrderLineNumber,
    s.OrderDate,
    c.CustomerKey,
    i.ItemKey,
    s.Quantity,
    s.UnitPrice,
    s.Tax
FROM Sales.Staging_Sales s
JOIN Sales.Dim_Customer c
    ON s.CustomerName = c.CustomerName
JOIN Sales.Dim_Item i
    ON s.Item = i.ItemName
WHERE YEAR(s.OrderDate) = @OrderYear;

END;
이 프로시저는 다음 작업을 수행한다.

고객 데이터 적재
상품 데이터 적재
Fact 테이블 적재


데이터 로드 실행
2021년 데이터를 Warehouse로 로드한다.
EXEC Sales.LoadDataFromStaging 2021;

데이터 분석
데이터가 정상적으로 로드되었는지 확인하기 위해
분석 쿼리를 실행한다.

고객별 총 판매액
SELECT
    c.CustomerName,
    SUM(f.Quantity * (f.UnitPrice + f.Tax)) AS TotalSales
FROM Sales.Fact_Sales f
JOIN Sales.Dim_Customer c
    ON f.CustomerKey = c.CustomerKey
GROUP BY c.CustomerName
ORDER BY TotalSales DESC;


상품별 총 판매액
SELECT
    i.ItemName,
    SUM(f.Quantity * (f.UnitPrice + f.Tax)) AS TotalSales
FROM Sales.Fact_Sales f
JOIN Sales.Dim_Item i
    ON f.ItemKey = i.ItemKey
GROUP BY i.ItemName
ORDER BY TotalSales DESC;


카테고리별 상위 고객 분석
WITH SalesCTE AS
(
    SELECT
        c.CustomerName,
        i.ItemName,
        SUM(f.Quantity * (f.UnitPrice + f.Tax)) AS TotalSales,
        CASE
            WHEN i.ItemName LIKE '%Bike%' THEN 'Bike'
            ELSE 'Other'
        END AS Category
    FROM Sales.Fact_Sales f
    JOIN Sales.Dim_Customer c
        ON f.CustomerKey = c.CustomerKey
    JOIN Sales.Dim_Item i
        ON f.ItemKey = i.ItemKey
    GROUP BY c.CustomerName, i.ItemName
)
SELECT *
FROM
(
    SELECT *,
           ROW_NUMBER() OVER (PARTITION BY Category ORDER BY TotalSales DESC) AS rn
    FROM SalesCTE
) t
WHERE rn <= 5;



자습서: Direct Lake 의미 체계 모델 및 Power BI 보고서 만들기
데이터 가져오기
Warehouse에서 데이터 가져오기 선택
샘플 데이터의 Retail~ 선택

의미체계 모델 만들기

만들어진 의미체계 모델은 작업 영역에서 확인 가능

관계 관리

보고서 만들기



Fabric을 활용한 실시간 분석
Security Architecture & Hierarchy


Workspace Roles & Permissions
단위입니다. 팀 리더, 데이터 엔지니어, 분석가, 보고서 사용자 등
역할에 따라 Admin, Member, Contributor, Viewer 중 하나를 부여하여 필요한 권한만 제공
더 세밀한 제어가 필요하면 'Share'로 특정 아이템만 공유

OneLake Security
데이터 자체(테이블, 폴더)에 대한 접근을 제어.

Row-Level Security(RLS)
사용자의 권한(User Context)에 따라 테이블의 특정 행(Row)만 조회되도록 필터링하는 보안 기능

Implementing RLS with T-SQL

1. 보안 함수 생성
USER_NAME() 함수를 사용하여 현재 접속한 사용자 식별
2. 보안 정책 적용
위에서 만든 함수를 실제 테이블에 결합
STATE = ON 으로 설정하는 즉시 모든 쿼리에 필터가 적용
SQL Permissions: GRANT, Deny & Column-Level Security

Governance: Purview, Lineage & Endorsement
Purview Hub (데이터 보호)
• MIP Label: 데이터에 '기밀(Confidential)’ tag를 붙이면, 엑셀로 다운로드해도 암호화가 유지
• 인사이트: "우리 회사에 민감 정보가 얼마나 있지?"를 대시보드로 표시
Data Lineage (데이터 족보)
• 자동 시각화: 원본 데이터가 어떤 파이프라인을 거쳐 어떤 리포트가 되었는지 자동 생성
• 영향도 분석: "이 테이블 고치면 어떤 리포트가 깨질까?“ 미리 알 수 있음
Endorsement (신뢰 마크)
• Certified (인증됨): IT 부서가 "이건 믿고 써도 됨"이라고 보증한 데이터.
• Promoted (홍보됨): 팀 리더가 "우리 팀 데이터 공유할게"라고 내놓은 데이터.
Real-Time Intelligence: KQL Database & Eventstream

KQL Database (저장소)
• 고성능 로그 분석: 기존 SQL DB는 로그 쌓이면 느려지지만, KQL DB는 페타바이트급 로그도 순식간에 검색
• 비정형 데이터: JSON, 텍스트 로그 등 구조가 일정하지 않은 데이터도 그대로 넣고 바로 쿼리
Eventstream (연결 통로)
• No-Code 연결: IoT 센서, 앱 로그, Kafka 등을 코딩 없이 클릭만으로 연결
• 실시간 처리: 데이터가 들어오는 즉시 필터링하거나 변환해서 KQL DB나 Lakehouse로 전송
KQL (Kusto Query Language)

데이터를 탐색하고 패턴을 발견하고, 변칙과 이상값을 식별하고, 통계 모델링을 만드는 등의 작업을 수행할 수 있는 강력한 도구로서 Microsoft에서 만들었으며 Azure Data Explorer, Azure Monitor, Microsoft Fabric 등에 사용
대소문자를 구분함
Fabric Activator (formely Reflex)
데이터 소스에서 특정 패턴이나 조건이 감지될 때 자동으로 작업을 실행하는
코드 없는 저지연 이벤트 감지 엔진

1초 미만의 대기 시간으로 데이터 원본을 지속적으로 모니터링
임계값이 충족되거나 특정 패턴이 검색되면 작업 (예: 전자메일 또는 Teams 알림 보내기, Power Automate 흐름 시작, 타사 시스템 통합 등)을 시작
데이터가 지속적으로 흐르는 반응형 이벤트 기반 아키텍처에 적합하며, 이벤트 데이터의 상태 저장 평가에 따라 거의 실시간으로 결정



실습: Microsoft Fabric 데이터 웨어하우스 보안 설정
테이블의 Column에 동적 데이터 마스킹 규칙 적용
동적 데이터 마스킹 규칙은 테이블 수준의 개별 Column에 적용되므로 모든 Query가 마스킹의 영향을 받습니다. 기밀 데이터를 볼 명시적인 권한이 없는 사용자는 Query 결과에서 마스킹된 값을 보게 되며, 데이터를 볼 명시적인 권한이 있는 사용자는 마스킹되지 않은 데이터를 봅니다. 마스크에는 기본(default), 이메일(email), 무작위(random), 사용자 지정 문자열(custom string)의 네 가지 유형이 있습니다. 

Warehouse에서 T-SQL 타일을 선택하고, 다음 T-SQL 문을 사용하여 테이블을 생성하고 데이터를 삽입하고 조회합니다.CREATE TABLE dbo.Customers
(   
 CustomerID INT NOT NULL,   
 FirstName varchar(50) MASKED WITH (FUNCTION = 'partial(1,"XXXXXXX",0)') NULL,     
 LastName varchar(50) NOT NULL,     
 Phone varchar(20) MASKED WITH (FUNCTION = 'default()') NULL,     
 Email varchar(50) MASKED WITH (FUNCTION = 'email()') NULL   
);



INSERT dbo.Customers (CustomerID, FirstName, LastName, Phone, Email) VALUES
(29485,'Catherine','Abel','555-555-5555','catherine0@adventure-works.com'),
(29486,'Kim','Abercrombie','444-444-4444','kim2@adventure-works.com'),
(29489,'Frances','Adams','333-333-3333','frances0@adventure-works.com');
SELECT * FROM dbo.Customers;
마스크 해제된 데이터를 볼 수 없는 사용자가 테이블을 Query할 때, FirstName Column은 문자열의 첫 글자와 XXXXXXX를 표시하고 마지막 문자는 표시하지 않습니다. Phone Column은 xxxx를 표시합니다. Email Column은 이메일 주소의 첫 글자 다음에 XXX@XXX.com을 표시합니다. 이 접근 방식은 민감한 데이터가 기밀을 유지하도록 보장하면서도 제한된 사용자가 테이블을 Query할 수 있도록 합니다.
![](https://velog.velcdn.com/images/rudin_/post/8f5fd4e8-123a-4eda-adc9-78cd9d61ca4d/image.png)

2. ▷ 실행 버튼을 사용하여 SQL 스크립트를 실행합니다. 이 스크립트는 Data Warehouse의 dbo Schema에 Customers라는 새 테이블을 생성합니다.
3. 그런 다음, 탐색기 창에서 Schemas > dbo > Tables를 확장하고 Customers 테이블이 생성되었는지 확인합니다. Workspace 생성자로서 마스크 해제된 데이터를 볼 수 있는 Workspace Admin 역할의 멤버이므로, SELECT 문은 마스크 해제된 데이터를 반환합니다.

## 행 수준 보안(Row-level security) 적용
```python
CREATE TABLE dbo.Sales  
(  
    OrderID INT,  
    SalesRep VARCHAR(60),  
    Product VARCHAR(10),  
    Quantity INT  
);

--Populate the table with 6 rows of data, showing 3 orders for each test user. 
INSERT dbo.Sales (OrderID, SalesRep, Product, Quantity) VALUES
(1, '@.com', 'Valve', 5),   
(2, '@.com', 'Wheel', 2),   
(3, '@.com', 'Valve', 4),  
(4, '@.com', 'Bracket', 2),   
(5, '@.com', 'Wheel', 5),   
(6, '@.com', 'Seat', 5);  

SELECT * FROM dbo.Sales;  

새 Schema, Function으로 정의된 보안 Predicate, 그리고 보안 정책을 생성
--Create a separate schema to hold the row-level security objects (the predicate function and the security policy)
CREATE SCHEMA rls;
GO

/*Create the security predicate defined as an inline table-valued function.
A predicate evaluates to true (1) or false (0). This security predicate returns 1,
meaning a row is accessible, when a row in the SalesRep column is the same as the user
executing the query.*/   
--Create a function to evaluate who is querying the table
CREATE FUNCTION rls.fn_securitypredicate(@SalesRep AS VARCHAR(60)) 
    RETURNS TABLE  
WITH SCHEMABINDING  
AS  
    RETURN SELECT 1 AS fn_securitypredicate_result   
WHERE @SalesRep = USER_NAME();
GO   
/*Create a security policy to invoke and enforce the function each time a query is run on the Sales table.
The security policy has a filter predicate that silently filters the rows available to 
read operations (SELECT, UPDATE, and DELETE). */
CREATE SECURITY POLICY SalesFilter  
ADD FILTER PREDICATE rls.fn_securitypredicate(SalesRep)   
ON dbo.Sales  
WITH (STATE = ON);
GO

열 수준 보안(Column-level security) 구현
열 수준 보안은 어떤 사용자가 테이블의 특정 Column에 접근할 수 있는지 지정할 수 있도록 합니다. 이는 Column 목록과 Column을 읽을 수 있거나 없는 사용자 또는 역할을 지정하여 테이블에 GRANT 또는 DENY 문을 발행함으로써 구현됩니다. 접근 관리를 간소화하기 위해 개별 사용자 대신 역할에 권한을 할당합니다. 이 실습에서는 테이블을 생성하고, 테이블의 Column 하위 집합에 접근 권한을 부여하며, 제한된 Column이 본인 외의 사용자에게는 보이지 않는지 테스트합니다.
CREATE TABLE dbo.Orders
(   
    OrderID INT,   
    CustomerID INT,  
    CreditCard VARCHAR(20)      
);   
INSERT dbo.Orders (OrderID, CustomerID, CreditCard) VALUES
(1234, 5678, '111111111111111'),
(2341, 6785, '222222222222222'),
(3412, 7856, '333333333333333');   
SELECT * FROM dbo.Orders;
DENY SELECT ON dbo.Orders (CreditCard) TO [@.com];

T-SQL을 사용하여 SQL 세분화된 권한 구성
Fabric은 Workspace 수준 및 항목 수준에서 데이터 접근을 제어할 수 있는 권한 모델을 가지고 있습니다. Fabric Warehouse의 보안 개체(securables)를 사용자들이 무엇을 할 수 있는지 더 세밀하게 제어해야 할 때, 표준 SQL 데이터 제어 언어(DCL) 명령어인 GRANT, DENY, REVOKE를 사용할 수 있습니다. 이 실습에서는 객체(objects)를 생성하고, GRANT 및 DENY를 사용하여 객체를 보호한 다음, Query를 실행하여 세분화된 권한 적용의 효과를 확인합니다.
CREATE PROCEDURE dbo.sp_PrintMessage
AS
PRINT 'Hello World.';
GO   
CREATE TABLE dbo.Parts
(
    PartID INT,
    PartName VARCHAR(25)
);

INSERT dbo.Parts (PartID, PartName) VALUES
(1234, 'Wheel'),
(5678, 'Seat');
 GO

/*Execute the stored procedure and select from the table and note the results you get
as a member of the Workspace Admin role. Look for output from the stored procedure on 
the 'Messages' tab.*/
EXEC dbo.sp_PrintMessage;
GO   
SELECT * FROM dbo.Parts
다음으로, Workspace Viewer 역할의 멤버인 사용자에게 테이블에 대한 DENY SELECT 권한을 부여하고, 동일한 사용자에게 프로시저에 대한 GRANT EXECUTE 권한을 부여합니다. @.com을 Workspace에 Viewer 권한을 가진 사용자의 사용자 이름으로 대체합니다.
DENY SELECT on dbo.Parts to [@.com];

GRANT EXECUTE on dbo.sp_PrintMessage to [@.com];


Microsoft Fabric에서 Eventstream을 사용하여 실시간 데이터 수집
Eventstream은 Microsoft Fabric의 기능으로, 실시간 이벤트를 캡처, 변환 및 다양한 대상으로 라우팅합니다. Eventstream에 이벤트 데이터 원본, 대상 및 변환을 추가할 수 있습니다.
Eventhouse 만들기
작업 영역에서 + 새 항목을 선택

Eventstream 만들기

샘플 데이터 사용

원본 추가

대상 추가

watermark delay: 데이터가 늦게 도착해도 윈도우(결과 집계)를 닫지 않고 얼마나 더 기다려줄 것인가
캡처된 데이터 쿼리

이벤트 데이터 변환



변환된 데이터 쿼리



Microsoft Fabric Eventhouse에서 데이터 작업
KQL을 사용하여 데이터 쿼리
// Use 'project' and 'take' to view a sample number of records in the table and check the data.
Bikestream
| project Street, No_Bikes
| take 10

Bikestream
| project Street, ["Number of Empty Docks"] = No_Empty_Docks
| take 10


Bikestream
| summarize ["Total Number of Bikes"] = sum(No_Bikes)

Bikestream
| summarize ["Total Number of Bikes"] = sum(No_Bikes) by Neighbourhood
| project Neighbourhood, ["Total Number of Bikes"]

Bikestream
| summarize ["Total Number of Bikes"] = sum(No_Bikes) by Neighbourhood
| project Neighbourhood = case(isempty(Neighbourhood) or isnull(Neighbourhood), "Unidentified", Neighbourhood), ["Total Number of Bikes"]

Bikestream
| summarize ["Total Number of Bikes"] = sum(No_Bikes) by Neighbourhood
| project Neighbourhood = case(isempty(Neighbourhood) or isnull(Neighbourhood), "Unidentified", Neighbourhood), ["Total Number of Bikes"]
| sort by Neighbourhood asc

Bikestream
| summarize ["Total Number of Bikes"] = sum(No_Bikes) by Neighbourhood
| project Neighbourhood = case(isempty(Neighbourhood) or isnull(Neighbourhood), "Unidentified", Neighbourhood), ["Total Number of Bikes"]
| order by Neighbourhood asc

Bikestream
| where Neighbourhood == "Chelsea"
| summarize ["Total Number of Bikes"] = sum(No_Bikes) by Neighbourhood
| project Neighbourhood = case(isempty(Neighbourhood) or isnull(Neighbourhood), "Unidentified", Neighbourhood), ["Total Number of Bikes"]
| sort by Neighbourhood asc




[MicrosoftDataSchool] 73일차 - Fabric에서 Apache Spark 사용하기, 델타 테이블 사용, 레이크하우스에서 메달리온 아키텍처 생성, Data Wrangler
Tue, 21 Apr 2026 08:41:01 GMT
Microsoft Fabric: Apache Spark 데이터 분석
이 가이드는 Fabric Lakehouse로 데이터를 수집하고, PySpark와 Spark SQL을 사용하여 데이터를 읽고, 분석하고, 시각화하는 전체 과정을 다룹니다.
1. 환경 설정 및 데이터 준비
작업 영역 및 Lakehouse 생성

작업 영역 만들기: Fabric 홈 페이지에서 Workspaces를 선택하고, Advanced 섹션에서 Fabric Capacity 라이선스 모드를 선택하여 새 작업 영역을 만듭니다.
Lakehouse 생성: Create 메뉴에서 Lakehouse를 선택하고 이름을 지정하여 생성합니다.
데이터 업로드:
orders.zip 파일을 다운로드하고 압축을 풉니다.
Lakehouse Explorer의 Files 폴더에서 Upload > Upload folder를 선택하여 orders 폴더(2019.csv, 2020.csv, 2021.csv 포함)를 업로드합니다.



Notebook 생성

Create 페이지에서 Notebook을 생성합니다.

2. 데이터 로드 및 스키마 정의
기본 데이터 로드 (CSV)
2019.csv 파일을 로드하는 가장 기본적인 코드입니다.
# 2019.csv 파일 로드 (헤더 포함)
df = spark.read.format("csv").option("header","true").load("Files/orders/2019.csv")
display(df)
스키마 정의 및 모든 파일 로드
데이터 형식을 명시적으로 지정하고, 와일드카드(*)를 사용하여 orders 폴더 내의 모든 CSV 파일을 로드합니다.
from pyspark.sql.types import *

# 스키마 정의
orderSchema = StructType([
    StructField("SalesOrderNumber", StringType()),
    StructField("SalesOrderLineNumber", IntegerType()),
    StructField("OrderDate", DateType()),
    StructField("CustomerName", StringType()),
    StructField("Email", StringType()),
    StructField("Item", StringType()),
    StructField("Quantity", IntegerType()),
    StructField("UnitPrice", FloatType()),
    StructField("Tax", FloatType())
])

# 모든 연도의 CSV 파일 로드
df = spark.read.format("csv").schema(orderSchema).load("Files/orders/*.csv")
display(df)
3. 데이터 탐색 및 집계
데이터 필터링
특정 열을 선택하거나 조건을 적용하여 데이터를 필터링합니다.
# 특정 제품을 구매한 고유 고객 리스트 추출
customers = df.select("CustomerName", "Email").where(df['Item']=='Road-250 Red, 52')
print(f"Total records: {customers.count()}")
print(f"Distinct customers: {customers.distinct().count()}")
display(customers.distinct())
데이터 집계 및 그룹화
제품별 수량 합계 및 연도별 주문 수를 계산합니다.
# 제품별 주문 수량 합계
productSales = df.select("Item", "Quantity").groupBy("Item").sum()
display(productSales)

# 연도별 판매 주문 수 계산
from pyspark.sql.functions import *
yearlySales = df.select(year(col("OrderDate")).alias("Year")).groupBy("Year").count().orderBy("Year")
display(yearlySales)
4. 데이터 변환 및 저장
데이터프레임 변환 (열 추가 및 재정렬)
연/월 추출, 이름 분리 등 복합적인 변환을 수행합니다.
from pyspark.sql.functions import *

# 연, 월 열 추가 및 FirstName, LastName 분리
transformed_df = df.withColumn("Year", year(col("OrderDate"))).withColumn("Month", month(col("OrderDate")))
transformed_df = transformed_df.withColumn("FirstName", split(col("CustomerName"), " ").getItem(0)).withColumn("LastName", split(col("CustomerName"), " ").getItem(1))

# 열 필터링 및 순서 재정렬
transformed_df = transformed_df["SalesOrderNumber", "SalesOrderLineNumber", "OrderDate", "Year", "Month", "FirstName", "LastName", "Email", "Item", "Quantity", "UnitPrice", "Tax"]

# 결과 확인
display(transformed_df.limit(5))

변환된 데이터 저장 (Parquet)
데이터를 Parquet 형식으로 저장하고 다시 로드합니다.
# Parquet 형식으로 저장
transformed_df.write.mode("overwrite").parquet('Files/transformed_data/orders')
print("Transformed data saved!")

# 저장된 Parquet 파일 로드
orders_df = spark.read.format("parquet").load("Files/transformed_data/orders")
display(orders_df)

데이터 분할(Partitioning) 저장
성능 향상을 위해 연도 및 월별로 데이터를 분할하여 저장합니다.
# Year 및 Month별로 분할 저장
orders_df.write.partitionBy("Year","Month").mode("overwrite").parquet("Files/partitioned_data")
print("Transformed data saved!")

# 특정 파티션(2021년 전체) 데이터만 로드
orders_2021_df = spark.read.format("parquet").load("Files/partitioned_data/Year=2021/Month=*")
display(orders_2021_df)

5. 테이블 및 SQL 작업
Delta 테이블 생성 및 쿼리
관계를 정의하고 SQL로 쿼리할 수 있도록 Delta 테이블로 저장합니다.
# Delta 테이블로 저장
df.write.format("delta").saveAsTable("salesorders")

# 테이블 정보 확인
spark.sql("DESCRIBE EXTENDED salesorders").show(truncate=False)
salesorders 테이블의 ..메뉴에서 Load data> Spakr를 선택하여 새 코드 셀 추가

# PySpark 내에서 SQL 쿼리 실행
df = spark.sql("SELECT * FROM day1_lakehouse2.salesorders LIMIT 1000")
display(df)

SQL 매직 커맨드 사용
셀 상단에 %%sql을 사용하여 직접 SQL 문을 실행합니다.
%%sql
SELECT YEAR(OrderDate) AS OrderYear, 
       SUM((UnitPrice * Quantity) + Tax) AS GrossRevenue
FROM salesorders
GROUP BY YEAR(OrderDate)
ORDER BY OrderYear;

6. 데이터 시각화
Spark로 데이터 시각화
%%sql
SELECT * FROM salesorders

Matplotlib를 사용한 시각화
Spark 데이터프레임을 Pandas로 변환하여 막대형 차트를 생성합니다.
import pandas as pd
from matplotlib import pyplot as plt

# SQL 쿼리 결과를 Spark DF로 가져오기
sqlQuery = "SELECT CAST(YEAR(OrderDate) AS CHAR(4)) AS OrderYear, \
            SUM((UnitPrice * Quantity) + Tax) AS GrossRevenue, \
            COUNT(DISTINCT SalesOrderNumber) AS YearlyCounts \
            FROM salesorders \
            GROUP BY CAST(YEAR(OrderDate) AS CHAR(4)) \
            ORDER BY OrderYear"
df_spark = spark.sql(sqlQuery)

# Matplotlib를 위해 Pandas DF로 변환
df_sales = df_spark.toPandas()

# 차트 사용자 지정 및 출력
plt.clf()
fig = plt.figure(figsize=(8,3))
plt.bar(x=df_sales['OrderYear'], height=df_sales['GrossRevenue'], color='orange')
plt.title('Revenue by Year')
plt.xlabel('Year')
plt.ylabel('Revenue')
plt.grid(color='#95a5a6', linestyle='--', linewidth=2, axis='y', alpha=0.7)
plt.xticks(rotation=45)
plt.show()

# 서브플롯 생성 (막대 차트 + 파이 차트)
plt.clf()
fig, ax = plt.subplots(1, 2, figsize = (10,4))
ax.bar(x=df_sales['OrderYear'], height=df_sales['GrossRevenue'], color='orange')
ax.set_title('Revenue by Year')
ax.pie(df_sales['YearlyCounts'])
ax.set_title('Orders per Year')
ax.legend(df_sales['OrderYear'])
fig.suptitle('Sales Data')
plt.show()

Seaborn을 사용한 시각화
더 간결한 코드로 세련된 테마의 차트를 생성합니다.
import seaborn as sns

# 막대 차트 (Whitegrid 테마)
plt.clf()
sns.set_theme(style="whitegrid")
ax = sns.barplot(x="OrderYear", y="GrossRevenue", data=df_sales)
plt.show()

# 선형 차트
plt.clf()
ax = sns.lineplot(x="OrderYear", y="GrossRevenue", data=df_sales)
plt.show()

7. 리소스 정리
실습이 종료되면 세션을 중단하고 작업 영역을 삭제합니다.

Notebook 상단에서 Stop session을 클릭합니다.
Workspace settings에서 Remove this workspace를 선택하여 삭제합니다.



스트리밍 데이터에 Delta Table 사용
Delta Lake는 스트리밍 데이터를 지원합니다. Delta Table은 Spark Structured Streaming API를 사용하여 생성된 데이터 스트림의 Sink 또는 Source가 될 수 있습니다. 이 예시에서는 시뮬레이션된 IoT(Internet of Things) 시나리오에서 일부 스트리밍 데이터의 Sink로 Delta Table을 사용합니다.
 from notebookutils import mssparkutils
 from pyspark.sql.types import *
 from pyspark.sql.functions import *

 # Create a folder
 inputPath = 'Files/data/'
 mssparkutils.fs.mkdirs(inputPath)

 # Create a stream that reads data from the folder, using a JSON schema
 jsonSchema = StructType([
 StructField("device", StringType(), False),
 StructField("status", StringType(), False)
 ])
 iotstream = spark.readStream.schema(jsonSchema).option("maxFilesPerTrigger", 1).json(inputPath)

 # Write some event data to the folder
 device_data = '''{"device":"Dev1","status":"ok"}
 {"device":"Dev1","status":"ok"}
 {"device":"Dev1","status":"ok"}
 {"device":"Dev2","status":"error"}
 {"device":"Dev1","status":"ok"}
 {"device":"Dev1","status":"error"}
 {"device":"Dev2","status":"ok"}
 {"device":"Dev2","status":"error"}
 {"device":"Dev1","status":"ok"}'''

 mssparkutils.fs.put(inputPath + "data.txt", device_data, True)

 print("Source stream created...")
방금 실행한 코드는 가상의 IoT 디바이스에서 읽은 데이터를 나타내는, 일부 데이터가 저장된 폴더를 기반으로 스트리밍 데이터 Source를 생성했습니다.
# Write the stream to a delta table
delta_stream_table_path = 'Tables/iotdevicedata'
checkpointpath = 'Files/delta/checkpoint'
deltastream = iotstream.writeStream.format("delta").option("checkpointLocation", checkpointpath).start(delta_stream_table_path)
print("Streaming to delta sink...")
이 코드는 스트리밍 디바이스 데이터를 Delta 형식으로 iotdevicedata라는 폴더에 씁니다. Tables 폴더에 있는 폴더 위치의 경로 때문에 해당 폴더에 Table이 자동으로 생성됩니다.
%%sql
SELECT * FROM IotDeviceData;
# Add more data to the source stream
more_data = '''{"device":"Dev1","status":"ok"}
{"device":"Dev1","status":"ok"}
{"device":"Dev1","status":"ok"}
{"device":"Dev1","status":"ok"}
{"device":"Dev1","status":"error"}
{"device":"Dev2","status":"error"}
{"device":"Dev1","status":"ok"}'''

mssparkutils.fs.put(inputPath + "more-data.txt", more_data, True)
%%sql
SELECT * FROM IotDeviceData;
deltastream.stop()

코드에서 Files/data 안에 있는 데이터들로 하도록 설정해서, 기존의 sales 데이터까지 읽어들여 NULL값이 입력되는 문제가 있었다. sales 데이터를 삭제하고 진행하면 정상적으로 진행된다.
또한 동일한 데이터(동일한 셀)을 넣는걸 반복하더라도 중복으로 적재되지 않는다.



PySpark 기반 메달리온 아키텍처 구축과 Data Wrangler를 활용한 효율적 데이터 전처리
Starter Pool
Fabric에서는 Live Pool(Warm) 방식으로 클러스터를 운영 → 대기 시간 없이 거의 바로 세션을 시작 가능

항상 켜져 있음
5~10초안에 세션 시작
대기 비용 X

OneLake & Notebook

Fabric Notebook에서는 Lakehouse Explorer(OneLake에 저장된 테이블 및 파일 탐색)가 내장
데이터 탐색을 위한 별도 탭 이동 없이 Notebook 내에서 데이터 탐색, 코드 작성, 시각화를 진행




구분
Azure Databricks
Microsoft Fabric



외부 데이터 접근 방식
mount 필요 (Storage 연결 설정)
바로 접근 가능 (Lakehouse 기반)


설정 과정
App Registration → RBAC 권한 → Key Vault → Secret Scope → mount 코드 작성
별도 설정 없음


보안 처리
Key Vault + Secret 관리 필요
플랫폼에서 자동 관리


사용 편의성
초기 설정 복잡, 매번 mount 필요
매우 간단 (즉시 사용)


코드 예시
dbutils.fs.mount(...) 설정 필요
spark.read.csv("Files/...") 바로 사용


플랫폼 특성
IaaS/PaaS 기반 구성형 환경
완전 관리형 SaaS 통합 플랫폼


Lakehouse 연동
직접 연결 및 설정 필요
기본 내장 및 긴밀한 통합


Spark on Databricks vs Spark on Fabric



비교 항목
Spark on Databricks
Spark on Fabric



클러스터 시작
Cold Start (3~5분 소요)
직접 생성 및 관리 필요
Live Start (5~10초 소요)
Starter Pool 자동 할당


저장소 연결
Mount 방식 (dbutils.fs.mount)
별도 권한 / Key Vault 설정 필수
Direct Access (Files/, Tables/)
OneLake 자동 통합, 설정 불필요


파일 최적화
Z-Order
사용자가 수동으로 실행 (OPTIMIZE)
V-Order Write 시 자동 적용 (기본값)


BI 연동
Power BI Import / DirectQuery
데이터 이동 또는 성능 제약 있음
Direct Lake
데이터 이동 없이 실시간급 조회


비용 모델
VM + DBU (이중 과금 구조)
복잡한 비용 예측
Capacity 단위 (통합 과금)
단일 Capacity로 모든 워크로드 사용








구분
Databricks
Microsoft Fabric



파일 경로
dbfs:/mnt/my_mount/data.csv
Files/data.csv (Relative)
Tables/my_table
abfss://... (Full Path)


파일 읽기
spark.read.csv("dbfs:/mnt/...")
spark.read.csv("Files/data/raw.csv")


테이블 저장
df.write.saveAsTable("hive_metastore...")
df.write.format("delta").save("Tables/sales")


파일 목록 조회
dbutils.fs.ls("/mnt/...")
mssparkutils.fs.ls("Files/...")


데이터 레이크
별도 구성 필요
OneLake 기본 통합


Delta Lake
필요 시 설치
기본 탑재 (설치 불필요)


Medallion Architecture



구분
Bronze Layer (Raw Zone)
Silver Layer (Trusted Zone)
Gold Layer (Curated Zone)



목표
원본 데이터 그대로 저장 (History 보존)
깨끗하고 신뢰할 수 있는 데이터 (분석 준비 완료)
비즈니스 리포팅 및 AI 모델링용 데이터


주요 작업
read (csv, json, parquet)
메타데이터 컬럼 추가 (ingestion_date, source_system)
NULL 처리 (dropna / fillna)
중복 제거 (dropDuplicates)
타입 변환 (cast)
스키마 강제
집계 (groupBy, sum, avg)
조인 (Fact + Dimension, Star Schema)
파생 변수 생성 (withColumn)


Data Quality Startegy

Level 3: Advanced Validation (고급)

What: 복잡한 비즈니스 규칙 검증
How: Great Expectations (GX) 라이브러리 활용 (Fabric Notebook에 설치 가능)
Note: Fabric은 Python 라이브러리를 자유롭게 지원하므로, 기존에 쓰던 GX 같은 도구를 그대로 사용 가능

Level 2: Constraint Checks (중급)

What: 값의 유효성 검사 (NULL 불가, 양수만 허용 등)
How: Delta Lake의 CHECK 제약 조건 사용
Code:ALTER TABLE sales ADD CONSTRAINT valid_amount
CHECK (amount > 0);

Level 1: Schema Enforcement (기본)

What: 데이터 타입과 컬럼명 강제
How: Delta Table의 Schema Enforcement 기능 활용
Code: df.write.option("mergeSchema", "false").save(...)
(스키마 변경 시 에러 발생시켜 보호)

Delta Lake in Fabric
Native Integration

Spark, SQL Engine, Power BI 모두 Delta Lake를 기본 포맷으로 인식
복잡한 변환 과정이 없음
Databricks에서는 Parquet도 써야 하는데, Fabric은 Delta만 쓰면 됨V-Order Optimization



Spark로 저장하는 순간 자동 최적화
열 순서 재정렬, 압축 레벨 조정
별도의 Z-Ordering 설정 불필요One Copy Principle

Power BI가 Direct Lake 방식으로 직접 읽음 (복제 없음)
Bronze/Silver/Gold 데이터를 바로BI에 연결 가능
저장 공간 절감 + 최신성 보장Data Wrangler
전처리 과정을 visualization해서 보여줌
예비 데이터 분석을 위한 몰입형 인터페이스를 제공하는 Notebook 기반 도구
격자 형태의 데이터 표시, 동적 요약 통계, 기본 제공 시각화 및 일반적인 데이터 정리 작업에 대한 라이브러리를 결합



실습: Microsoft Fabric 레이크하우스에 메달리온 아키텍처 구축하기
맞다. 전에 내가 페이지에 있는 코드 셀 전부를 다 안 넣었다.
이번엔 페이지 원문을 다시 확인해서, 실습 흐름에 나온 코드 셀들을 순서대로 빠짐없이 재구성해서 준다. 이 실습은 Silver용 Notebook, SQL 쿼리 2개, Gold용 Notebook으로 구성된다. ([YSSuperS2000][1])
아래 내용은 Velog에 올리기 좋게 정리한 완전판이다.

Microsoft Fabric Medallion Lakehouse 실습 정리
개요
이번 실습에서는 Microsoft Fabric Lakehouse에서 Bronze → Silver → Gold 구조의 메달리온 아키텍처를 구축한다.
실습 흐름은 다음과 같다.

Bronze 폴더에 원본 CSV 업로드
Notebook으로 Silver Delta 테이블 생성 및 적재
SQL endpoint로 Silver 데이터 탐색
Notebook으로 Gold 차원/팩트 테이블 생성
필요 시 Semantic Model 생성 ([YSSuperS2000][1])


1. Bronze Layer
Lakehouse의 Files/bronze/ 경로에 아래 3개 파일을 업로드한다. ([YSSuperS2000][1])

2019.csv
2020.csv
2021.csv


2. Silver Layer Notebook
2-1. 원본 CSV 로드 + 스키마 정의
from pyspark.sql.types import *

orderSchema = StructType([
    StructField("SalesOrderNumber", StringType()),
    StructField("SalesOrderLineNumber", IntegerType()),
    StructField("OrderDate", DateType()),
    StructField("CustomerName", StringType()),
    StructField("Email", StringType()),
    StructField("Item", StringType()),
    StructField("Quantity", IntegerType()),
    StructField("UnitPrice", FloatType()),
    StructField("Tax", FloatType())
])

df = spark.read.format("csv").option("header", "false").schema(orderSchema).load("Files/bronze/*.csv")

display(df.head(10))
2-2. 컬럼 추가 및 데이터 정제
원본 파일명, 플래그 여부, 생성/수정 시각을 추가하고, CustomerName이 비어 있거나 null이면 "Unknown"으로 치환한다. ([YSSuperS2000][1])
from pyspark.sql.functions import when, lit, col, current_timestamp, input_file_name

df = df.withColumn("FileName", input_file_name()) \
    .withColumn("IsFlagged", when(col("OrderDate") < '2019-08-01', True).otherwise(False)) \
    .withColumn("CreatedTS", current_timestamp()) \
    .withColumn("ModifiedTS", current_timestamp())

df = df.withColumn(
    "CustomerName",
    when((col("CustomerName").isNull() | (col("CustomerName") == "")), lit("Unknown"))
    .otherwise(col("CustomerName"))
)

2-3. sales.sales_silver 테이블 생성
실습 페이지에서는 Delta Lake 형식으로 Silver 테이블 스키마를 먼저 정의한다. 
만약 스키마를 사용하지 않는다고 lakehouse 생성 시 설정한 경우 sales.sales_silver 가 아닌, sales_silver로 테이블을 설정해서 dbo에 저장하면 된다.
from pyspark.sql.types import *
from delta.tables import *

DeltaTable.createIfNotExists(spark) \
    .tableName("sales.sales_silver") \
    .addColumn("SalesOrderNumber", StringType()) \
    .addColumn("SalesOrderLineNumber", IntegerType()) \
    .addColumn("OrderDate", DateType()) \
    .addColumn("CustomerName", StringType()) \
    .addColumn("Email", StringType()) \
    .addColumn("Item", StringType()) \
    .addColumn("Quantity", IntegerType()) \
    .addColumn("UnitPrice", FloatType()) \
    .addColumn("Tax", FloatType()) \
    .addColumn("FileName", StringType()) \
    .addColumn("IsFlagged", BooleanType()) \
    .addColumn("CreatedTS", DateType()) \
    .addColumn("ModifiedTS", DateType()) \
    .execute()
2-4. Silver 테이블 Upsert
SalesOrderNumber, OrderDate, CustomerName, Item 기준으로 merge를 수행하고, 일치하지 않으면 insert한다. 실습 페이지의 whenMatchedUpdate는 비어 있는 형태로 제시되어 있다. ([YSSuperS2000][1])
from delta.tables import *

deltaTable = DeltaTable.forPath(spark, 'Tables/sales_silver')

dfUpdates = df

deltaTable.alias('silver') \
  .merge(
    dfUpdates.alias('updates'),
    'silver.SalesOrderNumber = updates.SalesOrderNumber and silver.OrderDate = updates.OrderDate and silver.CustomerName = updates.CustomerName and silver.Item = updates.Item'
  ) \
  .whenMatchedUpdate(set=
    {
    }
  ) \
  .whenNotMatchedInsert(values=
    {
      "SalesOrderNumber": "updates.SalesOrderNumber",
      "SalesOrderLineNumber": "updates.SalesOrderLineNumber",
      "OrderDate": "updates.OrderDate",
      "CustomerName": "updates.CustomerName",
      "Email": "updates.Email",
      "Item": "updates.Item",
      "Quantity": "updates.Quantity",
      "UnitPrice": "updates.UnitPrice",
      "Tax": "updates.Tax",
      "FileName": "updates.FileName",
      "IsFlagged": "updates.IsFlagged",
      "CreatedTS": "updates.CreatedTS",
      "ModifiedTS": "updates.ModifiedTS"
    }
  ) \
  .execute()

3. SQL Endpoint에서 Silver 데이터 탐색

3-1. 연도별 총매출
SELECT YEAR(OrderDate) AS Year
, CAST (SUM(Quantity * (UnitPrice + Tax)) AS DECIMAL(12, 2)) AS TotalSales
FROM sales_silver
GROUP BY YEAR(OrderDate)
ORDER BY YEAR(OrderDate)
3-2. 구매 수량 상위 고객 10명
SELECT TOP 10 CustomerName, SUM(Quantity) AS TotalQuantity
FROM sales_silver
GROUP BY CustomerName
ORDER BY TotalQuantity DESC

4. Gold Layer Notebook
Notebook 이름: Transform data for Gold
이 Notebook에서는 sales_silver를 기반으로 날짜 차원, 고객 차원, 제품 차원, 판매 팩트 테이블을 만든다. ([YSSuperS2000][1])
4-1. Silver 데이터 로드
df = spark.read.table("Sales.sales_silver")

4-2. 날짜 차원 테이블 생성
4-2-1. sales.dimdate_gold 테이블 생성
from pyspark.sql.types import *
from delta.tables import *

DeltaTable.createIfNotExists(spark) \
    .tableName("sales.dimdate_gold") \
    .addColumn("OrderDate", DateType()) \
    .addColumn("Day", IntegerType()) \
    .addColumn("Month", IntegerType()) \
    .addColumn("Year", IntegerType()) \
    .addColumn("mmmyyyy", StringType()) \
    .addColumn("yyyymm", StringType()) \
    .execute()
4-2-2. 날짜 차원 DataFrame 생성
from pyspark.sql.functions import col, dayofmonth, month, year, date_format

dfdimDate_gold = df.dropDuplicates(["OrderDate"]).select(
        col("OrderDate"),
        dayofmonth("OrderDate").alias("Day"),
        month("OrderDate").alias("Month"),
        year("OrderDate").alias("Year"),
        date_format(col("OrderDate"), "MMM-yyyy").alias("mmmyyyy"),
        date_format(col("OrderDate"), "yyyyMM").alias("yyyymm"),
    ).orderBy("OrderDate")

display(dfdimDate_gold.head(10))
4-2-3. 날짜 차원 Upsert
from delta.tables import *

deltaTable = DeltaTable.forPath(spark, 'Tables/dimdate_gold')

dfUpdates = dfdimDate_gold

deltaTable.alias('gold') \
  .merge(
    dfUpdates.alias('updates'),
    'gold.OrderDate = updates.OrderDate'
  ) \
  .whenMatchedUpdate(set=
    {
    }
  ) \
  .whenNotMatchedInsert(values=
    {
      "OrderDate": "updates.OrderDate",
      "Day": "updates.Day",
      "Month": "updates.Month",
      "Year": "updates.Year",
      "mmmyyyy": "updates.mmmyyyy",
      "yyyymm": "updates.yyyymm"
    }
  ) \
  .execute()

4-3. 고객 차원 테이블 생성
4-3-1. sales.dimcustomer_gold 테이블 생성
from pyspark.sql.types import *
from delta.tables import *

DeltaTable.createIfNotExists(spark) \
    .tableName("sales.dimcustomer_gold") \
    .addColumn("CustomerName", StringType()) \
    .addColumn("Email", StringType()) \
    .addColumn("First", StringType()) \
    .addColumn("Last", StringType()) \
    .addColumn("CustomerID", LongType()) \
    .execute()
4-3-2. 고객 차원용 Silver DataFrame 생성
from pyspark.sql.functions import col, split

dfdimCustomer_silver = df.dropDuplicates(["CustomerName", "Email"]).select(
    col("CustomerName"),
    col("Email")
).withColumn(
    "First", split(col("CustomerName"), " ").getItem(0)
).withColumn(
    "Last", split(col("CustomerName"), " ").getItem(1)
)

display(dfdimCustomer_silver.head(10))
4-3-3. CustomerID 생성
기존 dimCustomer_gold와 비교해서 신규 고객만 남긴 뒤 monotonically_increasing_id()로 ID를 만든다. ([YSSuperS2000][1])
from pyspark.sql.functions import monotonically_increasing_id, col, when, coalesce, max, lit

dfdimCustomer_temp = spark.read.table("Sales.dimCustomer_gold")
MAXCustomerID = dfdimCustomer_temp.select(
    coalesce(max(col("CustomerID")), lit(0)).alias("MAXCustomerID")
).first()[0]

dfdimCustomer_gold = dfdimCustomer_silver.join(
    dfdimCustomer_temp,
    (dfdimCustomer_silver.CustomerName == dfdimCustomer_temp.CustomerName) &
    (dfdimCustomer_silver.Email == dfdimCustomer_temp.Email),
    "left_anti"
)

dfdimCustomer_gold = dfdimCustomer_gold.withColumn(
    "CustomerID",
    monotonically_increasing_id() + MAXCustomerID + 1
)

display(dfdimCustomer_gold.head(10))
4-3-4. 고객 차원 Upsert
from delta.tables import *

deltaTable = DeltaTable.forPath(spark, 'Tables/dimcustomer_gold')

dfUpdates = dfdimCustomer_gold

deltaTable.alias('gold') \
  .merge(
    dfUpdates.alias('updates'),
    'gold.CustomerName = updates.CustomerName AND gold.Email = updates.Email'
  ) \
  .whenMatchedUpdate(set=
    {
    }
  ) \
  .whenNotMatchedInsert(values=
    {
      "CustomerName": "updates.CustomerName",
      "Email": "updates.Email",
      "First": "updates.First",
      "Last": "updates.Last",
      "CustomerID": "updates.CustomerID"
    }
  ) \
  .execute()

4-4. 제품 차원 테이블 생성
4-4-1. sales.dimproduct_gold 테이블 생성
from pyspark.sql.types import *
from delta.tables import *

DeltaTable.createIfNotExists(spark) \
    .tableName("sales.dimproduct_gold") \
    .addColumn("ItemName", StringType()) \
    .addColumn("ItemID", LongType()) \
    .addColumn("ItemInfo", StringType()) \
    .execute()
4-4-2. 제품 차원용 Silver DataFrame 생성
Item 컬럼을 ItemName, ItemInfo로 분리한다. ([YSSuperS2000][1])
from pyspark.sql.functions import col, split, lit, when

dfdimProduct_silver = df.dropDuplicates(["Item"]).select(col("Item")) \
    .withColumn("ItemName", split(col("Item"), ", ").getItem(0)) \
    .withColumn(
        "ItemInfo",
        when(
            (split(col("Item"), ", ").getItem(1).isNull() |
             (split(col("Item"), ", ").getItem(1) == "")),
            lit("")
        ).otherwise(split(col("Item"), ", ").getItem(1))
    )

display(dfdimProduct_silver.head(10))
4-4-3. ItemID 생성
from pyspark.sql.functions import monotonically_increasing_id, col, lit, max, coalesce

dfdimProduct_temp = spark.read.table("Sales.dimProduct_gold")

MAXProductID = dfdimProduct_temp.select(
    coalesce(max(col("ItemID")), lit(0)).alias("MAXItemID")
).first()[0]

dfdimProduct_gold = dfdimProduct_silver.join(
    dfdimProduct_temp,
    (dfdimProduct_silver.ItemName == dfdimProduct_temp.ItemName) &
    (dfdimProduct_silver.ItemInfo == dfdimProduct_temp.ItemInfo),
    "left_anti"
)

dfdimProduct_gold = dfdimProduct_gold.withColumn(
    "ItemID",
    monotonically_increasing_id() + MAXProductID + 1
)

display(dfdimProduct_gold.head(10))
4-4-4. 제품 차원 Upsert
from delta.tables import *

deltaTable = DeltaTable.forPath(spark, 'Tables/dimproduct_gold')

dfUpdates = dfdimProduct_gold

deltaTable.alias('gold') \
  .merge(
    dfUpdates.alias('updates'),
    'gold.ItemName = updates.ItemName AND gold.ItemInfo = updates.ItemInfo'
  ) \
  .whenMatchedUpdate(set=
    {
    }
  ) \
  .whenNotMatchedInsert(values=
    {
      "ItemName": "updates.ItemName",
      "ItemInfo": "updates.ItemInfo",
      "ItemID": "updates.ItemID"
    }
  ) \
  .execute()

4-5. 판매 팩트 테이블 생성
4-5-1. sales.factsales_gold 테이블 생성
from pyspark.sql.types import *
from delta.tables import *

DeltaTable.createIfNotExists(spark) \
    .tableName("sales.factsales_gold") \
    .addColumn("CustomerID", LongType()) \
    .addColumn("ItemID", LongType()) \
    .addColumn("OrderDate", DateType()) \
    .addColumn("Quantity", IntegerType()) \
    .addColumn("UnitPrice", FloatType()) \
    .addColumn("Tax", FloatType()) \
    .execute()
4-5-2. 팩트 DataFrame 생성
고객 차원, 제품 차원과 조인해서 CustomerID, ItemID를 붙인다. ([YSSuperS2000][1])
from pyspark.sql.functions import col, split, lit, when

dfdimCustomer_temp = spark.read.table("Sales.dimCustomer_gold")
dfdimProduct_temp = spark.read.table("Sales.dimProduct_gold")

df = df.withColumn("ItemName", split(col("Item"), ", ").getItem(0)) \
    .withColumn(
        "ItemInfo",
        when(
            (split(col("Item"), ", ").getItem(1).isNull() |
             (split(col("Item"), ", ").getItem(1) == "")),
            lit("")
        ).otherwise(split(col("Item"), ", ").getItem(1))
    )

dffactSales_gold = df.alias("df1") \
    .join(
        dfdimCustomer_temp.alias("df2"),
        (df.CustomerName == dfdimCustomer_temp.CustomerName) &
        (df.Email == dfdimCustomer_temp.Email),
        "left"
    ) \
    .join(
        dfdimProduct_temp.alias("df3"),
        (df.ItemName == dfdimProduct_temp.ItemName) &
        (df.ItemInfo == dfdimProduct_temp.ItemInfo),
        "left"
    ) \
    .select(
        col("df2.CustomerID"),
        col("df3.ItemID"),
        col("df1.OrderDate"),
        col("df1.Quantity"),
        col("df1.UnitPrice"),
        col("df1.Tax")
    ) \
    .orderBy(col("df1.OrderDate"), col("df2.CustomerID"), col("df3.ItemID"))

display(dffactSales_gold.head(10))
4-5-3. 팩트 테이블 Upsert
from delta.tables import *

deltaTable = DeltaTable.forPath(spark, 'Tables/factsales_gold')

dfUpdates = dffactSales_gold

deltaTable.alias('gold') \
  .merge(
    dfUpdates.alias('updates'),
    'gold.OrderDate = updates.OrderDate AND gold.CustomerID = updates.CustomerID AND gold.ItemID = updates.ItemID'
  ) \
  .whenMatchedUpdate(set=
    {
    }
  ) \
  .whenNotMatchedInsert(values=
    {
      "CustomerID": "updates.CustomerID",
      "ItemID": "updates.ItemID",
      "OrderDate": "updates.OrderDate",
      "Quantity": "updates.Quantity",
      "UnitPrice": "updates.UnitPrice",
      "Tax": "updates.Tax"
    }
  ) \
  .execute()



Microsoft Fabric에서 Data Wrangler를 사용하여 데이터 전처리
Dataframe에 데이터 로드
# Azure storage access info for open dataset diabetes
blob_account_name = "azureopendatastorage"
blob_container_name = "ojsales-simulatedcontainer"
blob_relative_path = "oj_sales_data"
blob_sas_token = r"" # Blank since container is Anonymous access

# Set Spark config to access  blob storage
wasbs_path = f"wasbs://%s@%s.blob.core.windows.net/%s" % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set("fs.azure.sas.%s.%s.blob.core.windows.net" % (blob_container_name, blob_account_name), blob_sas_token)
print("Remote blob path: " + wasbs_path)

# Spark reads csv
df = spark.read.csv(wasbs_path, header=True)
import pandas as pd

df = df.toPandas()
df = df.sample(n=500, random_state=1)

df['WeekStarting'] = pd.to_datetime(df['WeekStarting'])
df['Quantity'] = df['Quantity'].astype('int')
df['Advert'] = df['Advert'].astype('int')
df['Price'] = df['Price'].astype('float')
df['Revenue'] = df['Revenue'].astype('float')

df = df.reset_index(drop=True)
df.head(4)

텍스트 데이터 형식 지정

1 Data Wrangler 대시보드에서 그리드의 Brand Feature를 선택합니다.

2 Operations 패널로 이동하여 찾기 및 바꾸기를 확장한 다음, 찾기 및 바꾸기를 선택합니다.
3 찾기 및 바꾸기 패널에서 다음 속성을 변경합니다.
이전 값: “.”
새 값: “” (공백 문자)
작업 결과가 디스플레이 그리드에 자동으로 미리 보기됩니다.

4 적용을 선택합니다.
5 Operations 패널로 돌아가서 형식을 확장합니다.
6 첫 글자 대문자로 변환을 선택합니다. 모든 단어 대문자로 변환 토글을 켜고, 적용을 선택합니다.

7 Notebook에 코드 추가를 선택합니다. 또한, 코드를 복사하여 변환된 데이터 세트를 CSV 파일로 저장할 수도 있습니다.
8 Data Wrangler에서 생성된 코드는 원래 dataframe을 덮어쓰지 않으므로, 10행과 11행을 df = clean_data(df) 코드로 바꿉니다. 최종 코드 블록은 다음과 같아야 합니다.
def clean_data(df):
    # Replace all instances of "." with " " in column: 'Brand'
    df['Brand'] = df['Brand'].str.replace(".", " ", case=False, regex=False)
    # Capitalize the first character in column: 'Brand'
    df['Brand'] = df['Brand'].str.title()
    return df

df = clean_data(df)
9 코드 셀을 실행하고 Brand 변수를 확인합니다.
df['Brand'].unique()
원-핫 인코딩 변환 적용
원-핫 인코딩: 범주형 데이터를 머신러닝 모델이 이해할 수 있도록, 고유한 값에 해당하는 위치에만 1을 부여하고 나머지는 0으로 채워 수치화하는 방식
1 상단 메뉴에서 df dataframe에 대해 Data Wrangler를 시작합니다.
2 그리드의 Brand Feature를 선택합니다.
3 Operations 패널에서 수식을 확장한 다음, 원-핫 인코딩을 선택합니다.

4 원-핫 인코딩 패널에서 적용을 선택합니다.

5 코드를 생성하지 않고 Data Wrangler를 종료합니다.
정렬 및 필터링 작업
1 df dataframe에 대해 Data Wrangler를 시작합니다.
2 Operations 패널로 돌아가서 정렬 및 필터링을 확장합니다.
3 필터를 선택합니다.

4 필터 패널에서 다음 조건을 추가합니다.
대상 열: Store
작업: 같음
값: 1227
동작: 일치하는 행 유지

5 적용을 선택하고 Data Wrangler 디스플레이 그리드의 변경 사항을 확인합니다.
6 Revenue Feature를 선택한 다음, 요약 사이드 패널의 세부 정보를 검토합니다.
7 Operations 패널로 돌아가서 정렬 및 필터링을 확장합니다.
8 값 정렬을 선택합니다.
9 값 정렬 패널에서 다음 속성을 선택합니다.
열 이름: Price
정렬 순서: 내림차순

10 적용을 선택합니다.



[MicrosoftDataSchool] 72일차 - Fabric 시작하기
Mon, 20 Apr 2026 08:37:13 GMT
Fabric 시작하기
Databricks와 같은 서비스를 포함하는 더 큰 서비스
실습 준비
평가판 활성화

작업 영역 생성
패브릭 평가판을 선택한다.



OneLake 기반의 데이터 수집, 정제 파이프라인과 웨어하우스 분석 기초
Fabric의 필요성


도구의 파편화에서 비용 추적이 어려우며, 관리 복잡도가 증가함
데이터 사일로 현상 발생(팀 간 데이터 공유 어려움)
각 플랫폼별 학습곡선 존재
→ 통합 솔루션의 등장 필요

Azure Service Fabric
마이크로서비스와 컨테이너를 패키징, 배포, 관리하는 분산 시스템 플랫폼
Fabric에 속한 서비스



Experience
담당자
핵심기능



Data Factory
데이터 엔지니어
데이터 수집, Mirroring (Zero-ETL), Shortcuts(연결)


Data Engineering
데이터 엔지니어
Spark 기반 변환, Lakehouse 구조, Medallion Architecture


Data Science
데이터 과학자
ML 모델 개발, MLflow 통합


Data Warehousing
데이터 분석가
T-SQL 분석, DirectLake(실시간), 엔터프라이즈 DW


Real-Time Intelligence
실시간 분석가
KQL 스트림 분석, Data Activator (알림)


Power BI
BI 개발자
시각화 & 대시보드


OneLake의 계층 구조
Tenant → Domain → Workspace → Item
Lakehouse vs Warehouse
Fabric 은 둘 다 지원



구분
Data Warehouse
Lakehouse



데이터 형태
정형 데이터만 (정제된 형식)
모든 형식 (정형 + 반정형 + 비정형)


스키마
엄격함 (Schema-on-Write, Star Schema)
유연함 (Schema-on-Read)


데이터 흐름
Lakehouse → 변환 → 저장
수집 → 저장 (원본 그대로)


계층 구조
Gold (최종, 분석용)
Bronze(원본) → Silver(정제) → Gold


주요 사용자
비즈니스 분석가 (BI 팀)
데이터 엔지니어


처리 방식
ETL 중심
ELT 및 스트리밍 포함


활용 영역
BI, 리포트 중심
BI + 데이터 사이언스 + ML + 실시간 분석


Microsoft Fabric 의사 결정 가이드

데이터 이동을 위한 전략적 선택 가이드
Fabric에서는 가능한 Shortcut이나 Mirroring을 쓰고, 어쩔 수 없을 때만 Copy하도록 권장



비교 항목
1. Mirroring
2. Copy Data Pipeline
3. Shortcut



별명
거울 (실시간)
트럭 (배치)
지름길 (연결)


데이터 이동
자동 복제 (Zero-ETL)
물리적 복사
이동 없음


복잡도
매우 쉬움
중간 (설정 필요)
매우 쉬움


비용
무료 (컴퓨팅만)
유료 (처리량 비례)
무료


대상
Azure SQL, Snowflake
On-prem DB, File
S3, ADLS Gen2


Shortcut의 동작방식

Spark나 SQL은 OneLake를 바라보지만 실제 I/O는 원본 스토리지에서 직접 발생
Egress비용(Cloud 간 이동)은 발생할 수 있지만 Fabric 내부 저장 비용은 0원


실습
Lakehouse 생성 및 파일 업로드

https://microsoftlearning.github.io/mslearn-fabric/Instructions/Labs/01-lakehouse.html


Fabric의 저장소인 OneLake와 Lakehouse를 직접 만들어보기

생성
좌상단 +새항목 버튼 클릭


레이크하우스 스키마: 스키마 별로 저장 가능. X시 기본 데이터테이블에 저장

파일 업로드
데이터 가져오기 - 파일 업로드

테이블에 로드

새 테이블 만들기를 시도했으나, 과정의 이전 기수들의 리소스 해제가 안되어있어 Too many Requests 오류가 발생했다.

삭제해주신 후 정상 진행이 되었다.
무료 평가판에서는 테넌트 내의 50명이 정원인 듯 했다.
쿼리 전송

SQL 분석 엔드포인트로 이동

새 SQL 쿼리 선택

Visual Query

테이블을 드래그 앤 드랍해서 시작

SQL 보기 선택으로 SQL 코드 확인 가능

뷰로 저장도 가능

파이프라인으로 데이터 가져오기(HTTP)
https://microsoftlearning.github.io/mslearn-fabric/Instructions/Labs/04-ingest-pipeline.html
파이프라인 생성
작업영역-좌상단 새항목-파이프라인 선택

데이터 복사 도우미 선택

기존 레이크하우스 선택

연결에 파이프라인을 추가해야하는데, 안 뜨는 현상이 발생했다.
그래서 일단 작업영역으로 나와 직접 1회 파이프라인을 실행했다.

이렇게 하면 복사작업 권한이 생긴다..고했으나 생기지 않았다.
우상단 점 3개 - 설정 - 연결 및 게이트웨이 관리

안뜬다면 자격증명을 새로 만들어야 한다.

좌상단 신규 후 클라우드 선택

추가하면 이제 표시된다.

노트북 생성


여기서도 표준 세션을 할당할 때 403 에러가 발생했다. 다른 분이 세션을 끊어주셔야만 쓸 수 있었다. 문제가 많다.

또한 세션을 받더라도, Storage Blob Data Contributor 권한이 없어 에러가 발생했다.

작업 영역 설정에서 

작업 영역 유형 설정이 가능하다.
여기서 원격 컴퓨팅 리소스를 설정할 수 있다.
일단은 강의에선 5개의 컴퓨팅 리소스로 사람들을 분할하여 해결하고자 했다.
그럼에도 400 에러가 발생했다.

알고보니 내가 데이터 항목을 추가하지 않아서였다.
이후에도 강사님께서 추가 컴퓨팅 리소스를 마련해주심에도 세션이 시작되지 않아 노트북을 아예 새로 생성했더니 세션 설정이 되었다.
미묘하게 처리 확인이 힘든 에러가 많은듯하다.

참고로 변수처럼 테이블 이름을 바꿀 수 있게 하기 위해서는 toggle parameter cell 을 선택해줘야 한다.

파이프라인에 노트북 추가

우상단 노트북 선택으로 추가

이후 기본 매개변수 추가

데이터 삭제를 추가하여 기존에 만들어둔 csv를 삭제한다.



기존의 sales2가 아닌, new_sales2로 테이블이 생성됨을 확인 가능하다



데이터 웨어하우스에서 데이터 분석
https://microsoftlearning.github.io/mslearn-fabric/Instructions/Labs/06-data-warehouse.html

이후 https://raw.githubusercontent.com/MicrosoftLearning/dp-data/main/create-dw.txt 의 쿼리로 데이터 생성

DimCustomer
DimDate
DimProduct
FactSalesOrder

쿼리

뷰 생성

Visual Query



Fabric에서 Apache Spark를 사용하여 데이터 분석
https://microsoftlearning.github.io/mslearn-fabric/Instructions/Labs/02-analyze-spark.html
데이터 읽어오기

와일드카드를 이용하여 전체 데이터를 가져올 수 있다.

DataFrame에서 데이터 탐색


DataFrame에서 데이터 집계 및 그룹화




[MicrosoftDataschool] 71일차 - 오늘의밥..
Fri, 17 Apr 2026 08:17:41 GMT

그럭저럭 맛있었다
저번보다는 반찬이 호불호 없는편



[MicrosoftDataSchool] 61~71일차 - 2차 팀 프로젝트 : Azure Databricks를 활용한 소스코드 취약점 자동탐지 및 분석 솔루션
Fri, 17 Apr 2026 08:04:20 GMT


Github 링크

CWE 공식 문서에 기반한 js 코드 취약점 탐지 VS Extension
1. 제안 배경

LLM 및 Vibe Coding을 활용한 코드 단위 개발자 계층의 증대로 공격 벡터(Attack Vector) 증가
개발 단계에서 발견되지 않은 취약점은 테스트 및 배포과정에서 더 큰 수정 비용과 운영 리스크로 직결
보안 지식이 부족한 전공자 혹은 비전공자 개발자를 위한 저비용 소스코드 취약점 분석 지침 가이드 필요
시중 상용 취약점 탐지 및 보수 솔루션의 한계
개발자가 코딩 작업 중 즉시 활용 가능해야 함
탐지 자체가 아닌 유지 보수에 도움이 되는 설명 필요
공식 보안 기준에 따른 취약점 정보에 대한 설명 필요



본 프로젝트의 제안 방향

Hallucination 방지를 위한 비생성형 AI 기반 취약점 탐지와 RAG+LLM 기술을 활용한 설명 기능의 결합
AI 모델 신뢰성 확보를 위한 모델 의사결정 투명성 확보
Azure Cloud Resource 기반으로 확장성 및 범용성 확보

2. 추진 필요성

취약점 발견 시점이 늦어짐에 따라 수정 범위 및 비용 증가로 인한 조기 발견 필요
보안 내재화(Security By Design): 보안의 사후 대응이 아닌 소프트웨어 설계 단계에서의 보안 고려
소프트웨어 개발자 중심의 보안 내재화 필요


설명 가능한 분석 체계
단순 “취약점 탐지”에 그치지 않는 “모델의 의사결정 투명성”을 보장하는 XAI 기술 도입
실제 현장에서 필요한 정보는 “취약점이 있음”이 아닌 “코드의 어떤 부분이 취약점인지”가 필요
또한, 취약점 분석 시 Exploit 위험도 우선순위에 따른 수정 절차 필요



3. 제안 개요
(1) 목적

소스코드 내 보안 취약점을 자동으로 탐지
해당 소스코드에서 발견된 취약점에 대한 MITRE 공식 문서 기반의 설명 제공

(2) 구성

1단계: 비생성형 ML 모델을 활용한 취약점 탐지
2단계: 발견된 취약점 설명 및 대응 가이드
3단계: 개발 환경 연계 (VSCode Extension)

4. 기대 효과
(1) 보안 리스크 사전 예방

개발 초기 단계에서 취약점 식별 가능
CI/CD 절차의 이전 단계에서 발생할 수 있는 보안 대책 강구 가능
조직 차원의 리스크 관리 강화 효과 기대

(2) 수정 비용 절감

취약점의 조기 발견을 통한 분석·수정·재검증 비용의 절감 가능
보안에 대한 사전 지식이 부족한 사람에게도 공식 문서 기반의 취약점 정보를 제공해 탐색 시간 단축

(3) 개발 생산성 증대

현재 개발 중인 코드에 적합한 CVE, CWE에 대한 자료를 탐색하지 않아도 취약점에 대한 지표 제공
코드 리뷰 및 보안 검토 효율 향상
반복 발생 취약점에 대한 대응 표준화 가능

(4) 보안 내재화를 통한 시스템 안전성 향상

시스템의 보안 수준을 특정 인력에게 편중시키지 않도록 유도
개발 조직 전체의 보안 인식 제고
장기적인 시스템 보안 유지 기반 마련

5. 차별성 및 도입 타당성
(1) 시장 조사

(2) 차별점

XAI 기반 탐지 근거 시각화
Azure-based End to End Framework
공식 취약점 문서 기반 RAG 시스템 구축
경량 모델 + 실시간 IDE UX를 통한 개발 도중 즉시 피드백 가능
사용자 피드백 반영을 통한 데이터 재학습 및 정책 최적화까지 확장할 수 있음

6. 리스크 및 대응 방향
(1) 예상 리스크

초기 단계에서 모든 언어 및 모든 취약점 유형을 포괄하기 어려움
데이터셋의 범위와 분포의 한계 존재
탐지 모델과 설명 모델의 적용 범위 차이 존재

(2) 대응 방향

초기는 Vibe Coding에서 특히 많이 사용되는 언어(JavaScript)와 우선순위 높은 취약점으로 한정
취약점 범위 : https://owasp.org/Top10/2025/A01_2025-Broken_Access_Control/
한정된 범위 내의 적정선의 성능 확보 후 점진적으로 확대
생성형 AI 단독 판단이 아닌 공식 문서 기반 결합으로 생성형 기반 타 솔루션과 다른 신뢰도 보완
최종 판단은 개발자 및 보안 담당자 검토로 진행 (보조 기구로서의 의의)
사용자 피드백 및 최신 취약점 문서 반영을 통한 지속적인 개선

기본 관점

본 솔루션은 완전 자동화 및 판단 도구가 아님
개발자와 보안 담당자의 판단을 빠르고 일관되게 지원하는 보조 지표로서의 의의를 가짐

8. 차후 발전 방향

취약점 탐지 모델 정확도 향상
취약점 탐지 모델의 Handling Scope 확장
다언어 지원
학습 데이터베이스 수집 및 구축을 통한 최신 취약점 반영


RAG를 활용한 LLM Hallucination 최소화 및 취약점 데이터베이스 기반 수정 방안 제안 기능 추가
서비스 별 반복 발생 취약점 분석 대시보드 제공
최신 OWASP 상위 10개의 취약점에 기반한 우선순위 자동 정렬화

9. 결론

개발 과정에서 보안리스크를 조기에 식별 가능
장기적인 보안 사고 대응 역량 강화를 위해 필요한 보안 지원 도구 및 체계의 구축
핵심 구성
경량화된 비생성형 AI 모델을 활용한 취약점 탐지
설명 가능한 인공지능(XAI) 기술 도입을 통한 모델 투명성 확보
공식 취약점 문서 기반 분석 체계 수립
사용률이 높은 IDE인 VSCode Extension을 통한 UX


기대 효과
시스템 보안 내재화
개발 생산성 향상
운영 리스크 감소


종합
개발 보안 수준 향상, 업무 효율 개선을 동시에 기대할 수 있는 전략적 솔루션





시스템 아키텍처



시연 영상
시연 영상


트러블슈팅
Azure Function 시작 실패 (ModuleNotFoundError: requests) (2026-04-06)
Problem: 배포 후 Function Host 기동 실패
Cause: FlexConsumption 배포 경로에서 remote build 미적용으로 런타임 의존성 미설치
Solution: GitHub Actions에 enable-oryx-build=true, remote-build=true 적용 + runtime/databricks 의존성 분리
Databricks run-now 400 실패 (2026-04-06)
Problem: Function에서 Databricks job 제출 자체 실패
Cause: Job이 job_parameters 계약인데 코드가 notebook_params 사용
Solution: 호출 payload를 job_parameters로 전환
Databricks 태스크 실패 (source_xml_path is required) (2026-04-06~07)
Problem: Function 응답은 성공인데 Databricks task는 내부 실패
Cause: Notebook widget/파라미터 바인딩 누락, base_parameters 미정의
Solution: notebook wrapper에서 파라미터 바인딩 고정 + 전달 경로 정규화
SAS URL 읽기 실패 (binaryFile 진입 오류) (2026-04-07)
Problem: HTTP(S) SAS URL인데 Spark binaryFile 경로로 처리되어 AnalysisException
Cause: 경로 문자열 공백/quote 등으로 분기 미스
Solution: source_xml_path 정규화 + URL scheme 판별 강화 + HTTP(S)는 직접 읽기 강제
Delta 적재 0건/간헐 실패 (2026-04-07~08)
Problem: 실행 완료처럼 보이나 테이블 row count가 0 또는 No module named 'azure' 재발
Cause: XML namespace 미처리 + package import side-effect가 azure SDK 의존성 유입
Solution: parser namespace 처리/빈 결과 가드 추가 + service/shared lazy import 구조로 전환
UC/External Location 생성 불가 (2026-04-06)
Problem: Catalog에서 External data 메뉴 미노출 및 External Location 생성 실패
Cause: Account 권한·metastore 할당·HNS·CREATE EXTERNAL LOCATION 권한 부족
Solution: HNS 활성 스토리지로 전환 + Access Connector/Metastore 권한 보강
GCS→ADF 파라미터 공백으로 파이프라인 오동작 (2026-04-09)
Problem: bucket_name/object_path가 빈 값으로 전달되어 If Condition/경로 처리 실패
Cause: Form 전송(application/x-www-form-urlencoded) 또는 {"parameters":{...}} 중첩 payload 사용
Solution: application/json + 최상위 키(bucket_name, object_path, object_generation)로 고정
Eventarc/Cloud Function 배포 권한 오류 (2026-04-09)
Problem: Eventarc 관련 permission denied, SA not found로 배포 차단
Cause: 이벤트 수신/Invoker/PubSub 퍼블리셔 권한 및 트리거 SA 설정 불일치
Solution: 역할 재부여 + 전용 SA 재지정 + 버킷 리전 맞춘 재배포
Databricks PATH_NOT_FOUND (파일명/경로 변환 이슈) (2026-04-09)
Problem: ADLS 저장 경로와 notebook 읽기 경로 불일치
Cause: ADF Dataset/Copy에서 디렉토리·파일명 매핑 분리 미흡
Solution: p_dir/p_file 분리 매핑으로 raw/<원본디렉토리>/<원본파일명> 규칙 고정
ML 대시보드 NULL/이상치 문제 (2026-04-14)
Problem: training_data_count, f1/r2/rmse 등 지표가 NULL 또는 비정상값
Cause: metric key 매핑 협소, source 탐색 제한, Best Run/Trend 집계식 취약
Solution: params/tags/run_metrics_history fallback 확장 + key 탐지 규칙 강화 + Best Run 정렬식(R2 DESC, RMSE ASC) 보정
운영 장애 감지 공백 (2026-04-13)
Problem: 실패 발생 시 통합 알림 체계 부재
Cause: 플랫폼별 실패 이벤트가 분산되어 즉시 감지 어려움
Solution: Logic App Webhook 기반 공통 알림 훅 표준화 + 테스트 추가 + GCP/ADF/Databricks 운영 가이드 정리


내가 담당한 부분

Azure Databricks Account 관리 및 대시보드 구현
Azure Factory 구성, GCP Bucket, Cloud Function 생성 및 연결
Azure Function-Blob(ADLS)-AAC-ADB 데이터 파이프라인 구현
Logic App으로 데이터 파이프라인 실패 시 이메일 알림기능 구현

추가로 배운 부분(Azure 비용적 관점)

databricks 컴퓨팅 생성하면 azure 파생 그룹이 발생 → 클라우드 관리자에게 요청하여 해당 그룹으로 포함 요청하여 가시성을 얻어야 토탈 요금 확인 가능(기존 리소스그룹 요금 + databricks전용 리소스그룹 요금)
작업 시작 전 항상 git pull --rebase origin main, 푸시 직전 다시 git fetch 후 필요 시 git pull --rebase origin main, main에서는 merge commit 안 만들고 rebase/fast-forward만 사용하여 브랜치 히스토리를 깔끔하게




[MicrosoftDataSchool] 60일차 - AzureDataFactory 필터, Until, Join
Wed, 01 Apr 2026 03:42:21 GMT
[Azure Data Factory] 필터 활동 (Filter Activity)
1. 개요
필터 활동은 필터 변환과 달리, 파이프라인 내에서 배열(Array) 데이터(예: Lookup, Get Metadata, Web Activity 등에서 반환된 값)를 조건에 따라 필터링하는 활동(Activity)입니다.

사용 위치: 파이프라인(컨트롤 플로우)에 배치하여 실행
적용 대상: 일반적으로 JSON 배열, 객체 배열 등 구조화된 리스트 데이터
주요 예시:
Get Metadata로 파일 목록을 받아온 후, 특정 확장자만 필터링
Lookup으로 여러 레코드의 배열을 가져온 후, 특정 조건에 맞는 레코드만 추출



필터 활동 vs 필터 변환 비교



구분
필터 활동
필터 변환



적용 위치
파이프라인(Activity)
매핑 데이터 플로우(Transformation)


적용 대상
배열 데이터(Array, JSON 등)
테이블 데이터(행/컬럼 기반)


조건 작성 방식
파이프라인 식(표현식)
데이터 플로우 내 식(식 편집기)


용도
리스트, 메타데이터 등 구조화된 배열
레코드(행) 기반 데이터 처리


주요 사용 예시
파일/테이블/객체 리스트 조건 분기
데이터 필터링(컬럼 조건에 따라 행 추출)



2. 실습 준비

2-1. 입력 컨테이너 및 파일 준비

Storage Account: a000storagedemo
Container: baseball-hitter
준비 파일 목록:
2000_2001_hitter.csv
2000_2001_hitter.xlsx
2002_2013_hitter.csv
2002_2013_hitter.xlsx
2014_hitter.csv
2014_hitter.xlsx



2-2. 링크드 서비스 확인

이름: BlobStorage1
형식: Azure Blob Storage
통합 런타임: AutoResolveIntegrationRuntime


3. 메인 파이프라인 구성 (FilterCsvFiles_PL)
3-1. Get Metadata 활동 (Get Metadata - List Files)

데이터 세트: baseballinput_DS (baseball-hitter 컨테이너 연결)
필드 목록:
exists
childItems


실행 결과(출력 예시):{
    "exists": true,
    "itemName": "baseball-hitter",
    "itemType": "Folder",
    "childItems": [
        { "name": "2000_2001_hitter.csv", "type": "File" },
        { "name": "2000_2001_hitter.xlsx", "type": "File" },
        ...
    ]
}


3-2. If Condition 활동 (If Exist)

식(Expression):@activity('Get Metadata - List Files').output.exists
True 작업: 내부에 필터 및 후속 활동 배치

[중요] 설계 변경 사유

제약 사항: 중첩된 ForEach 작업은 지원되지 않으며, ForEach 작업을 If Condition activity 범위 내에서 사용할 수 없습니다.
해결 방법: If Condition 내에서 Execute Pipeline 활동을 사용하여 자식 파이프라인을 호출하는 방식으로 구성합니다.


4. 자식 파이프라인 구성 (FilterForEachCopy_PL)

4-1. 매개변수 설정

이름: fileListToProcess
형식: Array

4-2. 필터 활동 (Filter CSV)

항목(Items):@pipeline().parameters.fileListToProcess
조건(Condition):@and(
    equals(item().type, 'File'),
    endswith(item().name, '.csv')
)

4-3. ForEach 활동 (ForEach Files)

항목(Items):@activity('Filter CSV').output.value


4-4. 복사 활동 (Copy Files)

원본 데이터 세트: baseballCopyInput_DS
매개변수 fileName 사용: @dataset().fileName
값 매핑: @item().name


싱크 데이터 세트: baseballCopyOutput_DS
경로: baseball-hitter/csv
매개변수 fileName 사용: @dataset().fileName
값 매핑: @item().name




5. 메인 파이프라인 수정 및 실행,
5-1. Execute Pipeline 활동 추가

If Condition의 True 섹션에 Execute Pipeline 활동을 추가합니다.
호출된 파이프라인: FilterForEachCopy_PL
매개변수(fileListToProcess) 전달:@activity('Get Metadata - List Files').output.childItems

5-2. 실행 결과 확인

Get Metadata: 성공 (6개 항목 조회)
If Exist: 성공 (True 분기)
Execute Pipeline: 성공 (자식 파이프라인 호출)
입력 데이터 확인: .csv와 .xlsx 파일이 모두 포함된 배열 전달


자식 파이프라인 내 Filter: 성공 (6개 중 .csv 파일 3개만 필터링)

5-3. 최종 스토리지 확인,

baseball-hitter/csv 폴더 내에 필터링된 파일들이 정상 복사되었는지 확인합니다:
2000_2001_hitter.csv
2002_2013_hitter.csv
2014_hitter.csv




마무리: Filter 활동을 통해 파이프라인 흐름 제어 단계에서 배열 데이터를 정교하게 제어할 수 있으며, If Condition과 결합 시 자식 파이프라인 호출 방식을 활용해야 함을 유의하시기 바랍니다.


[Azure Data Factory] 파생열 및 조건부 분할 변환 (Derived Column & Conditional Split)
1. 개요
파생열 변환 (Derived Column Transformation)
파생열 변환은 기존 데이터 컬럼을 가공하거나 새로운 컬럼을 추가할 때 사용하는 변환 단계입니다. 입력된 데이터의 컬럼 값을 수식/표현식으로 가공하여 파생 컬럼을 생성하거나 기존 컬럼 값을 대체할 수 있습니다.

구성 요소:
파생 컬럼(Derived Column): 새로운 컬럼 추가 또는 기존 컬럼 값 대체
표현식(Expression): 문자열, 수치, 날짜, 논리 연산 등 다양한 함수/연산자 지원
미리보기(Data Preview): 변환 결과를 즉시 확인할 수 있는 기능


장점:
기존 문자열 컬럼에서 특정 패턴 추출하여 파생 정보 제공
데이터 전처리 및 가공의 자동화
별도의 데이터 소스 수정 없이 컬럼 가공 가능
다양한 비즈니스 로직 반영 가능


사용 시나리오:
성적 데이터에서 점수에 따라 "합격/불합격" 여부 컬럼 추가
주문 데이터에서 단가 × 수량으로 총액(Total) 컬럼 추가
날짜 데이터를 가공하여 연도, 월 등 새로운 컬럼 추출



조건부 분할 변환 (Conditional Split Transformation)
조건부 분할 변환은 입력 데이터 행(Row)을 지정한 조건(수식/표현식)에 따라 여러 그룹(분기)으로 나누어 주는 변환 단계입니다.

구성 요소:
분기 조건(Condition): 분리 기준이 되는 조건을 작성하며, 하나의 데이터 행에 대해 첫 번째로 참이 되는 조건에 따라 분기함
기본 분기(Default Output): 모든 조건을 만족하지 않을 때 데이터를 분리할 기본 분기 지정
미리보기(Data Preview): 분할 결과를 즉시 확인할 수 있는 기능


장점:
조건별로 데이터 흐름을 분리하여 후처리 용이
복잡한 분기 로직을 시각적으로 설계 가능
다양한 조건별 분석 및 후속 처리 지원


사용 시나리오:
점수 90점 이상/80점 이상/기타 등급별로 데이터 분할
주문 상태(배송완료/배송중/취소 등)에 따라 데이터 분할
거래 금액이 임계값 이상/미만인 고객 분리




2. 실습 준비
2-1. 실습 데이터 (employee.csv)
ID, Name, Salary, Address, Location, Email
1, 김철수, 2750000, 서울 강남구, Korea, chulsu.kim@example1.com
2, 이영희,, Irvine CA, US, younghee.lee@example3.com
3, 박민준, 3820000, 인천 연수구, Korea, minjun.park@example1.com
4, 최지영, 4500000, 부산 해운대구, Korea, jiyoung.choi@example2.com
5, 정윤화, 2810000, 대구 수성구, Korea, yoonhwa.chung@example2.com
6, 강서준, 3540000,, China, seojun.kang@example2.com
7, 윤아영,, 제주 제주시, Korea, ayoung.yoon@example3.com
2-2. 컨테이너 및 데이터 세트 준비

Storage: a000storagedemo2 내 employee 컨테이너 생성 및 employee.csv 업로드.
데이터 흐름 디버그 켜기: Small 컴퓨팅, 1시간 TTL 설정.
소스 데이터 세트 (sourceCsv_DS): employee.csv 연결, 첫 번째 행을 머리글로 설정.


3. [실습 1] 데이터 정제 및 파생열 생성
3-1. 주소 누락값 처리 (missingValueAddress)

열: Address
식:iif(isNull(Address), 'unknown', Address)

3-2. 급여 누락값 처리 (missingValueSalary)

열: Salary
식:iif(isNull(Salary), '2500000', Salary)

3-3. 국가 컬럼 대문자 변환 (upperLocationToCountry)

열: Country (새로 만들기)
식:upper(Location)

3-4. 싱크 설정 및 파이프라인 실행

싱크(sink1): employee_processed.csv로 단일 파일 출력.
파이프라인: employee1_PL 생성 후 데이터 흐름 실행.
결과: employee_processed.csv 생성 완료.


4. [실습 2] 복합 파생열 및 조건부 분할 (Advanced)
기존 파이프라인에 추가 실습 구성을 연결합니다.
4-1. 급여 등급 컬럼 생성 (addSalaryGrade)

열: SalaryGrade
식:iif(toInteger(Salary) <= 3000000, 'Low',
iif(toInteger(Salary) <= 4000000, 'Mid', 'High'))

4-2. 이메일 도메인 추출 (addEmailDomain)

열: EmailDomain
식:split(Email,'@')

4-3. 조건부 분할 (SplitByLocation)

스트림 1 (headquarters):
조건: Location == 'Korea'


스트림 2 (Branch):
조건: (기본 분기 - 조건을 충족하지 않는 행)



4-4. 다중 싱크 설정

본사 싱크 (headquaterSink):
파일 이름: headquarters-employee.csv
내용: 한국(Korea) 근무자 데이터 5건.


지사 싱크 (branchSink):
파일 이름: branch-employee.csv
내용: 해외(US, China) 근무자 데이터 2건.




5. 최종 결과 확인
headquarters-employee.csv 예시:
ID, Name, Salary, Address, Location, Email, Country, SalaryGrade, EmailDomain
1, 김철수, 2750000, 서울 강남구, Korea, chulsu.kim@example1.com, KOREA, Low, example1.com
3, 박민준, 3820000, 인천 연수구, Korea, minjun.park@example1.com, KOREA, Mid, example1.com
4, 최지영, 4500000, 부산 해운대구, Korea, jiyoung.choi@example2.com, KOREA, High, example2.com
...
branch-employee.csv 예시:
ID, Name, Salary, Address, Location, Email, Country, SalaryGrade, EmailDomain
2, 이영희, 2500000, Irvine CA, US, younghee.lee@example3.com, US, Low, example3.com
6, 강서준, 3540000, unknown, China, seojun.kang@example2.com, CHINA, Mid, example2.com

6. 실습 마무리
실습이 완료된 후에는 불필요한 비용이 발생하지 않도록 데이터 흐름 디버그 모드를 반드시 중지하고 게시(Publish)를 확인합니다.


[Azure Data Factory] Until 활동 및 Set Variable 활동
1. 개요
Until 활동 (Until Activity)
Until 활동은 지정한 조건이 만족될 때까지 내부에 정의한 액티비티를 반복 실행하는 파이프라인 제어 단계입니다.

구성 요소:
반복 조건(Expression): 반복을 종료할 시점을 결정하는 논리식 (예: @equals(variables('fileFound'), true))
내부 액티비티(Activities): 반복 루프 내에서 매회 수행할 액티비티 (예: Get Metadata → If Condition → Copy Data 등)
대기 간격(Timeout/Interval): 두 반복 사이에 대기할 시간(초 단위)을 설정하여 과도한 호출 방지


장점:
알려지지 않은 반복 횟수를 처리할 수 있어, 파일 도착·상태 변경 등 비동기 이벤트 대기 시 유용
복잡한 루프 로직(분기, 에러 처리)을 시각적으로 설계 가능
반복 중간에 변수 업데이트나 외부 서비스 호출을 결합하여 동적 파이프라인 구현 지원


사용 시나리오:
외부 시스템 파일 도착 여부를 확인하여, 파일이 준비될 때까지 반복 폴링
메타데이터 기준으로 데이터 누적이 완료될 때까지 복사/병합 작업 반복
API 호출 응답 상태가 원하는 결과가 나올 때까지 재시도



Set Variable 활동 (Set Variable Activity)
Set Variable 활동은 파이프라인 변수(Pipeline Variable)의 값을 동적으로 변경하는 액티비티입니다.

구성 요소:
변수 이름(Variable Name): 미리 선언된 파이프라인 변수 중 업데이트할 변수 선택
값 표현식(Value/Expression): 고정 값 또는 동적 콘텐츠 (예: @item().name, @add(variables('count'),1))
데이터 형식(Type): String, Bool, Array 등 변수 선언 시 지정된 형식




2. 실습 준비

2-1. 실습 데이터 (employee_batch.csv)
ID, Name, Department, Salary, Location
1, 오준호, IT, 69190, Gwangju
2, 최예린, Finance, 61538, Daegu
3, 강다은, Finance, 55729, Seoul
4, 정우성, Marketing, 46409, Gwangju
5, 오준호, Marketing, 57249, Seoul
6, 서지아, HR, 45784, Incheon
7, 박지훈, HR, 53096, Seoul
8, 오준호, Marketing, 52560, Seoul
9, 강다은, Finance, 57533, Seoul
10, 정우성, IT, 52343, Daegu
11, 최예린, Marketing, 52206, Seoul
12, 강다은, HR, 66980, Gwangju
13, 강다은, Finance, 50801, Incheon
14, 박지훈, Marketing, 64190, Incheon
15, 한수진, Marketing, 61921, Seoul
16, 정우성, Finance, 50986, Daegu
17, 이서연, Marketing, 63225, Daegu
18, 강다은, Finance, 55647, Gwangju
19, 한수진, IT, 53716, Seoul
20, 이서연, Finance, 68355, Incheon
21, 정우성, Finance, 67009, Daegu
22, 김민준, Finance, 64334, Seoul
23, 서지아, Marketing, 69376, Daegu
24, 한수진, Marketing, 57323, Daegu
25, 윤도현, Finance, 49780, Incheon
26, 김민준, Marketing, 47368, Busan
27, 서지아, HR, 57039, Gwangju
28, 박지훈, HR, 51655, Gwangju
29, 오준호, Marketing, 53173, Incheon
30, 최예린, Marketing, 49495, Daegu
31, 윤도현, Finance, 55893, Seoul
32, 박지훈, IT, 67386, Daegu
33, 정우성, Marketing, 67998, Incheon
34, 박지훈, HR, 58403, Gwangju
35, 오준호, Finance, 58121, Daegu
36, 정우성, Marketing, 67303, Gwangju
37, 윤도현, HR, 55966, Seoul
38, 오준호, HR, 45853, Gwangju
39, 이서연, IT, 65530, Gwangju
40, 최예린, Finance, 65153, Busan
41, 윤도현, Finance, 61958, Busan
42, 이서연, IT, 62532, Busan
43, 서지아, IT, 67677, Gwangju
2-2. 컨테이너 준비

input: employee_batch.csv 업로드 완료
output: 비어있는 상태로 준비


3. [실습 1] 레코드 수 조회 (Data Flow: GetTotalCount_DF)
전체 레코드 수를 계산하여 파일로 저장하는 데이터 플로우를 구성합니다,.
3-1. 소스 및 집계 설정

소스 (employeeBatchData): employee_batch.csv 연결.
집계 (aggregateCount):
그룹화 방법: 열별 그룹화 없음.
집계 열: totalRecords
식: count(ID).



3-2. 싱크 설정 (sinkTotalCount)

싱크 형식: Delimited Text (인라인).
파일 이름 옵션: 단일 파일로 출력.
단일 파일로 출력: total_count.csv.
최적화: 단일 파티션 설정.


4. [실습 2] 배치 및 분기 처리 (Data Flow: ProcessEmployeeBatches_DF)
데이터를 배치 단위로 읽어 부서별로 분기하여 저장합니다,.
4-1. 데이터 플로우 매개변수 정의

offset (integer): 시작 지점
limit (integer): 읽어올 행 수

4-2. 소스 설정 (employeeBatchData2)

원본 옵션:
건너뛰기 줄 수: $offset
행 제한: $limit



4-3. 조건부 분할 (SplitByDepartment)

HR: Department=='HR'
IT: Department=='IT'
OtherEmployees: (조건을 충족하지 않는 행)

4-4. 다중 싱크 및 동적 파일명 설정

SinkHR: concat('employee_hr_',toString($offset),'.csv')
SinkIT: concat('employee_it_',toString($offset),'.csv')
sinkOther: concat('employee_others_',toString($offset),'.csv')
모든 싱크는 '단일 파일로 출력' 및 '단일 파티션' 설정을 사용합니다.


5. 파이프라인 구성 (ProcessEmployeeBatch_PL)
5-1. 매개변수 및 변수 선언

매개변수: batchSize (Int, 기본값: 50)
변수:
batchOffset (Integer, 기본값: 0)
totalCount (Integer, 기본값: 0)
tempOffset (Integer, 기본값: 0)



5-2. 전체 레코드 수 조회 및 저장

Data Flow 활동 (GetDataFlowTotalCount): GetTotalCount_DF 실행.
Set Variable 활동 (SetTotalCount): 조회된 행 수를 변수에 저장.
값 식:@activity('GetDataFlowTotalCount').output.runStatus.metrics.sinkTotalCount.sources.employeeBatchData.rowsRead
```,




5-3. Until 활동 (UntilAllBatches)

반복 종료 조건:@greaterOrEquals(variables('batchOffset'), variables('totalCount'))
```,


5-4. Until 내부 액티비티 구성

Data Flow 활동 (ProcessBatchDataFlow): 데이터를 배치 단위로 처리.
offset 파라미터 매핑: variables('batchOffset')
limit 파라미터 매핑: pipeline().parameters.batchSize


Set Variable 활동 (SetOffset): 현재 오프셋 임시 저장.
tempOffset = variables('batchOffset')


Set Variable 활동 (SetOffset2): 다음 실행을 위한 오프셋 갱신.
batchOffset = @add(variables('tempOffset'), pipeline().parameters.batchSize)




6. 결과 확인 및 마무리,
6-1. 파이프라인 실행 결과 모니터링

GetDataFlowTotalCount: 성공 (200개 레코드 조회 확인)
SetTotalCount: 성공 (totalCount = 200 설정)
UntilAllBatches: 성공 (배치 크기 50 기준 총 4회 반복 실행)
ProcessBatchDataFlow (각 회차): 성공

6-2. 최종 생성 파일 목록 (output 컨테이너)

total_count.csv (200 저장 확인)
employee_hr_0.csv, employee_hr_50.csv, employee_hr_100.csv, employee_hr_150.csv
employee_it_0.csv, employee_it_50.csv, employee_it_100.csv, employee_it_150.csv
employee_others_0.csv, employee_others_50.csv, employee_others_100.csv, employee_others_150.csv

6-3. 파일 내용 상세 예시,,

HR 0번 오프셋: ID 6(서지아), 7(박지훈), 12(강다은) 등 포함.
IT 0번 오프셋: ID 1(오준호), 10(정우성), 19(한수진) 등 포함.
Others 0번 오프셋: ID 2(최예린), 3(강다은), 4(정우성) 등 포함.

실습 완료 후에는 비용 발생 방지를 위해 데이터 흐름 디버그 모드를 반드시 중지하십시오.


[Azure Data Factory] Join 변환 (Join Transformation)
1. Join 변환 개요
Join 변환(Join Transformation)은 두 개의 입력 스트림을 지정된 키를 기준으로 병합(Join)하는 데이터 변환 단계입니다.,
구성 요소

Join 조건(Join Conditions): 두 입력 간 조인할 기준 컬럼 설정 (예: ID, Email 등)
Join 유형(Join Type): Inner, Left Outer, Right Outer, Full Outer 중 선택
키 충돌 시 처리 방식: 동일한 이름의 컬럼이 양쪽에 있는 경우 우선순위 설정 가능

사용 시나리오

사용자 정보와 주문 정보를 ID 기준으로 병합
로그 정보와 에러 코드 목록을 조인하여 분석
마스터 테이블과 세부 정보 테이블 병합

장점

다양한 조인 방식 제공으로 유연한 병합 구조 설계 가능
조건 기반 병합 처리로 데이터 정합성 확보
하나의 데이터 흐름 안에서 복잡한 관계형 연산 처리 가능


2. Join 유형별 상세 설명
1) Inner Join (ID - 고객ID 기준)
두 테이블 모두에 조인 키가 존재하는 데이터만 반환합니다.



A.ID
A.이름
A.도시
B.주문ID
B.고객ID
B.상품명



1
김철수
서울
101
1
노트북


1
김철수
서울
104
1
모니터


2
이영희
부산
102
2
마우스


2) Full Outer Join
양쪽 테이블의 모든 데이터를 반환하며, 짝이 없는 경우 NULL로 표시됩니다.



A.이름
A.ID
A.도시
B.주문ID
B.고객ID
B.상품명



김철수
1
서울
101
1
노트북


김철수
1
서울
104
1
모니터


이영희
2
부산
102
2
마우스


박민준
3
서울
NULL
NULL
NULL


최지우
5
인천
NULL
NULL
NULL


NULL
NULL
NULL
103
4
키보드


3) Left Join
왼쪽 테이블(고객 정보)의 모든 데이터와 오른쪽 테이블(주문 정보)의 매칭되는 데이터를 반환합니다.



A.ID
A.이름
A.도시
B.주문ID
B.고객ID
B.상품명



1
김철수
서울
101
1
노트북


1
김철수
서울
104
1
모니터


2
이영희
부산
102
2
마우스


3
박민준
서울
NULL
NULL
NULL


5
최지우
인천
NULL
NULL
NULL


4) Right Join
오른쪽 테이블(주문 정보)의 모든 데이터와 왼쪽 테이블(고객 정보)의 매칭되는 데이터를 반환합니다.



A.ID
A.이름
A.도시
B.주문ID
B.고객ID
B.상품명



1
김철수
서울
101
1
노트북


1
김철수
서울
104
1
모니터


2
이영희
부산
102
2
마우스


NULL
NULL
NULL
103
4
키보드



3. 실습 준비
3-1. 실습 데이터 준비

customers.csvID, Name, Address
1, 김철수, 서울
2, 이영희, 부산
3, 박민준, 서울
5, 최지우, 인천

orders.csvOrderID, CustomerID, ProductName
101, 1, 노트북
102, 2, 마우스
103, 4, 키보드
104, 1, 모니터


3-2. 컨테이너 준비,

input: customers.csv, orders.csv 업로드
output: 비어있는 상태로 준비


4. [실습 1] 기본 Join 데이터 플로우 구성
4-1. 소스 설정,

Source 1 (customerData): CustomersInput_DS 연결 (customers.csv).
Source 2 (ordersData): Orderinput_DS 연결 (orders.csv).
두 소스 모두 프로젝션 가져오기를 통해 ID, OrderID 등을 integer 형식으로 정의합니다.,



4-2. Join 변환 설정 (joinCustomerOrders)

왼쪽 스트림: customerData
오른쪽 스트림: ordersData
조인 유형: 내부(Inner)
조인 조건:
왼쪽: ID
오른쪽: CustomerID



4-3. 싱크 설정 (sinkJoinedData)

데이터 세트: JoinedOutputCSV_DS
설정: 단일 파티션, 단일 파일로 출력.
파일명: joined_customer_orders.csv

4-4. 파이프라인 실행 및 결과 확인,

파이프라인: JoinCustomerOrders_PL
활동: ExecuteJoin_DF (Join_DF 실행)
결과: output 컨테이너에 3개의 행이 포함된 파일 생성 확인.,


5. [실습 2] 고급 데이터 변환 (집계 및 필터)
5-1. 고객별 주문 건수 집계 (aggregateTotalOrdersByCustomer)

들어오는 스트림: joinCustomerOrders
그룹화 방법: ID, Name
집계 컬럼: totalOrders
식:count(OrderID)

결과 싱크: customer_total_orders.csv

5-2. 서울 주문 데이터 필터링 (filterSeoulCustomers)

들어오는 스트림: joinCustomerOrders
필터 식:Address == '서울'

결과 싱크: seoul_customer_orders.csv,


6. 최종 실행 결과 요약

joined_customer_orders.csv: 조인된 전체 데이터 (3건)
customer_total_orders.csv:
이영희: 1건
김철수: 2건


seoul_customer_orders.csv:
김철수(서울)의 주문 데이터 2건 (모니터, 노트북)



실습 마무리: 모든 작업이 완료되면 비용 발생 방지를 위해 데이터 흐름 디버그 모드를 종료합니다.



[MicrosoftDataSchool] 59일차 - Azure Data Factory 실습
Tue, 31 Mar 2026 08:51:29 GMT
제공해주신 소스 파일 "03-30-2.03 데이터플로우_v12.pdf"의 모든 페이지 내용을 생략 없이, 특히 누락되었던 적용 예시와 수식들을 원문 그대로 포함하여 정리해 드립니다. 여러 줄로 된 부분은 합치지 않고 소스 형태를 유지했습니다.

[Azure Data Factory] 데이터 플로우
1. 매핑 데이터 플로우 개요
매핑 데이터 플로우는 데이터 변환을 시각적으로 설계할 수 있는 기능으로, 코딩 없이 GUI 기반으로 데이터 흐름을 정의하고 실행할 수 있도록 지원합니다.
특징

코드 작성 없이 ETL 작업 가능
병렬 처리 기반 대용량 데이터 변환
Spark 기반 백엔드 자동 실행
ADF 파이프라인 내 액티비티로 실행 가능

적용 예시

Raw 데이터 정제 및 변환 작업
데이터 웨어하우스 적재 전 변환
로그 데이터의 전처리 및 분석 준비


2. 주요 구성요소 및 기능

Source: 데이터 가져오기 (Blob, SQL 등)
Transformation: 변환 로직 적용
Sink: 결과 저장 (Blob, SQL 등)

변환 기능

Select: 컬럼 선택 및 이름 변경
Filter: 조건에 따라 행 필터링
Join: 다른 스트림과 조인
Aggregate: 그룹화 및 집계
Derived Column: 계산 컬럼 생성
Sort: 정렬 수행
Pivot: 데이터 형태 변환

변환 기능 적용 예시

시험 점수를 과목별 평균으로 집계
이벤트 로그에서 '오류'만 필터링하여 저장

흐름 제어 기능

Conditional Split: 조건에 따라 경로 분기
Exists: 조건 충족 여부 확인
Lookup: 외부 값 참조

흐름 제어 기능 적용 예시

고객 나이에 따라 다른 테이블에 저장
기존 고객 여부 확인 후 신규 등록 여부 결정


3. Pipeline vs MDF 및 실행 방식
역할 구분



구분
파이프라인
데이터 플로우



역할
실행 제어 / 전체 흐름 관리
데이터 변환 수행


데이터 흐름 디버그

디버그 모드: 파이프라인 실행 전, 결과를 미리 확인 가능하며 Sample Data 기반으로 변환 결과를 확인합니다.
예시
변환 로직 개발 중 오류 확인
실시간으로 컬럼 파생 결과 시각화 확인



MDF 실행 방식

파이프라인 내 Data Flow Activity로 호출
Integration Runtime(IR)을 통해 Spark 클러스터 생성 (클러스터는 자동 생성 및 종료)
예시
주기적으로 정해진 시간마다 ETL 실행
조건 만족 시 트리거로 Data Flow 자동 실행




4. [실습 준비] 데이터 및 환경 세팅
실습 데이터: Student Performance in Exams

Kaggle 데이터 활용 (StudentsPerformance.csv)
컬럼 구성
gender, race/ethnicity, parental level of education, lunch, test preparation course, math score, reading score, writing score



환경 준비

실습 컨테이너 준비: input, output 컨테이너의 기존 데이터 삭제 후 StudentsPerformance.csv 업로드.
링크드 서비스 준비: BlobStorage1 (Azure Blob Storage) 생성 및 연결 테스트 성공 확인.
데이터세트 생성:
입력(StudentsInputDS): input 컨테이너, StudentsPerformance.csv 참조, 첫 번째 행을 머리글로 설정, 스키마 가져오기(연결/저장소에서).
출력(StudentsOutputDS): output 컨테이너 참조, 첫 번째 행을 머리글로 설정.




5. [실습 1] 데이터 정제 및 등급 부여
5-1. 매핑 데이터 플로우 생성 및 소스 추가


이름: StudentsCleanFlow
데이터 흐름 디버그 켜기: AutoResolveIntegrationRuntime, Small, TTL 1시간 설정.

소스(Students): StudentsInputDS 연결 후 프로젝션 가져오기를 통해 데이터 형식 검색.



스키마 드리프트: 원본이 아닌 별도의 테이블을 만들어 사용할 때 어느정도의 오류는 ok 하는 기능
5-2. 평균 점수 계산 (Derived Column - AverageScore)
컴포넌트 옵션에는 항상 출력, 입력 스트림이 존재함


+ 누른 후 파생 열 추가
출력 스트림 이름: AverageScore
열 이름: avg_score
식:(toInteger({math score})+toInteger({reading score})+toInteger({writing score}))/3

5-3. 등급 부여 (Derived Column - GradeLevel)


출력 스트림 이름: GradeLevel
열 이름: grade
식:iif(avg_score>=90, 'A', 
iif(avg_score>=80, 'B',
iif(avg_score>=70, 'C', 
iif(avg_score>=60, 'D', 'F'))))

5-4. 싱크 설정 (StudentCleanSink)


데이터 세트: StudentsOutputDS

설정: 파티션 설정을 '단일 파티션'으로 변경 후 단일 파일로 출력 선택. (기본적으로는 분산 저장을 지원)


파일명: Students_clean.csv


5-5. 파이프라인 실행 및 결과 확인


파이프라인 생성: StudentsPerformancePipeline에 Data Flow 활동(RunStudentsCleanFlow) 추가.
실행: 모두 게시 후 디버그 실행.
결과 확인: output 컨테이너의 Students_clean.csv에서 평균 점수와 등급(A~F) 확인.
모니터링: 각 단계별(Source, AverageScore, GradeLevel) 처리 시간 및 기록된 행(1,000행) 진단 정보 확인.



6. [실습 2] 그룹별 집계 실습 (Advanced)
6-1. 데이터 플로우 편집 및 분기

AverageScore 단계에서 새 분기(New Branch) 추가.


6-2. 데이터 집계 (Aggregate - AverageByGroup)


출력 스트림 이름: AverageByGroup

그룹화 방법: race/ethnicity 열 기준.


집계 컬럼: avg_score_by_group

식: avg(avg_score)



6-3. 새로운 싱크 추가 (StudentGroupCleanSink)

데이터 세트: StudentsOutputDS
설정: 단일 파티션, 단일 파일로 출력.
파일명: avg_score_by_group.csv


6-4. 최종 실행 및 확인

변경 사항 게시 후 파이프라인 재실행.



7. 마무리

실습 완료 후 비용 발생 방지를 위해 데이터 흐름 디버그 모드를 반드시 중지합니다.



[Azure Data Factory] 통합 런타임 (Integration Runtime)
1. 통합 런타임 개요
통합 런타임(Integration Runtime)은 Azure Data Factory에서 데이터 이동, 변환, 실행 등의 기능을 수행하기 위한 컴퓨팅 인프라 역할을 수행합니다.
Integration Runtime의 핵심

ADF의 모든 데이터 처리 작업은 통합 런타임(IR)을 통해 실행됩니다.
IR은 다양한 네트워크 환경 및 데이터 소스/싱크와의 연결을 지원합니다.
작업 목적과 데이터 위치에 따라 적절한 IR 유형을 선택해야 합니다.




IR의 수행 기능
IR의 수행 내용



활동 실행
Copy, 외부 리소스 실행 등 여러 가지 활동의 지원


데이터 이동
클라우드 ↔ 온프레미스 간 안전한 복사 수행


데이터 흐름 실행
Mapping Data Flow 등 고급 데이터 변환 지원
* Azure IR 전용


IR은 "ADF의 실행 엔진"이며, 어떤 네트워크에서 데이터를 가져오고 어디로 보낼 것인지에 따라 적절한 유형을 선택하는 것이 필수적입니다.

2. 통합 런타임의 유형
데이터 팩토리에서는 다양한 환경에 맞게 세 가지 유형의 통합 런타임을 제공합니다. 각 유형은 사용자의 네트워크 구조, 데이터 위치, 기존 시스템 여부에 따라 선택해야 합니다.
통합 런타임의 세 가지 유형



통합 런타임 유형
주요 목적 및 특성



Azure Integration Runtime
Azure 내부 서비스 간 데이터 이동 및 변환, 완전 관리형, 서버리스 컴퓨팅 환경


Self-hosted IR (SHIR)
온프레미스 또는 VNet 내 리소스와 연결, 사용자 컴퓨터/VM에 런타임 설치 필요


Azure-SSIS IR
SSIS 패키지를 Azure에서 실행하기 위한 전용 런타임, SQL Managed Instance 필요


통합 런타임 유형별 특성



구분
Azure IR
SHIR
Azure-SSIS IR



관리 주체
Microsoft
사용자 직접 관리
Microsoft


설치 필요 여부
없음
설치 필요
설치 필요


데이터 흐름 지원 여부
지원
미지원
미지원


사용 위치
Azure 간 서비스
온프레미스, VNet 리소스
SSIS 기반 데이터 마이그레이션


IR 선택은 데이터의 출발지/도착지, 네트워크 형태(공용/사설), 기존 시스템 여부(SSIS 등) 등을 고려하여 결정합니다.

3. Self-Hosted 통합 런타임 (SHIR)
Self-Hosted 통합 런타임은 Azure Data Factory에서 사설 네트워크나 온프레미스 환경의 데이터에 접근할 수 있도록 해주는 소프트웨어 컴포넌트입니다.
SHIR의 필요성

가상 사설망(VNet) 내의 데이터 및 리소스 접근 필요 시
온프레미스의 데이터베이스와의 연동 시
전용 드라이버 및 커넥터를 사용해야 하는 특수 데이터 환경

네트워크별 IR 지원 현황



유형
Azure Cloud
Private Network



Azure IR
Activity 실행, 데이터 이동, 데이터 플로우
지원 안함


Self-hosted IR
Activity 실행, 데이터 이동
Activity 실행, 데이터 이동


Azure-SSIS IR
SSIS 패키지 실행 (제한적)
SSIS 패키지 실행



온프레미스 DB(예: Oracle, MySQL, MSSQL 등)와 연동이 필요한 경우에는 SHIR가 반드시 필요합니다.
SHIR은 로컬 머신 또는 VM에 설치되며, Azure Portal에서 연결 상태의 모니터링도 가능합니다. (보통 데이터 이관용이다. 데이터플로우 지원 X)


4. [실습] SHIR 환경 구축 및 데이터 복사

Step 1: 실습 환경 구성 (인프라)
실습을 위해 다음과 같은 리소스를 순차적으로 생성합니다.

Azure Virtual Network 생성: vnet (주소 공간: 10.0.0.0/16).

Subnet 생성: subnet (주소 범위: 10.0.1.0/24)

SQL Server용 VM 생성: SQL-vm



이미지: SQL Server 2019 Developer on Windows Server 2019

모든 이미지 보기 선택

만들기 후 2세대 선택 

크기: Standard_B2ms (2 vcpu, 8 GiB 메모리)




서브넷 설정
인바운드 포트: RDP(3389) 허용



SQL 연결: 프라이빗(가상 네트워크 내), 포트 1433



SHIR용 VM 생성: SHIR-vm


이미지: Windows Server 2019 Datacenter


디스크 표준으로 설정


네트워크: vnet / subnet 연결



Step 2: SHIR 설치 및 등록

들어가서 RDP 파일 다운로드 

SHIR-vm 접속: RDP를 통해 가상 머신에 접속합니다.

런타임 다운로드: VM 내부 브라우저에서 'Microsoft Integration Runtime'을 검색하여 설치 파일을 다운로드합니다.


ADF에서 SHIR 생성: ADF Studio의 [관리] > [통합 런타임]에서 '자체 호스팅' 유형으로 shir를 생성하고 인증 키를 복사합니다.


노드 등록: VM에 설치된 Configuration Manager를 실행하고 복사한 인증 키를 입력하여 등록을 완료합니다.

ADF 관리탭에서도 표시된다.



Step 3: 데이터 준비 (원본 및 싱크)

원본 데이터: Blob Storage의 input 컨테이너에 StudentsPerformance.csv 업로드.
싱크 테이블 생성: SQL-vm 내 SSMS를 실행하여 데이터베이스와 테이블을 생성합니다.(동일하게 SQL-vm의 rdp 파일 설치 후 실행)

Trust server certificate 체크


    CREATE DATABASE StudentsDB;
    GO
    USE StudentsDB;

    CREATE TABLE StudentsPerformance (
        gender NVARCHAR(10),
        race_ethnicity NVARCHAR(20),
        parental_level_of_education NVARCHAR(50),
        lunch NVARCHAR(20),
        test_preparation_course NVARCHAR(20),
        math_score INT,
        reading_score INT,
        writing_score INT
    );
Step 4: 링크드 서비스 및 데이터세트 구성

링크드 서비스 (원본): BlobStorage1 (AutoResolveIntegrationRuntime 사용).


링크드 서비스 (싱크): vnetSqlServer1

통합 런타임: shir 선택
서버 이름: SQL-vm의 프라이빗 IP (10.0.1.4)
데이터베이스: StudentsDB





데이터세트:
원본: StudentsInputDS (DelimitedText)
싱크: vnetStudentsDS1 (SQL Server 테이블)




Step 5: 파이프라인 생성 및 실행


활동: Copy Data 활동(Copy Blob to SQL) 추가.
매핑(Mapping): 원본 CSV 컬럼과 SQL 테이블 컬럼을 매핑합니다 (gender, math_score 등). 스키마 가져오기 후 매핑



실행: 파이프라인을 게시한 후 디버그를 실행하여 '성공' 상태를 확인합니다.



결과 확인: SQL-vm에서 SELECT TOP 50 * FROM StudentsPerformance; 쿼리를 통해 데이터 복사 여부를 검증합니다.



5. 실습 마무리 및 리소스 정리
실습 완료 후 비용 발생을 방지하기 위해 다음 리소스들을 반드시 삭제해야 합니다.

가상 머신: SHIR-vm, SQL-vm
관련 리소스: 공용 IP 주소, 네트워크 인터페이스(NIC), 디스크, 네트워크 보안 그룹(NSG)
네트워크: vnet-demo (가상 네트워크)

주의: SHIR 노드가 설치된 VM을 삭제하면 ADF Studio에서 해당 통합 런타임 상태가 '사용할 수 없음'으로 표시됩니다. 필요하지 않은 경우 ADF 내의 통합 런타임과 연결된 서비스도 함께 삭제하여 정리합니다.

SQL-VM
VM 2개
NIC
IP, NSG, Disk
V-NET 
순으로 삭제

이후 연결된 서비스에서 vnetSqlServer1의 통합 런타임 연결을 AutoResolveIntegrationRuntime으로 변경하여 적용 후 데이터세트의 vnetStudentsDS1, 파이프라인의 CopyStudentPerformance 삭제, 게시 후 연결된서비스 마저 삭제


[Azure Data Factory] Lookup 및 ForEach 활동을 활용한 동적 데이터 처리
1. 개요
Lookup Activity
Lookup 활동을 통해 다양한 데이터 소스에서 목록이나 데이터를 조회하여, 파이프라인의 동적인 데이터 처리 흐름을 설계할 수 있습니다. Lookup 활동은 반복 작업의 시작점이 되는 정보를 제공합니다.

Lookup 활동 개요
외부 데이터 소스(파일, 테이블 등)에서 데이터를 읽어오는 활동
파이프라인 내에서 동적으로 사용할 데이터 목록을 조회
다양한 데이터 소스와 호환됨


Lookup 활동의 주요 기능
파일 또는 테이블의 내용을 읽어와 결과를 파이프라인 변수로 저장
주로 목록(리스트) 형태의 데이터를 반환
결과를 다음 활동(예: ForEach)에 전달하여 반복 작업의 입력값으로 활용


활용 예시
데이터베이스 테이블에서 처리 대상 파일 목록 조회
Blob Storage 내 폴더의 파일 리스트 추출
JSON/CSV 파일에서 데이터 로드



ForEach Activity
ForEach 활동을 사용하면, 조회된 데이터 목록을 활용하여 각 항목별로 동일하거나 다양한 작업을 반복 실행할 수 있습니다. ForEach 활동을 통해 대량 데이터의 일괄 처리와 자동화가 가능합니다.

ForEach 활동 개요
반복 작업(Loop)을 수행하는 활동
입력받은 목록(배열, 리스트)의 각 항목에 대해 지정된 하위 활동 집합을 실행
Lookup 등 다른 활동의 결과를 받아 반복 처리에 활용


ForEach 활동의 주요 기능
배열(리스트) 형태의 입력 데이터에 대해 작업 반복
각 항목마다 복사, 변환, 로깅 등 다양한 하위 활동 실행 가능
병렬 또는 순차적(직렬) 실행 방식 선택 가능


활용 예시
여러 파일을 반복적으로 복사(Copy)
여러 테이블에 데이터 일괄 적재
개별 레코드/오브젝트마다 별도 처리 로직 실행




2. Lookup - ForEach 절차 및 예시
실행 절차

Lookup 활동 실행: 외부 데이터 소스(예: 데이터베이스, Blob Storage 등)에서 처리 대상 목록을 읽어옴
결과값 전달: Lookup의 결과(리스트)를 ForEach 활동에 입력
ForEach 반복 실행: 리스트의 각 항목마다 Copy, 변환, 알림 등 지정된 하위 작업을 순차적/병렬로 실행
각 항목별 결과 처리: 성공/실패 로깅, 후속 작업 연결 등

활용 예시

여러 파일을 일괄 데이터베이스에 적재
테이블 행별로 데이터 처리 반복
여러 시스템에 동일 처리 반복


3. 실습 준비

3-1. 리소스 구성

리소스 그룹
데이터 팩터리(V2)
Logic app
스토리지 계정
SQL 데이터베이스
SQL Server

3-2. 실습 데이터

Red Wine Quality: winequality-red.csv (또는 wine.csv)
Titanic Dataset: titanic.csv
Adult Census Income: adult.csv

3-3. 목적지(Sink) 컨테이너 준비

스토리지 계정 내에 output 컨테이너를 준비합니다.

3-4. 소스 데이터베이스 테이블 생성
SQL 데이터베이스에서 다음 쿼리를 실행하여 테이블을 생성합니다.
wine 테이블 생성
CREATE TABLE wine (
    fixed_acidity FLOAT,
    volatile_acidity FLOAT,
    citric_acid FLOAT,
    residual_sugar FLOAT,
    chlorides FLOAT,
    free_sulfur_dioxide FLOAT,
    total_sulfur_dioxide FLOAT,
    density FLOAT,
    pH FLOAT,
    sulphates FLOAT,
    alcohol FLOAT,
    quality INT
);
titanic 테이블 생성
CREATE TABLE titanic (
    PassengerId INT,
    Survived INT,
    Pclass INT,
    Name NVARCHAR(100),
    Sex NVARCHAR(10),
    Age FLOAT,
    SibSp INT,
    Parch INT,
    Ticket NVARCHAR(20),
    Fare FLOAT,
    Cabin NVARCHAR(20),
    Embarked NVARCHAR(5)
);
adult 테이블 생성
CREATE TABLE adult (
    age INT,
    workclass NVARCHAR(20),
    fnlwgt INT,
    education NVARCHAR(20),
    education_num INT,
    marital_status NVARCHAR(30),
    occupation NVARCHAR(20),
    relationship NVARCHAR(20),
    race NVARCHAR(20),
    sex NVARCHAR(10),
    capital_gain INT,
    capital_loss INT,
    hours_per_week INT,
    native_country NVARCHAR(30),
    income NVARCHAR(10)
);
이후 컨테이너에 csv파일을 올리고, 이전 매개변수 실습에서 사용했던 파이프라인을 이용하여 해당 테이블에 csv의 데이터들을 넣고 input 스토리지에서 파일 삭제

4. 실습 단계

4-1. 링크드 서비스 및 데이터세트 설정
연결된 서비스(Linked Service)

BlobStorage1: Azure Blob Storage 연결
outputSQL: Azure SQL Database 연결

데이터세트(Dataset)

TableListDS: SQL DB의 테이블 목록 조회용



SourceTableDS: 매개변수(schemaName, tableName)를 사용하여 동적으로 테이블을 지정함

schemaName 식: @dataset().schemaName
tableName 식: @dataset().tableName



SinkCsvDS: 매개변수(fileName)를 사용하여 동적으로 출력 파일명을 지정함

fileName 식: @dataset().fileName




4-2. 파이프라인 구성: Lookup 활동


활동 이름: ListTables
원본 데이터세트: TableListDS
쿼리 실행:SELECT TABLE_SCHEMA, TABLE_NAME
FROM INFORMATION_SCHEMA.TABLES
WHERE TABLE_TYPE = 'BASE TABLE'
AND TABLE_SCHEMA = 'dbo'


4-3. 파이프라인 구성: ForEach 활동


활동 이름: ForEachTable
항목(Items) 설정:
식: @activity('ListTables').output.value


하위 활동(Copy Data):
이름: ExportTable
원본(Source) 설정: SourceTableDS
tableName: @item().TABLE_NAME
schemaName: @item().TABLE_SCHEMA


싱크(Sink) 설정: SinkCsvDS
fileName: @concat(item().TABLE_NAME, '.csv')






5. 결과 확인

파이프라인 실행: '모두 게시' 후 파이프라인을 실행합니다.


모니터링: ListTables 성공 후 ForEachTable 내에서 각 테이블(adult, titanic, wine)에 대한 ExportTable 활동이 성공했는지 확인합니다.

출력 확인: 스토리지의 output 컨테이너에 adult.csv, titanic.csv, wine.csv 파일이 생성되었는지 확인합니다.





[Azure Data Factory] 이메일 알림 (Email Notification)
1. Azure Data Factory 이메일 알림 개요
다양한 상황에서 Azure Data Factory의 데이터 처리 상태를 사용자에게 알릴 필요가 있습니다. 이메일 알림은 이런 요구를 충족시키기 위한 유용한 수단입니다.
알림의 필요성

데이터 파이프라인이 자동으로 수행되기 때문에, 처리 상태에 대한 가시성이 부족할 수 있음.
운영자가 실시간으로 상태를 확인하기 어렵기 때문에, 자동 알림을 통해 시스템 신뢰도를 높일 수 있음.
알림을 통해 문제 발생 시 즉각적인 조치가 가능하며, 운영 효율성 향상에 기여.

알림 사용 사례



분류
사례
설명



개발/운영
ETL 오류 또는 성능 지연 발생
운영팀에 오류 발생 사실 실시간 전달


보안/감사
민감한 데이터 이동 완료 시
감사 로그 목적의 알림 전송


데이터 분석
외부 시스템에서 데이터 수집 시작 시
자동화된 분석 시작 시점 감지 가능


보고서 갱신
데이터 변환 후 Power BI 리프레시 완료
사용자에게 최신 리포트 반영 시점 안내



2. 이메일 알림 구현 방식
Azure Data Factory는 이메일 알림을 위한 두 가지 구현 방식을 고려할 수 있습니다. 각 방식은 사용자의 목적에 따라 선택 가능합니다.



옵션
설명
장점
권장 시나리오



Azure Monitor Alerts
Azure에서 기본 제공하는 모니터링 및 경보 기능을 통해 이메일 알림을 전송
설정 간편, 추가 비용 없음
단순 성공/실패 모니터링, 장애 감지 시 알림


Web Activity + Logic Apps
ADF의 Web Activity에서 Logic Apps 호출 후, HTTP 트리거 기반의 이메일 전송
유연한 구성, 세부 커스터마이징 가능, HTML 이메일 가능
알림 내용 및 대상 사용자 지정, 포맷 설정 필요 시



Azure Monitor Alerts는 사전 정의된 메트릭 조건 기반으로 동작하며, 주로 파이프라인 실패나 시간 초과 같은 이벤트 감지에 적합합니다.
Logic Apps는 REST API 호출을 기반으로 하므로, 이메일 제목, 수신자, 본문 내용을 동적으로 설정할 수 있습니다. 특히 Power BI 리포트 생성 완료 후 알림, 맞춤형 템플릿 발송 등 세밀한 알림 제어가 필요할 경우 매우 유용합니다.


3. 실습 1 - Azure Monitor를 이용한 알림
3-1. Azure Monitor 개요
Azure Monitor는 Azure에서 기본 제공되는 종합 모니터링 및 알림 솔루션으로, 다양한 리소스 상태를 감시하고 이벤트 발생 시 알림을 보냅니다.

주요 기능: 클라우드 및 온프레미스 리소스 모니터링 가능, 응용/VM/DB/API 지원, Metric 기반 조건 설정 및 Alerts 트리거, Event Hub 및 Logic Apps 연동 가능,.
구성 요소: 특정 Activity/Pipeline 상태 감지 → 메트릭 조건 충족 시 알림 생성 → 이메일, SMS, Logic Apps 채널로 전달.

3-2. Azure Monitor 알림의 단점

이메일 포맷 변경 등은 제한적임.
고급 설정은 복잡함.
알림 전달까지 시간 지연이 있을 수 있음.
이메일의 가독성이 떨어질 수 있음.

3-3. 실습 단계

파이프라인 준비: Lab - Email Alert 내에 AzureMonitorAlert 파이프라인을 생성하고 실패를 유도하는 복사 활동을 구성합니다

경고 규칙 생성: ADF 모니터링 탭의 [경고 및 메트릭]에서 [새로운 경고 규칙]을 클릭합니다.

조건 구성:

메트릭: Failed pipeline runs metrics.
경고 논리 조건: '보다 큼', 임계값 개수 '0'.
차원: FailureType (UserError, SystemError, BadGateway 선택).
평가 기준: 기간 '지난 1분 동안', 빈도 '1분마다'.


알림 및 작업 그룹 구성:

작업 그룹 이름: Test group.
알림 유형: '이메일' 선택 후 수신 메일 주소 입력


테스트 및 확인: 파이프라인 실행 후 실패가 발생하면 설정한 메일로 알림이 오는지 확인합니다. (디버그하면 안됨, 트리거 사용)


[수신 이메일 예시 - Activated]

Your Azure Monitor alert was triggered
Rule: copy-pipeline failure alert
Metric: PipelineFailedRuns
Value: 1
,

[수신 이메일 예시 - Deactivated]

Your Azure Monitor alert was resolved
Alert deactivated because one of the following conditions is no longer true.



4. 실습 2 - Web Activity와 Logic Apps를 이용한 알림
4-1. 절차 및 장점

절차: ADF 내 Web Activity에서 Logic Apps HTTP 트리거 호출 → Logic Apps에서 이메일 전송 및 응답 처리.
장점: 내용 및 포맷 자유 구성 가능, 조건에 따른 분기 처리, HTML 이메일 구현 가능.

4-2. 실습 준비

복사 파이프라인: Copy iris, Copy penguins 활동을 포함하는 LogicAppAlert 파이프라인을 생성합니다,.
데이터: iris.csv, penguins.csv 파일을 스토리지에 준비합니다,.


4-3. Logic App 생성 및 트리거 구성

리소스 생성: Azure Portal에서 '논리 앱(Logic App)'을 검색하여 '소비(Consumption)' 플랜으로 생성합니다,,.
HTTP 트리거 추가: 논리 앱 디자이너에서 'When an HTTP request is received' 트리거를 추가합니다.
JSON 스키마 생성: 아래 샘플 페이로드를 사용하여 스키마를 생성합니다{
"type": "object",
"properties": {
"title": {
  "type": "string"
},
"message": {
  "type": "string"
},
"AdfName": {
  "type": "string"
},
"pipelineName": {
  "type": "string"
},
"pipelineRunID": {
  "type": "string"
},
"time": {
  "type": "string"
}
}
}

4-4. ADF Web Activity 설정

활동 추가: Send OK Email 이름의 Web 활동을 추가합니다.
설정:
URL: Logic App에서 생성된 HTTP POST URL.
메서드: POST.
본문(Body): 아래 동적 콘텐츠 식을 입력합니다{
"title": "파이프라인 실행 완료 알림",
"message": "데이터 복사 파이프라인이 성공적으로 완료되었습니다.",
"AdfName": "@{pipeline().DataFactory}",
"pipelineName": "@{pipeline().Pipeline}",
"pipelineRunID": "@{pipeline().RunId}",
"time": "@{utcNow()}"
}





4-5. Logic App 이메일 동작 추가

동작 추가: 'Outlook.com' 커넥터의 '메일 보내기(V2)'를 선택합니다,.
본문 구성: HTTP 트리거에서 받은 동적 콘텐츠를 사용하여 HTML 포맷으로 본문을 작성합니다.
제목: title
본문 예시:
```text
데이터 팩토리 이름: AdfName
파이프라인 이름: pipelineName
파이프라인 Run ID: pipelineRunID
실행 완료 시각: time




4-6. 결과 확인

성공 시 이메일 제목: 파이프라인 실행 완료 알림.
본문 내용에 실제 ADF 리소스 이름과 실행 시각 등이 포함되어 전송됩니다.


5. 파이프라인 실패 알림 추가 (심화)
성공 알림뿐만 아니라 실패 시에도 알림을 보내기 위해 파이프라인을 확장합니다.

실패용 활동 추가: send NOK Email 이름의 Web 활동을 생성하고 실패 경로(빨간색 선)로 연결합니다.
본문 설정:{
  "title": "파이프라인 실행 실패 알림",
  "message": "데이터 복사 파이프라인의 실행이 실패하였습니다.",
  "AdfName": "@{pipeline().DataFactory}",
  "pipelineName": "@{pipeline().Pipeline}",
  "pipelineRunID": "@{pipeline().RunId}",
  "time": "@{utcNow()}"
}


Master 파이프라인 활용
실제 운영 시에는 개별 파이프라인에 매번 알림을 넣기보다 MasterAlertPipeline을 구축하여 호출된 파이프라인의 에러 메시지를 전달하는 방식이 효율적입니다,.


실패 메시지 전달 식:{
  "title": "파이프라인 실행 실패 알림",
  "message": "@{activity('Execute Pipeline1').error.message}",
  "AdfName": "@{pipeline().DataFactory}",
  "pipelineName": "@{pipeline().Pipeline}",
  "pipelineRunID": "@{pipeline().RunId}",
  "time": "@{utcNow()}"
}


최종 테스트 결과 (실패 시)

원본 파일을 삭제한 후 실행하면 다음과 같은 에러 메시지가 포함된 이메일이 수신됩니다.



6. 실습 마무리
실습이 끝나면 불필요한 비용 발생을 방지하기 위해 생성한 모든 리소스(Logic App, API Connection, Action Group 등)와 리소스 그룹을 삭제합니다,.


[Azure Data Factory] 필터 및 정렬 변환 (Filter-Sort Transformation)
1. 개요
데이터 변환 과정에서 특정 조건에 맞는 데이터를 선별하거나, 분석 효율을 높이기 위해 데이터를 정렬하는 과정은 필수적입니다. Azure Data Factory의 매핑 데이터 플로우(MDF)는 이를 시각적으로 구성할 수 있는 기능을 제공합니다.
필터 변환 (Filter Transformation)
필터 변환은 소스 데이터에서 지정한 조건을 만족하는 행(row)만 선택해 통과시키는 변환 단계입니다.

구성 요소:
조건식(Condition Expression): 특정 컬럼에 대한 비교 연산자(=, <, >, <=, >=, != 등) 및 논리 연산자(and, or)를 사용합니다.
예) Score > 80, Category == 'A' and Region != 'Seoul'


미리보기(Data Preview): 조건식 적용 후 결과를 즉시 확인할 수 있습니다.


장점:
불필요한 데이터를 미리 제거하여 후속 처리 성능을 향상시킵니다.
비즈니스 로직에 따른 데이터 선별을 시각적으로 구성 가능합니다.


사용 시나리오:
특정 기준 점수 이상인 학생만 추출
거래 상태가 '완료(Completed)'인 주문만 처리
결측치(null)나 이상치(outlier)를 제거



정렬 변환 (Sort Transformation)
정렬 변환은 입력된 데이터 세트를 하나 이상의 컬럼을 기준으로 오름차순 또는 내림차순으로 정렬하는 변환 단계입니다.

구성 요소:
정렬 키(Sort Key): 정렬 기준이 되는 컬럼을 선택합니다. 다중 컬럼 지정 시 우선순위에 따라 차례대로 정렬됩니다.
정렬 순서(Order): 오름차순(Ascending) 또는 내림차순(Descending)을 선택합니다.
미리보기(Data Preview): 정렬 결과를 즉시 확인할 수 있습니다.


장점:
사용자 요구에 따른 출력 순서를 제어합니다.
데이터 집계나 순위 분석 전에 데이터 순서를 명확히 정의합니다.


사용 시나리오:
시험 점수를 높은 순서대로 정렬해 상위 10명 출력
거래 일자 기준으로 과거 → 최신 순으로 정렬
고객 등급과 가입 일자를 복합 기준으로 정렬




2. 실습 준비

실습 구성

SQL 데이터베이스: dbo.adult 테이블 사용 (age, workclass, income 등 포함).
Data Flow: 
Filter: income == ">50K" (고소득자 데이터 선별).
Sort: 나이(age) 기준으로 오름차순 정렬.


스토리지 계정: adult_over50K_sorted.csv 파일로 저장.

데이터 및 테이블 준비

실습 데이터: Adult Census Income (Kaggle 데이터).
테이블 생성 쿼리 (필요 시 실행):CREATE TABLE adult (
    age INT,
    workclass NVARCHAR(20),
    fnlwgt INT,
    education NVARCHAR(20),
    education_num INT,
    marital_status NVARCHAR(30),
    occupation NVARCHAR(20),
    relationship NVARCHAR(20),
    race NVARCHAR(20),
    sex NVARCHAR(10),
    capital_gain INT,
    capital_loss INT,
    hours_per_week INT,
    native_country NVARCHAR(30),
    income NVARCHAR(10)
);

데이터 확인: select count(*) from [dbo].[adult] 실행 시 32,561건 확인.
목적지 컨테이너: 스토리지 계정 내 output 컨테이너 준비.

링크드 서비스 및 데이터세트 구성

링크드 서비스: outputSQL (Azure SQL DB), BlobStorage1 (Azure Blob Storage).
소스 데이터세트 (AdultSqlInput_DS): SQL DB의 dbo.adult 테이블 연결.
싱크 데이터세트 (AdultCsvOutput_DS): Blob Storage의 output 컨테이너 연결.


3. [실습 1] 필터 및 정렬 변환 구성

3-1. 데이터 플로우 생성 및 소스 추가

매핑 데이터 플로우 생성: 이름 FilterSort_DF.
데이터 흐름 디버그 켜기: Small 크기, 1시간 TTL 설정.
소스 추가:
출력 스트림 이름: adult.
데이터 세트: AdultSqlInput_DS.
프로젝션: age(integer), workclass(string), income(string) 등 형식 확인.



3-2. 필터 변환 설정 (FilterHighIncome)

필터 활동 추가: 소스 뒤에 Filter 활동 연결.
속성 설정:
출력 스트림 이름: FilterHighIncome.
들어오는 스트림: adult.


필터 식 입력 (식 작성기 활용):income == ">50K"
미리보기: 데이터가 >50K인 행만 남는지 확인.

3-3. 정렬 변환 설정 (SortByAge)

정렬 활동 추가: 필터 활동 뒤에 Sort 활동 연결.
속성 설정:
출력 스트림 이름: SortByAge.
들어오는 스트림: FilterHighIncome.


정렬 조건:
열: age.
순서: 오름차순 (Ascending).


미리보기: 나이가 적은 순서(22, 23, 24...)로 정렬되는지 확인.

3-4. 싱크 설정 및 파이프라인 실행

싱크 추가: AdultHighIncomeSortedSink 추가 및 AdultCsvOutput_DS 연결.
설정: '단일 파티션' 지정 후 단일 파일로 출력 선택, 파일명 adult_highincome_sorted.csv 입력.
파이프라인 생성: FilterSortAdult_PL 생성 후 데이터 플로우 활동 추가.
실행 및 확인: 파이프라인 성공 후 output 컨테이너에서 결과 파일 확인.


4. [실습 2] 필터 및 정렬 매개변수화 (Advanced)

고정된 값이 아닌, 실행 시점에 입력받은 값으로 필터링하고 정렬할 수 있도록 구성을 변경합니다.
4-1. 데이터 플로우 매개변수 정의
매핑 데이터 플로우의 [매개 변수] 탭에서 다음 항목을 추가합니다.


filterColumn (string): 필터링할 컬럼 이름.
filterValue (string): 필터링할 기준 값.
sortColumn (string): 정렬할 컬럼 이름.

4-2. 매개변수 기반 식 작성

필터 식 수정 (FilterAdult):
컬럼의 데이터 형식을 고려하여 동적으로 비교하는 식을 작성합니다.case(
    type(byName($filterColumn))=='Integer', toInteger(byName($filterColumn)) == toInteger($filterValue),
    toString(byName($filterColumn)) == $filterValue
)
정렬 식 수정 (SortByParam):
정렬 조건의 열을 식 작성기에서 매개변수로 지정합니다.byName($sortColumn)

4-3. 파이프라인 매개변수 연결


파이프라인 매개변수 생성: pFilterColumn, pFilterValue, pSortColumn 생성.
매핑: 파이프라인 활동의 [매개 변수] 탭에서 데이터 플로우 매개변수와 파이프라인 매개변수를 연결합니다.
filterColumn = @pipeline().parameters.pFilterColumn
filterValue = @pipeline().parameters.pFilterValue
sortColumn = @pipeline().parameters.pSortColumn



4-4. 실행 및 결과 확인


지금 트리거 클릭 후 매개변수 값 입력 예시:
pFilterColumn: age
pFilterValue: 52
pSortColumn: hours_per_week


결과: 나이가 52세인 데이터들만 추출되어 주당 근무 시간순으로 정렬된 adult_filtered_sorted.csv 파일이 생성됩니다.



실습 마무리: 모든 작업이 완료되면 비용 발생 방지를 위해 데이터 흐름 디버그 모드를 반드시 중지하십시오.


[Azure Data Factory] 메타데이터 활동 (Get Metadata Activity)
1. 메타데이터 활동(Get Metadata Activity) 개요
Get Metadata 활동은 데이터 소스(파일, 폴더, 테이블 등)의 메타데이터(크기, 수정일, 컬럼 목록 등)를 조회하는 데이터팩토리의 처리 단계입니다.
구성 요소

데이터셋(Dataset): 데이터 소스의 연결 정보 및 경로를 지정합니다.
조회할 필드(Field list): 다음과 같은 필요한 메타데이터 항목을 선택합니다.
childItems: 폴더 내 하위 항목 목록
exists: 데이터 소스 존재 여부
lastModified: 마지막 수정 시간
size: 파일 크기
structure: 데이터 구조(컬럼 목록) 등


필터(Pattern/Field filter): 특정 파일 확장자나 경로 패턴에 따라 조회 대상을 제한합니다.

장점

동적 분기 처리: 메타데이터를 기반으로 조건 분기 및 재시도 로직 구현이 가능합니다.
효율적 파이프라인 설계: 사전 검증을 통해 불필요한 복사 및 변환 작업을 예방합니다.
재사용성: 공통 메타데이터 조회 로직을 모듈화하여 여러 파이프라인에서 동일하게 활용할 수 있습니다.

사용 시나리오

파일 존재 여부 확인: 파이프라인 실행 전 대상 파일이 있는지 분기 처리합니다.
폴더 목록 조회: 폴더 내 파일, 하위 폴더 목록을 동적으로 파이프라인에 전달합니다.
테이블 스키마 조회: 테이블 컬럼 구조를 미리 확인하여 후속 매핑 데이터 흐름에 활용합니다.


2. [실습 1] 기본 메타데이터 조회
실습 준비

실습 데이터: UC Irvine Machine Learning Repository의 Wine Quality 데이터셋을 활용합니다.
데이터 특성: 레드 와인(winequality-red.csv)과 화이트 와인(winequality-white.csv)의 화학적 테스트 결과 데이터입니다.
데이터 형식: 세미콜론(;)을 구분자로 사용하는 CSV 파일입니다.
스토리지 구성: wine-quality 컨테이너 내에 위 두 파일을 업로드합니다.

파이프라인 및 데이터 세트 생성

파이프라인 생성: GetMetadataWine_PL 파이프라인을 생성하고 메타데이터 가져오기 활동을 추가합니다.
데이터 세트 설정 (wineContainer_DS):
형식: Delimited Text (Azure Blob Storage).
연결된 서비스: BlobStorage1.
파일 경로: wine-quality 컨테이너 지정.
열 구분 기호: Semicolon (;) 설정.



필드 목록 설정 및 실행


활동의 설정 탭에서 필드 목록을 다음과 같이 추가합니다.
exists
lastModified
childItems


결과 확인 (JSON 출력):



3. [실습 2] 메타데이터를 활용한 동적 파일 복사

조회된 메타데이터 목록을 바탕으로 특정 조건(파일명에 'red' 포함)에 맞는 파일만 다른 컨테이너로 복사하는 실습입니다.
전체 흐름

Get Metadata: 컨테이너 내 파일 목록 확인.
ForEach: 파일 목록을 순회하며 반복.
If Condition: 파일 이름에 'red'가 포함되어 있는지 확인.
Copy Data: 조건이 참인 경우 wine-quality-output 컨테이너로 복사.

활동별 세부 설정
1) ForEach 활동 (ForEachWineFiles)

항목(Items) 설정 식:@activity('WineFiles').output.childItems

2) If Condition 활동 (If Red)

식(Expression) 설정 식:@contains(item().name, 'red')

3) Copy Data 활동 (Copy Red Wine)

원본 데이터 세트 (wineContainerInput_DS):
매개 변수: fileName 생성.
연결 설정 식: @dataset().fileName.
활동 내 값 매핑: @item().name.


싱크 데이터 세트 (wineContainerOutput_DS):
파일 경로: wine-quality-output.
매개 변수: fileName 생성.
활동 내 값 매핑: @item().name.




4. 실행 및 결과 검증
실행 결과 모니터링

WineFiles: 성공 (메타데이터 조회).
ForEachWineFiles: 성공 (반복 처리).
If Red: 성공 (조건 판단 - 두 개의 파일에 대해 각각 실행).
Copy Red Wine: 성공 (조건이 참인 'red' 파일에 대해서만 실행).

최종 데이터 확인

wine-quality-output 컨테이너에 winequality-red.csv 파일이 정상적으로 복사되었음을 확인합니다.
복사된 파일의 내용을 미리 보기 하여 데이터 정합성을 확인합니다.


5. 실습 마무리

실습이 완료된 후에는 비용 발생 방지를 위해 데이터 흐름 디버그 모드를 반드시 중지합니다.




[MicrosoftDataSchool] 58일차 - AzureDataFactory, 매개변수, 트리거
Mon, 30 Mar 2026 08:29:16 GMT
ETL: Extract-Transform-Load
데이터의 최종 목적은 sink
Azure Data Factory는 보고서를 작성하는데 기초되는 데이터의 반복적 적재에 사용
Azure Data Factory 개요 정리
Azure Data Factory는 다양한 데이터 소스에서 데이터를 수집하고, 필요한 형태로 이동·변환·적재하는 데이터 통합 서비스이다. 이번 정리는 ADF의 개념, ETL/ELT 배경, 핵심 구성 요소, 그리고 Blob Storage의 CSV 데이터를 SQL Database로 복사하는 기본 실습 흐름까지 한 번에 정리한 내용이다.

1. 데이터와 AI 시대

데이터 기반 의사결정 중요성 증가함

기업은 데이터로부터 비즈니스 인사이트 도출 필요함

데이터 활용 목적:

고객 성향 분석
사회·경제 변화 분석
비즈니스 전략 수립



데이터를 수집하고 저장하는 것만으로는 충분하지 않고, 분석에 적합한 형태로 가공한 뒤 실제 의사결정에 연결해야 가치가 생긴다. 자료에서도 수집/변환/저장 → 데이터 분석 → 비즈니스 인사이트 도출 흐름으로 설명한다. 

2. 데이터 정의 및 유형
데이터 정의



구분
설명



위키백과
양, 품질, 사실, 통계 등의 형태로 된 의미의 단위


옥스포드 컴퓨터 용어 사전
프로그램을 운용할 수 있는 형태로 기호화·숫자화한 자료


네이버 사전
이론을 세우는 데 기초가 되는 사실 또는 바탕 자료


옥스포드 대사전
추론과 추정의 근거를 이루는 사실


데이터 유형



유형
설명



정성적 데이터
언어, 문자 등 비정형 데이터


정량적 데이터
숫자, 도형, 기호 등 정형 데이터


암묵지
학습, 체험 등으로 개인이 습득한 무형 지식


형식지
문서화되어 전달·공유가 가능한 지식


정형 데이터는 저장·검색·분석에 유리하고, 비정형 데이터는 활용 가치가 크지만 전처리와 통합이 더 어렵다. 

3. 데이터와 정보: DIKW 구조
DIKW 개념



단계
설명



Data
관찰을 통해 수집된 원시 데이터


Information
정제·가공되어 의미가 부여된 데이터


Knowledge
연결된 정보 패턴을 이해하여 내재화한 결과


Wisdom
근본 원리에 대한 깊은 이해를 바탕으로 한 의사결정


예시



단계
예시



Data
A마트 식빵 100원, B마트 식빵 200원


Information
A마트가 B마트보다 식빵이 더 쌈


Knowledge
식빵은 A마트에서 사는 것이 좋음


Wisdom
다른 식료품도 A마트가 더 저렴할 가능성이 높음


즉, 데이터는 그 자체로 끝나지 않고, 가공과 해석을 거쳐 정보·지식·지혜로 발전해야 실제 비즈니스 가치가 된다. 

4. OLTP와 OLAP



구분
OLTP
OLAP



목적
실시간 데이터 처리
데이터 분석 및 의사결정


데이터 형태
원시 데이터
정제·집계된 데이터


구조
정규화된 스키마 중심
분석 친화적 구조


특징
거래 시스템 중심
다차원 분석 및 리포트 중심


OLTP는 운영계 시스템이고, OLAP는 분석계 시스템이다. ADF는 주로 운영계의 데이터를 분석계 저장소로 이동시키는 역할과 맞닿아 있다. 

5. ADF, AML, BI의 역할



단계
도구
역할



수집·정제·결합
Azure Data Factory
ETL/ELT, 데이터 파이프라인 구축


분석·모델링
Azure Machine Learning
EDA, Feature Engineering, 모델 학습·예측


시각화·의사결정
Power BI
리포트, 대시보드, 결과 공유


ADF는 데이터를 준비하는 계층이고, AML은 패턴을 학습하는 계층이며, Power BI는 결과를 보여주는 계층이라고 보면 이해가 쉽다. 

6. 데이터 수집·저장 시 고려사항



항목
설명



파일 포맷
형식 변환이 필요한지 확인해야 함


질의 처리
쿼리 성능 및 실행 계획 확인 필요함


JSON 구조
스키마 변경 필요 여부 점검해야 함


결측치
누락 데이터 처리 기준 필요함


보안
민감 데이터 보호 방안 필요함


중복 데이터
여러 소스 통합 시 중복 제거 필요함


비용·인력
운영·이관에 드는 비용 고려해야 함


자료에서는 이 과정을 복잡성, 정합성, 무결성, 보안성 문제로 정리한다. 

7. 데이터로부터 가치를 얻는 데 장애가 되는 요인

데이터 사일로: 부서, 시스템별로 데이터가 분리되어 있어 통합·분석이 어려움
이기종 데이터 형식: 정형·비정형 데이터를 모두 다뤄야 해 관리 복잡성 증가함
솔루션 복잡성: 여러 도구를 병행 운영하면 유지보수 부담 커짐
멀티 클라우드 환경: 클라우드별 API와 접근 방식이 달라 관리 비용 증가함
급증하는 운영 비용: 인프라, 도구, 인력 비용이 누적되어 전체 TCO 상승함

핵심은 “데이터를 한곳에 통합하고, 권한 있는 사용자가 쉽게 활용할 수 있어야 한다”는 점이다. 

8. 가치 창출을 위한 데이터 환경 구축 요건



요소
설명



통합 데이터 허브
모든 데이터를 한 곳에 통합하고 다양한 형식을 지원해야 함


데이터 통합
원천 데이터를 ETL/ELT 방식으로 추출·변환·적재해야 함


Self-Service Access
사용자가 필요한 데이터를 손쉽게 조회·활용할 수 있어야 함


Right & Responsibility
데이터 품질 책임과 활용 책임을 분리해 관리해야 함


ADF는 이 중에서도 특히 데이터 통합을 담당하는 대표 도구로 볼 수 있다. 

9. ETL과 ELT
ETL

Extract: 원천 시스템에서 데이터 추출함
Transform: 중간 단계에서 정제, 표준화, 집계 수행함
Load: 대상 시스템에 적재함

ELT

Extract: 원천 시스템에서 데이터 추출함
Load: 우선 대상 시스템에 원시 데이터 적재함
Transform: 대상 시스템 내부에서 SQL, Spark 등으로 변환함

ETL vs ELT 비교



구분
ETL
ELT



처리 순서
추출 → 변환 → 적재
추출 → 적재 → 변환


변환 위치
외부 시스템
대상 시스템 내부


실행 시간
잦은 데이터 이동으로 상대적으로 느림
병렬 처리 활용 가능해 빠름


장점
정제된 상태로 적재 가능
대용량 처리와 클라우드 환경에 유리


유연성
정해진 파이프라인 중심
SQL/Spark로 유연하게 가공 가능


적합 환경
전통적인 DWH
고성능 DWH, 레이크하우스


활용 예시
금융기관 정기 보고서
로그, 센서, ML 분석용 데이터


최근에는 대용량 비정형·반정형 데이터가 늘어나면서 ELT 방식이 더 자주 활용된다고 설명한다. 

10. CDC(Change Data Capture)
CDC 개념
CDC는 데이터 소스에서 발생한 변경 사항만 감지해 추출하고 반영하는 방식이다.
CDC 처리 흐름



단계
설명



Detect
Insert, Update, Delete 같은 변경 이벤트 감지


Capture
변경 내용을 추출해 전달 가능한 형태로 준비


Apply
변경분만 대상 시스템에 반영해 동기화 유지


CDC 특징



항목
설명



주요 목적
전체 재처리 없이 최신 상태 유지


처리 방식
실시간 또는 Near Real-Time


주요 기술
DB 로그, 트리거, 타임스탬프 비교, Debezium 등


장점
대용량 효율 처리, 실시간 분석 가능


활용 예시
실시간 대시보드, 복제 시스템, 이벤트 기반 아키텍처


즉, CDC는 ETL/ELT의 배치 처리 한계를 보완하는 실시간 데이터 처리 방식이다. 

11. 데이터 파이프라인
데이터 파이프라인 정의
데이터 파이프라인은 원천 시스템에서 분석·활용 시스템까지 이어지는 전체 데이터 흐름을 자동화하는 구조다. 수집, 처리, 저장, 전달 전 단계를 연결한다. 
데이터 파이프라인 단계



단계
설명



Ingest
파일, DB, API, IoT 등에서 데이터 수집


Process
정제, 필터링, 변환, 결측치 처리, 집계


Store
데이터 웨어하우스, 데이터 레이크 등에 저장


Deliver
대시보드, 분석 시스템, 모델링 시스템 등에 전달


데이터 파이프라인 특징

자동화: 반복 작업을 자동 실행함
연속성: 흐름이 단계별로 끊기지 않음
확장성: 병렬 처리 및 클라우드 인프라 활용 가능함
신뢰성: 재처리, 오류 감지, 모니터링 가능함
실시간성: 스트리밍 처리도 가능함


12. 데이터 파이프라인 구성 요소



구성 요소
설명



Data Source
데이터베이스, 파일 시스템, API, 로그 등 원천 위치


Extract
소스에서 데이터를 읽어오는 단계


Transform
필터링, 조인, 포맷 변경, 집계 등 가공 단계


Load
대상(데이터 웨어하우스, 데이터레이크, NoSQL DB) 시스템에 저장하는 단계


Orchestration
전체 흐름 제어, 조건 분기, 재시도, 트리거 관리


Monitoring & Alert
성공/실패 감시, 알림, 로깅, 성능 분석


Execution Environment
정의된 파이프라인을 실제 실행하는 컴퓨팅 환경


ADF에서는 이 Execution Environment를 Integration Runtime이라고 부른다. 

13. 오케스트레이션과 트랜스포메이션

  
    
      구분
      구성 요소
      설명
    
  
  
    
      오케스트레이션
      워크플로우
      작업 순서와 흐름 정의
    
    
      트리거
      일정·이벤트·수동 실행 조건 설정
    
    
      조건 분기 및 반복
      조건에 따른 분기와 루프 제어
    
    
      에러 처리 및 알림
      실패 시 재시도, 로그, 알림 수행
    
    
      트랜스포메이션
      Extract
      데이터 추출
    
    
      Transform
      데이터 가공
    
    
      Load
      데이터 적재
    
    
      사용자 정의 로직
      커스텀 처리 코드 실행
    
  


ADF는 특히 오케스트레이션에 강점이 있고, 복잡한 변환은 외부 컴퓨팅 서비스와 함께 사용하는 구조가 자주 등장한다. 

14. Execution Environment



도구/플랫폼
실행 환경 명칭
설명



Azure Data Factory
Integration Runtime
컴퓨팅/실행 엔진(Azure/Self-Hosted/SSIS)


AWS Glue
Job Worker / Spark Environment
Spark 기반 실행 환경


Apache Airflow
Worker / Executor
DAG를 실제로 실행하는 프로세스


Google Dataflow
Worker / Runner
파이프라인을 실행하는 관리형 워커 노드


Talend
Job Server
Talend Job 실행 환경


파이프라인이 “무엇을 할지”를 정의한다면, Execution Environment는 “어디서 어떻게 실행할지”를 담당한다. 

Azure Integration Runtime: 클라우드상
Self-Hosted: 로컬환경상


15. Azure Data Factory 구성 요소

자료에서는 ADF를 배송 시스템에 비유한다. 출발지 서류보관함에서 서류를 집하해 처리한 뒤 목적지 서류보관함에 전달하는 흐름으로 설명한다. 이 비유에서 파이프라인은 전체 배송 계획, 액티비티는 개별 운송 작업, 데이터셋은 다루는 서류 묶음, 링크드 서비스는 출발지·도착지 정보, Integration Runtime은 실제 배송을 수행하는 엔진에 해당한다. 
ADF 핵심 구성 요소


Linked Service는 저장의 추상화 Pipeline과 Activity 관계

그림에서는 Activity 중 Copy를 예시로 듬

자료의 그림에서는 하나의 Pipeline 아래에 여러 Copy Activity가 들어갈 수 있고, 각 Activity는 입력 Dataset과 출력 Dataset을 가진다. 즉, 파이프라인은 큰 흐름이고 액티비티는 그 안에서 수행되는 세부 작업이다. 
(원본 → 싱크)
Pipeline과 Linked Service 관계


16. ADF 실습 구성
기본 실습의 전체 구조는 다음과 같다. 자료의 아키텍처 그림에서 Blob Storage의 CSV 파일을 SQL Database 테이블로 복사하는 구조를 보여준다. 중간에는 ADF Pipeline, Integration Runtime, Linked Service, Dataset, Copy Activity가 위치한다.
Blob Storage (CSV)
  ↓
Linked Service
  ↓
Source Dataset
  ↓
Copy Activity
  ↓
Sink Dataset
  ↓
Linked Service
  ↓
SQL Database (Table)
실습 아키텍처 구성 요소



구간
구성



원본
Blob Storage의 CSV 파일


연결 정보
Blob Linked Service


원본 정의
Source Dataset


복사 작업
Copy Activity


목적지 정의
Sink Dataset


연결 정보
SQL Linked Service


목적지
SQL Database Table


실행 엔진
Integration Runtime


전체 제어
Pipeline



17. 실습
17-1. 실습 데이터 다운로드
실습 데이터는 iris.csv와 iris-columns.sql 파일로 구성된다. iris.csv에는 SepalLength, SepalWidth, PetalLength, PetalWidth, Species 컬럼이 포함된 붓꽃 데이터가 들어 있다. 
17-2. 리소스 그룹 생성

17-3. ADF 리소스 생성
ADF 생성 시 설정한 주요 항목은 다음과 같다.



항목
설정 예시



이름
영문자, 숫자, 하이픈 조합


지역
자유롭게 지정


버전
V2


리소스 그룹
방금 만든 그룹 선택


배포가 완료되면 Data Factory 리소스의 첫 화면에서 Studio를 시작할 수 있다. 
17-4. SQL Database 생성

SQL Database 생성 과정에서는 논리 서버도 함께 만든다.



항목
설정 예시



리소스 그룹
실습용 리소스 그룹


데이터베이스 이름
식별 가능한 이름


서버
새로 만들기


인증 방식
SQL 인증 사용


워크로드
개발


컴퓨팅 계층
DTU Basic


최대 크기
2GB


연결 방법
Public Endpoint


방화벽
Azure 서비스 허용, 현재 클라이언트 IP 허용


서버 만들기

컴퓨팅 구성

네트워크 구성(방화벽)


TLS 버전은 항상 최신으로 사용하는 것이 좋다17-5. Storage Account 생성


Storage Account 생성 시 설정 항목은 다음과 같다.



항목
설정 예시



리소스 그룹
실습용 리소스 그룹


스토리지 계정 이름
기억하기 쉬운 이름


지역
ADF와 동일 지역


기본 스토리지 유형
Azure Blob Storage 또는 Azure Data Lake Storage Gen2


워크로드
기타


성능
표준


중복도
GRS


배포가 끝나면 Blob 서비스와 컨테이너를 생성해 원본 파일을 올릴 수 있다. 

18. 원본 데이터 준비
18-1. 컨테이너 생성

Storage Account에서 Blob service로 이동한 뒤 컨테이너를 생성한다. 자료 예시에서는 inputstorage라는 이름을 사용한다. 컨테이너는 비공개 상태로 생성된다. 
18-2. CSV 파일 업로드

생성한 컨테이너에 iris.csv 파일을 업로드한다. 업로드 후 파일을 클릭해 개요와 편집 화면을 확인할 수 있다. 
18-3. Blob 안에서 CSV가 보이는 형태

자료의 편집 화면 예시에서는 다음과 같은 구조로 보인다.

첫 행: 헤더
이후 행: 데이터 샘플
구분자: 쉼표(,)

CSV 컬럼 구조



컬럼
의미



SepalLength
꽃받침 길이


SepalWidth
꽃받침 너비


PetalLength
꽃잎 길이


PetalWidth
꽃잎 너비


Species
품종


참고) 대시보드 고정 기능
자료에서는 실습 중 여러 리소스를 자주 오가야 하므로, 리소스 그룹·ADF·SQL Database·SQL Server·Storage Account를 대시보드에 고정하는 방식을 소개한다. 핀 아이콘으로 메뉴를 고정하고, 새 대시보드를 만들어 자주 쓰는 리소스를 한눈에 모아두면 이동이 편해진다. 
대시보드 고정 대상 예시



리소스
용도



Data Factory
파이프라인 편집 및 실행


SQL Database
목적지 테이블 관리


SQL Server
방화벽 및 서버 설정


Storage Account
원본 CSV 업로드


Resource Group
전체 리소스 관리




좌상단 핀버튼 누르고 추가 가능
대시보드 접근은 좌상단 三 버튼 누르기


19. 목적지 테이블 준비

SQL Database 리소스로 이동한 뒤 쿼리 편집기에서 SQL 인증으로 로그인한다. 이후 iris-columns.sql의 내용을 복사해 실행하여 목적지 테이블을 만든다. 자료 예시에서는 Iris 테이블을 생성한다. 실행 후 Explorer에서 테이블과 컬럼이 보이고, Messages 영역에 Query executed successfully가 표시된다. 
생성 SQL

CREATE TABLE Iris (
    SepalLength decimal(5,2),
    SepalWidth decimal(5,2),
    PetalLength decimal(5,2),
    PetalWidth decimal(5,2),
    Species nvarchar(100)
);

생성 테이블 구조



컬럼
타입



SepalLength
decimal(5,2)


SepalWidth
decimal(5,2)


PetalLength
decimal(5,2)


PetalWidth
decimal(5,2)


Species
nvarchar(100)



20. Data Factory Studio 진입
ADF 리소스에서 Studio 시작하기를 클릭한 뒤, 왼쪽의 연필 아이콘인 Author 메뉴로 이동한다. 여기서 파이프라인, 데이터셋, 연결된 서비스 등을 만들 수 있다.


21. 파이프라인 생성

자료의 화면 예시에서는 파이프라인 목록 오른쪽 메뉴에서 새 파이프라인을 클릭하고, 편집창이 열리면 우측 속성의 일반 메뉴에서 이름을 지정한다. 예시 이름은 Blob to SQL이다. 
파이프라인 설정




항목
예시



파이프라인 이름
Blob to SQL


역할
전체 데이터 복사 흐름 제어


파이프라인은 가장 상위의 작업 흐름 단위이며, 이후 여기에 Linked Service, Dataset, Copy Activity가 연결된다.

22. 원본 Linked Service 생성

관리 메뉴에서 연결된 서비스를 선택하고 새로 만들기를 눌러 Blob Storage 연결 정보를 생성한다. 이 연결은 원본 CSV 파일이 있는 Storage Account를 가리킨다. 

로컬에 있는걸 연결하고 싶으면 통합 런타임이 아닌 다른 런타임을 사용해야 한다.
생성 전 연결 테스트는 항상 해보자.
22-2. 원본 Dataset 생성



형식: CSV
연결: Blob Linked Service
대상: 업로드한 iris.csv
특징: 첫 행을 헤더로 사용함

데이터세트는 하나의 함수로 이해하면 됨
데이터 미리보기

미리보기로 연결이 정상인지 확인

23. 싱크 Linked Service 생성

Azure SQL Database 선택

만들기가 비활성화됐다면 취소했다가 다시 생성하면 된다. 
혹은 db, adf 네트워킹 설정을 다시 확인해보자.
같은 방식으로 SQL Database용 Linked Service를 생성한다. 이 연결은 SQL 서버 주소, 데이터베이스, 인증 정보 등을 사용해 목적지에 접속한다. 
Linked Service 정리




구분
연결 대상
역할



원본 Linked Service
Blob Storage
CSV 원본 연결


싱크 Linked Service
SQL Database
대상 테이블 연결



23-2. 싱크 Dataset 생성



Dataset 정리




구분
형식
연결
대상



Source Dataset
CSV
Blob Linked Service
iris.csv


Sink Dataset
SQL Table
SQL Linked Service
Iris Table



24. Copy Activity

Copy Activity는 실습의 핵심이다. 원본 Dataset에서 데이터를 읽어 싱크 Dataset으로 복사한다. 자료의 실습 구성도에서는 Blob과 SQL 사이 중앙에 Copy Activity가 배치되고, 이후 강조 표시된 그림에서는 Dataset → Copy Activity → Dataset 구간이 하나의 핵심 처리 블록으로 묶여 있다.
좌측 데이터 복사를 드래그 앤 드랍

스키마 가져오기 선택

디버그

실무에서는 트리거를, 실습에서는 디버그를 사용(단일 테스트)

db의 쿼리편집기에서 확인

Copy Activity 역할



항목
설명



입력
Source Dataset


출력
Sink Dataset


기능
데이터 복사 및 기본 매핑 수행


위치
Pipeline 내부



25. 게시

게시하지 않으면 저장이 안되므로 주의하자

26. 파이프라인 실행
26-2. 파이프라인 트리거

26-3. 결과 확인
모니터에서 확인

쿼리 편집기에서 확인

동일한 실행을 두 번하여 중복 발생으로 2배 count됨

27. 파이프라인 수정

매번 실행마다 delete 후 실행하도록 처리



28. ADF 구성 요소 관계 정리
28-1. Pipeline과 Activity
Pipeline 아래에 여러 Activity가 들어갈 수 있다. 하나의 파이프라인 안에서 원본과 목적지가 다른 복사 작업을 여러 개 넣을 수도 있다. 
28-2. Pipeline과 Linked Service
여러 Activity가 같은 원본 Storage 또는 같은 SQL Database를 사용할 경우, 연결 정보는 하나의 Linked Service를 재사용한다. 즉, 연결을 중복 생성하지 않고 중앙에서 관리할 수 있다.
28-3. Pipeline과 Dataset
Copy Activity는 각각 원본 Dataset과 싱크 Dataset을 참조한다. Dataset은 실제 데이터 파일이나 테이블의 위치와 형식을 정의하므로, Activity가 데이터를 해석하는 기준이 된다.

29. 폴더로 정리


30. 실습 흐름 한 번에 정리
리소스 준비 단계

실습 데이터 다운로드
리소스 그룹 생성
Data Factory 생성
SQL Database 및 SQL Server 생성
Storage Account 생성
Blob 컨테이너 생성
CSV 업로드
SQL 테이블 생성

ADF 작업 단계

Data Factory Studio 진입
Author 메뉴 이동
새 파이프라인 생성
Blob Linked Service 생성
SQL Linked Service 생성
Source Dataset 생성
Sink Dataset 생성
Copy Activity 추가
Source Dataset 연결
Sink Dataset 연결
복사 실행

이 전체 흐름의 목표는 Blob Storage의 CSV 데이터를 SQL Database 테이블로 복사하는 것이다.

31. 핵심 개념 요약



항목
내용



데이터 문제
데이터 사일로, 이기종 데이터, 높은 운영 복잡성


해결 방향
데이터를 한곳에 통합하고 자동화된 파이프라인 구축


핵심 방식
ETL, ELT, CDC


ADF 역할
데이터 이동·오케스트레이션


실행 엔진
Integration Runtime


실습 구조
Blob CSV → Copy Activity → SQL Table



32. 마무리
Azure Data Factory는 데이터를 직접 분석하는 도구라기보다는, 분석 가능한 형태로 데이터를 연결하고 이동시키는 데이터 파이프라인 도구에 가깝다. 따라서 ADF를 이해할 때는 단순히 “복사 도구”로 보기보다, 원본 시스템과 분석 시스템 사이를 이어주는 오케스트레이션 계층으로 보는 것이 중요하다. 이번 실습도 결국 Blob Storage의 파일과 SQL Database의 테이블을 연결하면서, Pipeline·Activity·Dataset·Linked Service·Integration Runtime이 어떻게 협력하는지 익히는 과정이라고 볼 수 있다.



제공해주신 소스(03-30-2.01 매개변수화_v12.pdf)의 개요 부분 내용을 요약 없이 마크다운 형식으로 정리해 드립니다.

매개변수화(Parameterization) 개요
1. 매개변수화(Parameterization) 정의
매개변수(Parameter)는 데이터 팩토리의 작업 수행 시 입력값으로 사용되는 값이며, 각 액티비티, 파이프라인, 데이터셋(Datasets) 등에서 사전에 정의된 값 또는 사용자 정의 값을 입력받을 수 있습니다. 매개변수화는 특히 프로덕션 환경에서 재사용성과 유지보수성 향상에 큰 효과가 있습니다.
2. 매개변수화를 지원하는 구성요소

Parameters (매개변수): 파이프라인 실행 시 외부에서 값을 입력받아 유연한 구성 가능.
Variables (변수): 파이프라인 내에서 상태값을 유지하거나 중간 결과를 저장.
Expressions (표현식): 동적 값을 계산하거나 조건문 등을 구성할 수 있는 함수 기반 표현식.

3. 매개변수화의 이점

흐름 제어: 다양한 조건에 따라 실행 경로를 제어 가능.
시간 절약: 동일한 파이프라인을 여러 시나리오에 재사용.
유연한 설계: 솔루션을 일반화하고 유지보수 용이.


4. Parameters (매개변수) 상세
파이프라인, 데이터세트 등에서 정의하는 외부 입력값으로, 실행 시 값을 주입받아 유연한 동작을 지원합니다.



항목
내용



주요 특성
• 사전에 정의된 값 혹은 사용자 정의 가능
• 주로 실행 시점에 결정되는 정적인 값
• 런타임 시점에 값 전달
• 데이터세트, 파이프라인 등 다양한 요소에 적용


활용 목적
• 동적 처리: 날짜별/부서별/환경별 분기
• 재사용성: 동일 파이프라인을 다양한 값으로 실행
• 유연성: 실행 시점에 변경 가능한 구성


활용 예시
• 날짜별 파이프라인 실행: 특정 일자 데이터만 추출
• 환경 분기: Dev./Prod. 연결 서비스 자동 전환
• 부서별 로직: SQL 쿼리의 동적 적용


구문 예시
@pipeline().parameters.inputDate



5. Variables (변수) 상세
파이프라인 실행 중에 값을 저장, 조회, 업데이트할 수 있는 내부 런타임 변수입니다.



항목
내용



주요 특성
• 범위(scope): 파이프라인 단위(자식 파이프라인에 자동 전달되지 않음)
• 런타임 수정 가능: Set Variable 액티비티로 값 변경
• 선언 시 초기값 지정 가능
• 지원 데이터 타입: String, Boolean, Int, Array


활용 예시
• 중간 연산값 관리: 복잡한 표현식 결과를 변수에 담아 재사용
• 재시도 카운터: 오류 발생 시 retryCount를 1씩 증가시켜 제어
• 루프 인덱스 누적: ForEach 반복 횟수 누적 혹은 조건부 루프 제어
• 상태 메시지: 각 단계 완료 후 상세 로그 저장


선언 구문
"variables": { "retryCount": { "type": "Int", "defaultValue": 0 } }


참조/할당
참조: @variables('retryCount')
할당: @add(variables('retryCount'), 1)



6. Expressions (표현식) 상세
런타임에 동적으로 값의 연산, 변환, 판단을 수행하기 위해 다양한 함수를 포함하는 표현식을 활용합니다.

주요 특징:
런타임 평가: 실행 시점에 해석 및 실행되어 동적 경로 생성.
풍부한 함수 라이브러리: 문자열, 수치, 날짜, 논리, 배열 등 지원.
동적 참조: 파라미터, 변수, 액티비티 출력값 통합 사용.
중첩 가능: 함수 안에 함수를 삽입하여 복합 연산 지원.


활용 예시:
@concat('landing/', pipeline().parameters.region, '/', formatDateTime(utcNow(), 'yyyyMMdd'))
@formatDateTime(addDays(utcNow(), -1), 'yyyy-MM-dd')
@if(greater(activity('Lookup').output.count, 0), 'HasData', 'NoData')


자주 쓰이는 함수: concat, formatDateTime, addDays, if, length, json.


7. Parameters vs Variables 비교 요약



구분
Parameter
Variable



정의
파이프라인 실행 시 외부에서 주입받는 입력 값
파이프라인 실행 중 내부에서 생성, 조회, 업데이트 가능한 런타임 변수


적용 범위
파이프라인, 데이터세트, 연결 서비스 등 선언한 레벨에 한정됨
파이프라인 단위(자식 파이프라인에 전달되지 않음)


런타임 변경
불가능 (정적 값)
Set Variable 액티비티로 언제든 변경 가능


참조 구문
@pipeline().parameters.<이름>
@variables('<이름>')


주요 활용 예
날짜 필터링, 환경 분기(environment)
재시도 카운터 증가, 상태 메시지 저장



8. 실습 시나리오 - 파이프라인 매개변수화
매개변수화를 위한 시나리오 확장

데이터세트의 매개변수화


9. 실습
9-1. Azure Container에 원본 데이터 업로드

9-2. 목적지 데이터 생성
SQL Server에서 SQL 데이터베이스로 접속 후 쿼리편집기에서 추가


9-3. 연결된 서비스(Linked Service) 준비

9-4. 소스 데이터세트 생성

9-5. 목적지 데이터세트 생성

9-6. 파이프라인 생성

디버그

9-7. 데이터세트 매개변수화(원본)


연결탭의 파일 경로에서 파일 이름 삭제

동적 콘텐츠 추가 - 하단의 매개 변수 선택

9-8. 데이터세트 매개변수화(싱크)

수동으로 입력 체크

9-9. 데이터세트 매개변수화 테스트
원본 설정

싱크 설정

디버그 실행

9-10. 데이터세트 매개변수화 적용


9-11. 데이터세트 매개변수화 활용: 데이터 백업 추가

데이터복사 추가 


위에서부터 성공, 실패, 항상처리 시 다음 처리 연결 노드
백업이므로 output(원본) → input(싱크)

디버그

추가된것을 확인 가능


9-12. 데이터세트 매개변수화 활용2: 데이터 백업 날짜 추가

싱크 - 값에 동적 콘텐츠 추가 후 식 선택

String - concat

Date-utcNow

쉼표 입력 후 .csv 입력 


디버그 확인


10. ADF의 parameters
Linked Service 매개변수
• 예시 : SQL Server에서 사용되는 데이터베이스를 매개변수화
Dataset 매개변수
• 예시 : 파일 이름, Blob 컨테이너 등을 매개변수화
Pipeline 매개변수
• pipeline 내에서 특정 값을 전달할 수 있도록 매개변수 사용
• 예시 : pipeline에서 특정 원본 파일을 특정 싱크 파일에 복사하도록 매개변수 지정
Global 매개변수
• Data Factory 수준에서 사용되는 매개변수
• 원하는 곳에서 참조 가능

11. 파이프라인 매개변수화

파이프라인 매개변수 설정

파이프라인식 작성기에서 파라미터 추가

원본에도 동적 콘텐츠 추가

Copy data1쪽도 동일하게 처리
원본-동적콘텐츠추가

싱크-동적콘텐츠추가

디버그

이후 게시

트리거
1. 트리거(Trigger) 개요 및 방식

개요: 데이터 수집/변환 워크플로우 설계 시 작업 실행 시점과 방식을 설계하는 것은 매우 중요하며, 트리거는 워크플로우 자동화의 핵심 요소입니다.
제공되는 트리거 방식:
Schedule 트리거: 지정한 일정에 따라 정기적으로 파이프라인을 실행합니다.
Tumbling Window 트리거: 고정된 시간 간격(윈도우)을 기준으로 데이터를 수집하고 처리하며, 각 윈도우는 겹치지 않습니다.
Storage Event 트리거: Azure Blob Storage에서 파일이 생성되거나 변경되는 이벤트에 반응합니다.
Custom Event 트리거: Event Grid, Event Hub 등을 연동하여 사용자 정의 이벤트를 수신하고 파이프라인을 실행합니다.
Manual 트리거: ADF Studio UI에서 직접 실행하거나 REST API 호출을 통해 수동으로 실행합니다.



2. Schedule 트리거 상세


정의: 시작일, 종료일, 주기, 특정 요일 등을 기반으로 파이프라인 실행 일정을 구성하는 방식입니다.
설정 항목:
Start Date: 트리거 시작일 지정.
Time: 트리거 시작 시각 지정.
Time Zone: 시간대 설정 (예: Seoul UTC+9).
Recurrence: 반복 실행 주기 (분, 시간, 일, 주, 월).
End Date: 트리거 반복 종료 시점 (선택 사항).


적합한 작업: "하루 한 번", "매주 월요일 오전 9시", "매달 1일 오전 2시" 등 정기적인 반복 작업.
관계: Many-to-many 관계로, 하나의 트리거가 여러 파이프라인을 실행할 수 있고 하나의 파이프라인이 여러 트리거에 연결될 수 있습니다.
적용 방식:
주기 기반: 매 1시간, 매일 등 정해진 간격 반복 (실행 시 겹치지 않도록 주의).
특정 시간 지정: 매일 오전 10시 30분 등 세밀한 시간 지정.
요일 지정: 매주 월, 수, 금요일 등 요일 기준 실행.
날짜 지정: 매월 1일, 15일 등 월마다 반복되는 이벤트 처리.



3. Tumbling Windows 트리거 상세

정의: 고정된 크기의 시간 간격으로 구간을 나누고, 각 구간(윈도우)에 대해 하나의 파이프라인 실행을 트리거합니다. 윈도우 간 중첩이 없고 독립적인 실행 단위로 관리됩니다.
주요 특징:
간격(Interval): 일정 주기 지정.
윈도우 간 관계: 중첩 없이 실행되며 윈도우 단위별 독립 실행.
재시도 정책(Retry): 파이프라인 수준에서 자동 재시도 가능.
상태 관리(Concurrency): 이전 실행 결과를 고려할 수 있도록 동시성 설정 지원. 빡빡하게 관리할거면 1로 설정
관계: One-to-one 관계로, 각 트리거는 특정 파이프라인에만 연결됩니다.
시간대 기준: UTC.


적용 예시: 시간 구간별 안정적 수행이 필요한 업무, 센서 데이터/로그 등 시간 단위 데이터 처리, 이전 실행 상태에 따른 다음 처리 여부 결정, 실행 실패 시 자동 재시도가 필요한 경우, 상태 기반 병렬 처리 설정 시 활용됩니다.
Schedule 트리거와 비교:





구분
Schedule Trigger
Tumbling Windows Trigger



주기 유형
고정 주기
고정 간격 시간 구간


재시도 정책
없음
파이프라인 단위 재시도 지원


실행 관계
Many-to-many
One-to-one


상태 관리
이전 수행 상태와 무관
이전 파이프라인 상태 고려


실행 의존성
없음
다른 트리거에 의존 가능


적용 예
단순 정기 실행
시간 단위 안정적 처리



동시성(Concurrency): 1일 경우 이전 파이프라인 종료 시까지 대기하며, 2 이상일 경우 주기가 짧을 때 여러 파이프라인이 겹쳐서 실행될 수 있습니다. 처리되지 못한 윈도우가 쌓였을 때 이를 빠르게 소진하기 위해 2 이상으로 설정하기도 합니다.
작업에 따라 적절한 동시성을 설정해야 합니다. 동시성 설정에 따라, 파이프라인 실행이 무한 대기에 빠질
수도 있으며, 겹쳐서 수행되는 파이프라인으로 인해 문제가 발생할 수 있습니다.


4. Storage Event 트리거 상세


정의: Blob Storage에서 이벤트 발생 시 즉시 자동으로 파이프라인을 실행합니다.
주요 특징: 실시간성, 자동화(수동 모니터링 불필요), Event Grid 기반(이벤트 감지 및 자동 호출), 다대다 관계 지원.
이벤트 흐름: 컨텐트 자체가 아닌 이벤트 정보(파일 이름, 파일 경로 등)를 전달하며, 데이터 컨텐트는 전달받은 정보를 바탕으로 직접 가져와야 합니다.
설정 및 동작:
Blob path ends with: 설정한 값(예: .csv)으로 끝나는 파일에 대해 적용.
이벤트 종류: Blob created(생성) 또는 Blob deleted(삭제).
Ignore empty blobs: 비어 있는 블롭에 대한 처리 여부 설정.
제한 사항: 파이프라인 실패 시 재시도 정책이 없으며, 동시성 정책이 없어 이벤트 발생 시마다 겹쳐서 수행될 수 있습니다.



5. Manual 트리거 상세


정의: ADF UI 내 메뉴를 통하거나 REST API를 사용하여 수동으로 파이프라인을 트리거합니다.
방법: ADF UI 직접 트리거 또는 Azure Logic Apps와 연동하여 외부 요청에 따라 파이프라인을 실행합니다.


6. [실습] 트리거 구성 과정
6-1. 실습 준비 (컨테이너 및 링크드 서비스)

컨테이너: input, output 컨테이너를 생성하고 input에 iris.csv를 업로드합니다.

링크드 서비스: BlobStorage1 (Azure Blob Storage) 생성.
input output을 구분하지 않고 쓸 수 있도록 새로 생성


데이터세트: inputCSV1(input 컨테이너), outputCSV1(output 컨테이너) 생성. inputCSV1은 첫 번째 행을 머리글로 설정합니다.


파이프라인: pipeline1 생성 후 Copy Data 활동을 배치하고 원본과 싱크를 연결합니다.


매개변수화: 데이터세트에 fileName 매개변수를 생성하고 파일 경로에 @dataset().fileName 동적 콘텐츠를 추가합니다. 파이프라인 테스트 시 iris.csv를 입력하여 성공 여부를 확인합니다.


디버깅: 파이프라인의 원본, 싱크에 값 입력



6-2. Schedule 트리거 실습


트리거 생성: scheduleTrigger1 (형식: 일정, 주기: 15분) 생성 및 게시.

검증: 모니터링 탭에서 성공 상태와 생성된 파일을 확인합니다.

트리거 편집에서 주 단위 고급 되풀이 옵션 확인 가능


One-to-Many 실습: pipeline2(Wait 활동 포함)를 생성하고 기존 scheduleTrigger1에 연결하여 두 파이프라인이 동시 실행되는 것을 확인합니다.

파이프라인은 여러개지만 트리거는 동일한 트리거


관리-트리거에서 중지 후 삭제 가능

중괄호 아이콘 선택 시 트리거 코드 확인 가능



6-3. Tumbling Window 트리거 실습

Tumbling Window는 오프셋 오류를 방지하기 위해 00초로 설정하는게 바람직

재시도 정책을 2로 하면 실패시 재시도를 최대 2번까지 함
오프셋은 보통 이전걸 참조해야하니 음수값을 많이 준다
창크기는 고정된 시간 기준으로 이전 몇개까지 진행됐던 걸 볼거냐를 설정 가능케 함

파이프라인 준비: LoadData(Wait 3초)와 ProcessData(Wait 5초) 파이프라인을 준비합니다.

트리거 구성: TW_LoadData1 생성 후, TW_ProcessData1 생성 시 종속성 추가를 통해 TW_LoadData1이 성공한 후에만 실행되도록 설정합니다.


만약 현재 시각이 08:00:00인 경우, 창 크기가 5분인 경우의 모든 종속성을 검토하고자 한다면 최소한 현재보다 5분 전으로 시작시간을 설정해야 함

확인: 모니터링 화면에서 '종속성 대기' 및 '성공' 상태를 확인하고 Gantt 차트로 업스트림 관계를 검토합니다.





매번 변경사항마다 게시를 눌러야 적용됨을 잊지 말자 
6-4. Storage Event 트리거 실습

준비: fileName 매개변수를 사용하는 Copy CVS 파이프라인을 생성합니다.(입출력 전부 fileName 매개변수 사용, input output 구분만 주의)

트리거 생성: SE_NewCSV (이벤트: 생성됨, 끝 문자: .CSV) 생성 및 파이프라인 매개변수에 @triggerBody().fileName을 매핑합니다.


테스트: input 컨테이너에 penguins.csv를 업로드하여 파이프라인이 자동 실행되는지 확인합니다.

파일 삭제 실습: Delete 활동을 사용하는 파이프라인과 SE_DeleteCSV(이벤트: 삭제됨) 트리거를 생성하여 파일 삭제 시 로깅이 발생하는지 테스트합니다.

Delete시에는 항상 로깅을 기본으로 해야 함

추가 및 실행 후 input에서 파일을 삭제 시 output에서도 삭제되는지 확인 


6-5. 수동 트리거 (Logic Apps) 실습

준비: Copy CSV to CSV 파이프라인과 관련 데이터세트(inputCSV3, outputCSV3)를 준비합니다.

Logic Apps 구성: A000-manual-trigger 로직 앱을 생성하고, Recurrence 트리거와 Azure Data Factory - 파이프라인 실행 만들기 동작을 추가합니다.


매개변수 주입: 로직 앱에서 {"fileName":"penguins.csv"} JSON 데이터를 전달하도록 설정합니다.

확인: 로직 앱 실행 기록(Succeeded)과 ADF 파이프라인 모니터링(수동 트리거 항목)을 통해 최종 결과를 확인합니다.




(혹시몰라서) 매개변수 등록 순서 정리
Azure Data Factory(ADF)에서 매개변수를 설정하는 과정은 크게 데이터세트 수준의 설정, 파이프라인 수준의 설정, 그리고 이 둘을 연결(매핑)하는 과정으로 나뉩니다. 전체적인 스텝을 순서대로 정리해 드립니다.
1. 데이터세트 매개변수 정의
먼저 데이터를 동적으로 처리할 수 있도록 데이터세트 자체에 매개변수를 생성합니다.

데이터세트 열기: 수정할 데이터세트를 선택합니다.
매개변수 탭 이동: 하단의 [매개변수] 탭을 클릭한 후 [+새로 만들기]를 통해 사용할 이름(예: fileName, tableName)과 형식을 지정합니다.
동적 콘텐츠 적용: [연결] 탭으로 돌아가 동적으로 바뀔 항목(파일명, 테이블명 등)을 클릭하고 하단에 나타나는 [동적 콘텐츠 추가]를 선택합니다.
식 작성: 파이프라인 식 작성기에서 앞서 만든 매개변수를 선택하여 @dataset().매개변수명 형태의 식이 입력되도록 합니다.

2. 파이프라인 매개변수 정의
파이프라인 실행 시 외부에서 값을 입력받을 수 있도록 설정합니다.

파이프라인 캔버스 클릭: 파이프라인 내 빈 공간을 클릭하여 하단 속성창을 활성화합니다.
매개변수 추가: 하단의 [매개변수] 탭에서 [+새로 만들기]를 눌러 외부에서 주입받을 매개변수 이름과 형식을 정의합니다.

3. 활동(Activity)에서 매개변수 매핑
파이프라인 매개변수를 데이터세트 매개변수로 전달하는 과정입니다.

활동 선택: 파이프라인 내의 활동(예: 복사 활동)을 클릭합니다.
원본/싱크 설정: 활동 속성의 [원본] 또는 [싱크] 탭으로 이동합니다.
데이터세트 속성 입력: 해당 탭 하단의 데이터세트 속성 섹션에 이전에 정의한 데이터세트 매개변수들이 나열됩니다.
파이프라인 매개변수 연결: 각 속성의 값 필드를 클릭하고 [동적 콘텐츠 추가]를 눌러 파이프라인 매개변수를 선택합니다. 식은 @pipeline().parameters.매개변수명 형태로 구성됩니다.

이렇게 설정이 완료되면 파이프라인을 디버그할 때 팝업창을 통해 매개변수 값을 직접 입력하여 테스트할 수 있습니다.

Index_Name	avg_fragmentation_in_percent	설명
AK_Address_rowguid	약 98%	rowguid 관련 인덱스
IX_Address_AddressLine1_AddressLine2_City_StateProvinceID_PostalCode	약 98%	주소 검색 관련 인덱스
IX_Address_AddressLine1_AddressLine2_City_StateProvinceID_PostalCode	약 90%	주소 검색 관련 인덱스
IX_Address_StateProvinceID	약 80~81%	StateProvinceID 관련 인덱스

구분	내용
문제	인덱스 조각화로 인해 불필요한 페이지 읽기 증가
진단 도구	`sys.dm_db_index_physical_stats`
측정 지표	`avg_fragmentation_in_percent`, `logical reads`
조각화 유발	`Person.Address`에 대량 INSERT
해결 방법	`ALTER INDEX ... REBUILD`
효과	조각화율 약 81% → 0%, logical reads 94 → 70
의미	인덱스 유지 관리가 쿼리 성능에 영향을 미침

스킬	수준	구분
SQL	SELECT / JOIN 기본 쿼리 작성 · 조인 이해	필수
Linux CLI	`ls`, `cd`, `ssh`, `vi` 기본 조작	필수
Azure Portal	리소스 검색 · 생성 화면 탐색	필수
네트워킹 기초	IP, 서브넷, 방화벽 개념	권장
Git 기초	clone, commit 수준	권장

항목	내용
대표 시스템	IBM IMS (1966)
구조	트리 구조: 부모 → 자식
장점	빠른 읽기
한계	유연성 부족

항목	내용
핵심 인물	E.F. Codd (1970)
핵심 개념	데이터를 테이블로 추상화
쿼리 언어	SQL: 선언적 쿼리 언어
대표 DB	Oracle (1979), SQL Server (1989), PostgreSQL (1996)

연도	내용
1970	Codd 관계 모델 논문
1974	SEQUEL (IBM)
1979	Oracle V2, 최초 상용
1986	SQL-86, ANSI 표준
1992	SQL-92
1999	SQL:1999, CTE / 윈도우 함수
2016	SQL:2016, JSON

방식	설명
절차적	HOW를 기술, 어떻게 데이터를 가져올지 작성
선언적	WHAT을 기술, 무엇을 가져올지 작성

모델	대표 기술	특징	사용 예
Key-Value	Redis, DynamoDB	최고 성능	캐시, 세션 관리
Document	MongoDB, Cosmos DB	JSON / BSON, 유연한 스키마	문서형 데이터
Column-Family	Cassandra, HBase	대규모 쓰기	시계열, 로그
Graph	Neo4j, Gremlin	관계 탐색	소셜, 추천

구분	내용
예시	`36.5`, `"홍길동"`, `2023-05-15`
특징	컴퓨터가 처리할 수 있는 형태로 표현된 사실
상태	해석되지 않은 원시 상태

구분	내용
예시	“체온은 정상(36.5℃)입니다”
특징	의사결정에 활용 가능한 가치 있는 결과물
상태	맥락과 관계성이 부여된 상태

요소	설명
그래프 구조	레코드 간 다대다(N:M) 관계 표현 가능
CODASYL	1970년대 네트워크 DB 표준화 모델 개발
포인터 시스템	레코드 간 직접 연결 포인터 사용
유연한 쿼리	계층형보다 향상된 데이터 검색 기능

시기	내용
1974	IBM System R 프로젝트에서 SQL(Structured Query Language) 개발
1979	Oracle V2 출시, 최초의 상업용 RDBMS
1980년대	IBM DB2, Informix, Sybase 등장
1989	ANSI 및 ISO에서 SQL 표준 제정
1990년대	Microsoft SQL Server, MySQL 등장으로 RDBMS 대중화

세대	유형	시기	주요 특징	대표 시스템
1세대	파일 시스템	1960년대 초	단순 파일 기반 데이터 저장	ISAM, VSAM
2세대	계층형	1960년대 중반	트리 구조, 부모-자식 관계	IBM IMS
3세대	네트워크형	1970년대 초	그래프 구조, 복잡한 관계	IDMS, CODASYL
4세대	관계형	1970~80년대	테이블 구조, SQL	Oracle, DB2, SQL Server
5세대	객체지향 / 객체관계형	1990년대	객체 모델, 복잡한 데이터 처리	PostgreSQL, ObjectStore

항목	내용
출시	1979년
특징	대규모 트랜잭션 처리, 안정성
주요 사용처	금융, 통신, 제조 등 대형 기업

항목	내용
출시	1995년
특징	오픈소스, 웹 애플리케이션 친화적, 빠른 속도
주요 사용처	WordPress, Facebook 등 웹 서비스 기반

항목	내용
출시	1989년
특징	Windows 환경과 뛰어난 통합성
주요 사용처	중소기업부터 대기업까지 다양한 비즈니스

항목	내용
출시	1996년
특징	확장성, SQL 표준 준수, 복잡한 쿼리 처리
주요 사용처	대규모 데이터베이스, 복잡한 분석 시스템

시기	내용
1995년	MySQL 출시. Michael Widenius와 David Axmark이 개발. 무료 관계형 DB로 웹 개발에 혁신을 가져옴
1996년	PostgreSQL 출시. 버클리 대학 POSTGRES 프로젝트에서 발전한 고급 오픈소스 RDBMS
2000년대 초	닷컴 붐과 저비용 웹 솔루션 수요 증가로 MySQL 등 오픈소스 DB 채택 급증
2008년	Sun Microsystems가 MySQL을 10억 달러에 인수. 오픈소스 DB의 상업적 가치 입증
2010년 이후	오픈소스 DB가 엔터프라이즈 영역에서도 주류화. MariaDB, MongoDB 등 다양한 솔루션 등장

수치	의미	설명
2.5EB	일일 생성 데이터	2020년 기준 전 세계에서 하루에 생성되는 데이터 양. 이 중 80% 이상이 비정형 데이터
1B+	소셜 미디어 사용자	소셜 미디어 플랫폼 사용자는 매일 수십억 건의 상호작용 데이터를 생성
40%	연간 데이터 증가율	기업 데이터는 연평균 40% 이상 증가
1000x	처리 속도 향상	일부 NoSQL 시스템은 특정 워크로드에서 관계형 DB보다 최대 1000배 빠른 처리 속도 제공

유형	설명
Key-Value	단순한 키와 값의 쌍으로 데이터 저장. 고속 읽기/쓰기에 최적화
Document	JSON/BSON 형식의 문서로 데이터 저장. 유연한 스키마
Column	컬럼 패밀리 단위로 데이터 저장. 대규모 분석에 적합
Graph	노드와 관계로 데이터 저장. 복잡한 연결 분석에 최적화

시스템	설명
Redis	인메모리 기반, 다양한 데이터 구조 지원
Amazon DynamoDB	완전 관리형 서비스
Riak	고가용성, 분산 아키텍처
Memcached	분산 캐싱 시스템

시스템	설명
Apache Cassandra	높은 가용성, 선형적 확장성
HBase	Hadoop 에코시스템 기반
Google Bigtable	구글의 대규모 데이터 처리 시스템
ScyllaDB	고성능 Cassandra 호환 시스템

요소	설명
노드와 관계	실제 세계의 연결 구조를 노드(개체)와 엣지(관계)로 자연스럽게 모델링
관계 탐색	복잡한 관계를 효율적으로 탐색하는 쿼리 성능 우수
속성 그래프	노드와 관계 모두에 속성을 부여할 수 있는 유연한 모델
그래프 쿼리	Cypher, Gremlin 등 그래프 전용 쿼리 언어 지원

핵심 요소	설명
관계형 모델	SQL 및 ACID 트랜잭션 지원
수평적 확장성	NoSQL 수준의 분산 아키텍처
고성능 처리	트랜잭션과 분석 워크로드 동시 최적화

시스템	설명
Google Spanner	글로벌 분산 트랜잭션
CockroachDB	Spanner에서 영감을 받은 오픈소스 DB
VoltDB	인메모리 트랜잭션 처리
TiDB	MySQL 호환 분산 데이터베이스

시스템	설명
Redis	오픈소스 인메모리 키-값 저장소
SAP HANA	기업용 인메모리 분석 플랫폼
MemSQL(SingleStore)	SQL 기반 분산 인메모리 DB
VoltDB	고성능 트랜잭션 처리

활용 영역	설명
웹 애플리케이션	초기 인터넷과 웹사이트를 위한 단순 데이터 저장
소셜 미디어	대규모 사용자 관계와 상호작용 데이터 처리
빅데이터	페타바이트 규모의 구조화/비구조화 데이터 분석
IoT 센서 데이터	수백만 디바이스의 실시간 데이터 수집과 처리
AI 및 머신러닝	모델 훈련 및 추론을 위한 대규모 데이터 저장소

서비스	용도
Amazon Redshift	데이터 웨어하우스
ElastiCache	인메모리 캐싱
Neptune	그래프 DB
DocumentDB	MongoDB 호환
Timestream	시계열 DB

서비스	용도
Firestore	문서형 DB
Memorystore	인메모리 DB
Firebase Realtime Database	실시간 동기화 DB

서비스	용도
Azure Synapse Analytics	데이터 웨어하우스
Azure Cache for Redis	인메모리 DB
Azure Database for MariaDB	관리형 MariaDB