lookin_min.log

AI 브라우저의 등장과 미래

Thu, 23 Oct 2025 02:36:39 GMT

들어가기에 앞서

지난 22일, OpenAI는 ChatGPT 기반 웹 브라우저 Atlas를 공개했다. 소문으로 들렸던 Aura가 아닌 Atlas로 공개되었으며 macOS 버전으로만 선 출시되었다.

Preplexity가 자신들의 AI 브라우저 Comet을 출시한지 약 3개월만이다. 이외에도 MS의 Edge, 이제는 Atlassian의 품에 안겨진 Dia등 왜 빅테크 AI 기업들과 AI를 다루는 기업들은 앞다투어 AI 브라우저를 출시하고 있고, AI 브라우저가 갖는 의의와 장점에 대해 알아보았다.

브라우저의 가치

Google의 Chrome이 약 점유율 71%로 지배하는 브라우저 시장은 전 세계의 수많은 사용자가 웹이라는 환경을 통해 정보를 접하고, 업무를 처리하고, 품목을 구매하는 등 삶의 모든 영역에 관여하는 핵심 시장이다.

이를 통해 발생하는 매일, 매시간 마다의 방대한 양의 데이터는 Google 등 브라우저 운용사에게 있어 무엇보다 가치있는 자산이 되어왔으며 ChatGPT 등의 LLM이 등장하며 이러한 데이터는 AI의 학습 원천으로서 그 가치를 더욱 올려왔다.

그렇기 때문에, 다양한 AI 기업들이 이러한 브라우저 시장을 포기 못하는 것이고 Chrome의 시장 장악력에 대응하고 있는 것이다.

이제 브라우저는 단순히 웹 페이지를 보여주는 show의 역할을 넘어 사용자의 데이터를 수집하고, 사용자와 상호작용하며 작업을 수행하는 co-worker의 역할을 수행하도록 변화하고 있다.

그럼 AI 브라우저는 무슨 역할을 할까?

대표적으로 Perplexity의 Comet은 브라우저에서 사용자가 원하는 정보를 찾아주고, 업무를 대신 수행해준다. 하나의 옷을 여러 개의 사이트를 비교하며 최저가를 찾고, 주문하는 일련의 과정을 직접 수행하며 사용자는 이러한 과정을 단지 지켜보거나 완료된 후 알림을 받을 수 있다.

이번에 출시한 Atlas의 경우, 활동/비활동 중인 탭들에 대해 기사를 요약하거나 데이터를 분석하고 이메일을 대신 작성해서 발송하거나 캘린더의 일정을 스스로 정리하는 정도의 역할을 지원한다. Comet 과의 가장 큰 차이점이라고 한다면 z-index를 지원하고, 이미지, 동영상에 대한 처리가 더욱 효과적이라고 한다.

결과적으로 브라우저의 이러한 변화는 개인이 브라우징 하는 과정을 획기적으로 줄이는 것을 목표로 시작해 하나의 개인 비서로서 웹 환경에서 동작하는 모든 업무를 함께하는 것에 의의가 있다.

단순한 업무를 자동화하고, 시간이 소요되는 작업을 대신하는 역할로서 개인은 업무에 대해 최종 결정권만을 갖는 업무의 형태로 발전시키는 것이 AI 브라우저의 가치인 것이다.

AI 브라우저가 가져올 변화

1. SEO에서 AEO로

단순히 AI 브라우저로서 바뀌는 변화는 아니지만, Claude, ChatGPT 등 LLM이 웹 브라우저를 직접 탐색하기 시작한 시점부터 웹 자료에서의 AEO(Answer Engine Optimization)의 개념이 도입되고, 중요시되고 있었다.

기존 SEO(Search Engine Optimization)은 브라우저 상에서 내 회사가, 내 기사가, 내 상품이 특정 키워드를 바탕으로 상위 노출되도록 최적화 하는 방식이었다면, AEO는 AI가 User Action을 통해 웹 브라우저를 탐색할 때, 질문에 대한 답변이나 콘텐츠 생성 시 내 프로덕트가 선택될 수 있는 세팅 방식이다.

AI 브라우저는 이제 프로덕트를 개발하고, 마케팅하는 방식에 있어 단순히 사람이 정보를 탐색하는 관점에서 AI가 탐색하는 관점으로의 전환을 요구한다. (물론, 이전과 똑같은 방식의 글을 써도, 제품을 홍보해도 AI가 발견하고, 사용자에게 결과로서 전달되겠지만...)

2. 인지 부하 감소와 정보 획득 시간 감소

수많은 '탭' 속에서 시간을 보내며 유의미한 정보를 찾고자 하는 사용자들에게 AI 브라우저는 수많은 정보의 맥락을 이해하고 관련 정보를 연결해 가치있는 결과를 빠르게 제공한다. 이는 개인의 인지적 부담을 줄이고, 지식 노동자의 시간 비용을 획기적으로 감축시킨다.

이는 Dia를 인수한 Atlassian의 얘기처럼 지식 노동자를 위한 전문 브라우저의 필요성이 대두되고 '검색'이라는 하나의 업무에 있어 새로운 패러다임을 제시하는 과정인 것이다.

왜 지금 AI 브라우저가 중요한가?

1. 검색 패러다임의 근본적 변화

Pew Research 연구에 따르면, 사람들은 AI 생성 요약이 표시될 때 링크를 클릭할 가능성이 낮아진다(CNN). 이는 구글이 20년 넘게 구축해온 "파란 링크의 목록"(하이퍼링크) 비즈니스 모델에 대한 직접적인 변화이다. AI 브라우저는 웹페이지를 요약하고, 상품을 비교하고, 데이터를 분석하는 사이드바를 제공하여, 사용자가 탭 간을 전환하거나 내용을 복사-붙여넣기할 필요를 감소시키고 있다. 이것은 단순한 편의성 향상이 아니라, 정보 접근 방식의 구조적 변화다.

2. 에이전틱 AI의 부상

앞으로 수년 내에 봇의 트래픽이 인간의 트래픽을 초과할 것으로 예상되는 가운데, AI 브라우저는 인간과 AI 에이전트가 웹을 경험하는 방식의 새로운 환경이 되고 있다. Comet은 "정보를 검색하는 것이 아니라 소리 내어 생각하면 Comet이 완전한 워크플로우를 실행하면서 완벽한 맥락을 유지한다"라고 Perplexity는 설명한다. 이는 수동적인 정보 소비에서 능동적인 작업 완수로의 이동을 의미한다.

3. 플랫폼으로의 진화

OpenAI는 Atlas를 단순한 브라우저가 아닌 "운영 체제의 한 종류"로 발전시키고 있다. ChatGPT Pulse(대시보드), Sora2(AI 비디오), 그리고 이제 Atlas(브라우저)까지, OpenAI는 자체적인 디지털 생태계를 구축 중이며 Chrome과 Gemini를 보유한 Google도 이 분야의 가장 선두주자 중 하나로서 Chrome에 Gemini를 직접 탑재해 사용자에게 브라우저에서의 경험 개선을 제공하고 있다.

AI 브라우저의 한계와 방향성

1. 보안 취약점

AI 브라우저에 있어 가장 중요시되는건 역시 '보안'이다. Comet에선 브라우저 악성 링크를 통해 Prompt Injection이 이루어질 수 있다고 발견되었고, Perplexity 역시 이 부분에 대해 별도의 발표를 진행하기도 하였다. (Time, StartupHub.ai)

2. 프라이버시 딜레마

AI, LLM을 사용하는 모든 기업과 개인에게 있어 뗄 수 없는 문제인 프라이버시 딜레마 역시 AI 브라우저를 사용함에 있어 하나의 숙제이다. 브라우징 맥락이나 웹 환경에서 사용되는 다양한 개인정보가 제3자에게 전송되거나, 클라우드 환경에서 데이터 캐시로 남아있을 수 있으며 초개인화 맞춤형 AI 브라우저로 진화할 수록 이는 더욱 민감한 문제로 대두될 수 있다.

3. 정확도와 신뢰성, 비용

당연하겠지만 AI가 도출하는 결과에 대한 100% 신뢰성을 보장할 수 없다. 또한 간단한 작업 수행을 넘어 복잡한 과정을 자동화하거나, 금융 거래 등 민감한 작업에 있어 AI 브라우저는 아직 더욱 발전해야한다.

또한 Comet 등 AI 모델이 결합된 브라우저의 경우 모델 사용 비용이 필히 발생하게 된다는 점도 한계이다. Chrome은 완전히 무료이기 때문에.

마치며...

결과적으로 AI 브라우저는 Comet과 Dia의 등장부터 지금의 Atlas 등 이제 그 생태계가 본격적으로 시작되는 시기이다.

기업과 개인 사용자는 이를 효과적으로 활용할 수 있는 다양한 방안들을 고민하는 것이 숙제일 것이며 브라우저 개발진들은 앞서 언급한 한계점들을 해결하면서, 타사의 브라우저 대비 자신들의 프로덕트의 강점을 만들어내야 할 것이다.

개인적인 감상으로는 결국 Google과 Chrome, 그리고 Gemini의 결합으로 이루어지는 구글 생태계의 아성을 뛰어넘긴 쉽지 않아 보인다. 또한 기존의 웹 브라우저에서 AI 브라우저로 넘어가야 할 강한 메리트가 보이지 않는다면 일반 사용자들이 AI 브라우저로 넘어가는데에는 큰 시간이 걸릴 것으로 예상된다. 코어 사용자가 있고, 다양한 웹 기반 서비스가 Chrome을 바탕으로 구축되었기 때문이다.

그렇지만 AI 브라우저의 발전이 기대되고, 브라우징의 개념에서 AI 브라우저가 핵심으로 정착되길 바라고 있는 한 사람으로서 Comet, Atlas와 같은 AI 브라우저가 웹 생태계의 미래이자, 편리함으로 나아가는 새로운 방안이 되길 바란다.

[참고자료]

SDD - Spec Driven Development

Mon, 20 Oct 2025 05:42:56 GMT

들어가기에 앞서

AI를 활용한 AI 코딩, 일명 바이브 코딩이 도입되고 Claude Code, Codex등 강력한 성능의 AI 개발툴에 대한 의존도가 올라가며 개발 환경의 생태계가 변화하고 있다.

이제 단순히 코드를 작성하는 영역은 개발자에게 있어 프로덕트 완성의 걸림돌이 아니며, AI를 활용하는 과정에서 "무엇을", "어떻게", "왜" 만들건지에 대한 깊은 이해가 필요해지고 있다.

이는 Codex, Copliot 등 활용하는 에이전트의 능력에 개인의 접근 방식을 효과적으로 융합하는 방식의 필요성을 대두시키고 있고, 단순히 검색 엔진이 아니라, Pair Programmer로서 에이전트를 다뤄야하는 방향을 제시한다.

SDD란?

이때, 새롭게 대두되는 것이 바로 SDD(Spec Driven Development)이다. AI 에이전트에게 명확한 지시를 내리기 위한 방법이며 코드가 어떻게 동작할 것인지, 어떻게 테스트, 검증할 것인지에 대한 지침을 정의하는 것으로부터 구현이 시작되는 것을 의미한다.

쉽게 말해 코드 작성 전, 명세서(specification)을 먼저 작성하는 접근 방식으로, 명세서는 개발자와 AI 모두에게 단일 진실 공급원(single source of truth) 역할을 수행한다. 즉, documentation first의 접근 방식으로서 명세서의 진화로 SW 유지보수가 진행되며 코드는 최종 단계 접근 방식으로 변모하는 것이다.

핵심 개념

SDD는 프로젝트의 고수준 설명에서 시작해, 명세 작성, 기술 계획 수립, 작업 분해의 단계를 거쳐 구현으로 이어지는 구조화된 프로세스로 구성된다.

기존 바이브 코딩의 한계로 평가받는 "무엇을 왜 만들었는지"가 흐려지는 단점을 해결하고 복잡하고, 큰 프로젝트에서 AI 에이전트를 효과적으로 활용할 수 있는 관점을 제시한다.

기존 바이브 코딩의 단점

성급한 코드 생성: AI는 개발자의 요구사항을 완전히 이해하기 전에 즉시 코드를 작성
수정 사이클의 반복: 개발자는 실제 의도에 맞추기 위해 반복적으로 코드 수정 요청
Context Window 낭비: 호출하는 에이전트의 Context는 요구사항을 정의하기 위한 불필요한 대화로 낭비
품질저하: 낭비되는 Context 공간으로 인해 최종 결과물의 품질이 기대보다 하락

SDD의 해결책

SDD는 이러한 단점을 해결하고자 다음과 같은 접근법을 사용한다.

프로젝트의 모든 요구사항과 설계를 문서(spec)로 명확히 정리
AI는 해당 문서(산출물)을 지속적으로 참고해 일관성있는 개발 진행
프로젝트 변경 사항을 문서에 반영, AI는 변경된 문서를 바탕으로 코드 업데이트

명세서 : Spec

그럼 SDD의 핵심인 Spec, 명세서란 무엇일까

자연어로 작성된 구조화되고 행동 지향적인 산출물
소프트웨어 기능을 명시하고, AI 에이전트의 가이드 역할을 수행
일반적인 Context documentation과 구분되어야 함
- 일반 Context: 규칙 파일, 제품 및 코드베이스의 고수준 설명(Memory bank)
- 메모리 뱅크 파일은 코드베이스의 모든 AI 코딩 세션에 관련, Spec은 특정 기능을 생성/변경 작업에만 관련

SDD 구현 수준

SDD는 세 가지 구현 수준으로 구분된다.

Spec-first: 잘 구성된 명세서를 먼저 작성하고 AI 지원 개발 워크플로우에 사용
Spec-around: 작업 완료 후에도 명세서를 유지해 해당 기능의 진화, 유지보수에 활용
Spec-as-source: 명세서가 시간이 지난후에도 주요 소스 파일로 유지, 개발자는 명세서만 편집하고 소스코드는 직접 수정하지 않음

SDD의 맹점과 유의사항

과도한 프로세스 오버헤드 작은 버그를 수정할 때도 요구사항, 설계, 작업의 전체 워크플로우를 거쳐야 해서 "호두를 깨기 위해 대형 해머를 쓰는 격"이 되는 경우가 있다.
마크다운 파일 검토의 번거로움 spec-kit은 검토해야 할 많은 마크다운 파일을 생성하는데, 서로 반복적이고 이미 존재하는 코드와도 중복되며, 전체적으로 매우 장황하고 검토하기 지루한 워크플로우가 발생할 수 있다.
AI의 지시사항 미준수 모든 파일, 템플릿, 프롬프트, 워크플로우, 체크리스트에도 불구하고 AI 에이전트가 궁극적으로 모든 지시사항을 따르지 않는 경우가 있으며, 컨텍스트 윈도우가 크다고 해서 AI가 그 안의 모든 것을 제대로 파악하진 않는다.
Spec 품질에 대한 의존성 Spec 문서 품질이 기준 수준에 미치지 못하는 경우 도구가 제대로 동작하지 않을 수 있으며 완성도 높은 TDD가 SDD의 성과에 큰 영향을 끼친다.
실제 프로젝트 검증 부족 실제 코드베이스에서 일정 기간 동안 사용한 사람들의 사용 보고서를 듣기 전까지는 실제 작동 방식에 대한 많은 미해결 질문이 존재할 수 있다.

마치며...

SDD는 AI 시대의 개발 패러다임 전환을 대표하는 방법론이지만, 아직은 초기 단계이다. MDD(Model Driven Development)의 실패처럼 새로운 개발 방법론은 주의깊게 봐야한다.

다만, "누가 코드를 잘 짜는가"에서 "누가 명확하고 실행 가능한 스펙을 잘 작성하는가"로 경쟁력의 기준이 변화하고 있으며 AI를 개발 프로세스에서 배제할 것이 아니라면 SDD가 아니더라도 어떻게 AI를 효과적으로 개발 프로세스에 통합할 것인지에 대한 다양한 관점이 필요한 것은 사실이다.

특히 PM, 기획자, 개발자 모두는 SDD의 실제 적용 시, 과도한 프로세스 오버헤드, AI의 불완전성, 문서 유지보수 부담 등을 신중히 고려해야 한다.

[참고자료]

Anchoring Bias(기준점 편향) 이란?

Fri, 26 Sep 2025 02:13:58 GMT

사람은 경험에 의한 인지 판단을 하는 동물이다. 어느 시점엔 합리적인 판단을 하지 않고 잘못된 판단을 내릴 수 있는데, 이러한 판단의 대표적인 이유가 바로 인지 편향이다.

경험에 의한 비논리적 추론으로 잘못된 판단을 하는 것을 의미하며 실제 정답인 부분보다 자신의 경험, 첫 판단을 바탕으로 한 연쇄적인 오답을 더욱 신뢰하는 것을 의미한다.

LLM 성능 저하의 원인 중 하나, Anchoring Bias

이는 LLM에서도 발생할 수 있다. Context의 첫 데이터(숫자, 예시, 지시)에 대한 LLM의 과도한 의지가 이후 판단과 산출 결과를 특정 방향으로 끌고 가는 현상이다.

프롬프트에 포함된 힌트, 과거 데이터, 예시 등이 답의 크기와 방향을 유의미하게 왜곡시킨다는 것을 의미하며 먼저 본 데이터, 예시가 앵커(Anchor)가 되어, 모델의 추론 분포가 해당 방향으로 쏠리는 것을 얘기한다.

Anchoring Bias의 문제

이는 단순히 편향된 초기 데이터에만 관련있는 문제는 아니다. LLM은 Topic A에 관련없는 B에 대한 내용이 포함되어 있을 때, 실수 빈도가 증가하는 현상을 보인다. ex) 수학 문제 해결에 고양이 정보 포함

이를 통해 사람이라면, 상관없는 정보가 정답률 변화에 유의미한 차이를 보이지 않지만 LLM은 무관한 사실이 정답 도출에 영향을 미치는 것을 알 수 있다.

이는 역설적으로 LLM의 극단적인 Anchoring Bias 문제를 줄이기 위해선 결과를 받아야하는 질문앞에 임의 수치, 예시를 전달하지 않아야 한다는 것을 의미한다.

즉,

질문을 먼저
질문에 대한 예시 및 과거 수치, 참고 자료를 마지막에 전달

이와 더해, 연구결과에 따르면 단순히 ("위 힌트를 무시해") 등의 디바이싱 프롬프트는 생각보다 유용하지 않으며, 다양한 각도의 데이터를 전달하는 것이 효과적이라고 한다.

Anchoring Bias의 이유

LLM은 "확률적 다음 토큰 예측기" 이기 때문에, 초기 context가 후속 토큰 분포를 강하게 규정.
첫 문장 / 숫자 / 예시가 사실상 Prior로 작동

Anchoring Bias 완화 방법

리드 문장/숫자 제거(중립화) : 질문에 앞서 임의 수치/사례를 제공하지 않고, 질문을 먼저 진행
순서 랜덤화 : context data의 표시 순서를 무작위로 제공해 order effects 완화
역 프롬프트 병렬 탐색 : 서로 다른 관점/가정(MIN, MAX 값 등)에 대해 여러 프롬프트를 병렬로 수행해 결과 집계
단계별 파이프라인 구축 : 결과에 대해 초안을 작성하는 프롬프트 -> 검토 및 반례, 대안 수치 제시의 검증 프롬프트 : 2단계 파이프라인을 구축해 편향을 추가적으로 감지
A/B 테스팅 : 동일 프롬프트에 Anchor 포함/제거 버전으로 나눠서 수행해, 산출 차이 정량화 : 세부적으로 구현한다면, 특정 자료에 대한 앵커 민감도 지표를 산출할 수 있음

실제 접한 Anchoring Bias

Anchoring Bias에 대해 접하고, 개선 문제를 확인한 것은 이번에 진행하는 낙농업 데이터 예측 자동화 파이프라인 구현 중, 장기 예측 데이터 파형의 동일성 문제가 도출되었기 때문이다.

다음 데이터 차트에서 볼 수 있듯이, 특정 시점에 변경한 프롬프트에 대해서 매일 반복되며 예측하는 결과 로그가 특정 시점부터 동일한 파형만을 전달하고 있음을 파악했다.

물론 특정 파형을 보이는 과거 낙농업의 시계열 데이터 특성도 중요하지만, API로 호출하는 ChatGPT가 동일한 예측 결과 파형을 제공하는 것은 유의미하지 않다고 판단했다.

해당 문제점을 해결하고자, 나는 3가지를 개선했다.

기존 문제

현재 예측 파이프라인은

기상청 단기 예보 API를 통한 +0 ~ +4까지의 단기 예측 (version 1)
중기 예보 API를 통한 +5 ~ +10까지의 중기 예측 (version 2)
해당 단기/중기 예측 결과를 기반으로한 +90일까지의 장기 예측 (version 3)
내년 1년간의 월간 예측

으로 구성되어 있다. 여기서, 단기 예측 과정이 어제 수행된 예측 결과를 context_data로 제공하고 이를 통해 나온 금일의 단기 예측 결과가 장기 예측에 재사용되며 간접적으로 발생하는 자기 상관성 문제 보이고 있다.

또한 프롬프트 상에서 이전 과거 결과를 먼저 제공하고, 예측을 수행하는 시퀀스를 따르고 있다.

해결 방안

오늘 자로 수행되는 예측에 어제 발생한 예측 정보를 최소한으로 제공 : version 1에 대해 어제 일자의 version 3을 배제했다. : 장기 예측에서 보이는 동일 파형 반복 문제를 해결하기 위한 방법이었다.

프롬프트 구조화 : 기존 문장 나열 + 나열 문장 속 데이터 전달의 프롬프트에서 프롬프트 형식을 단계별로 구조화하였고, 과거 데이터를 마지막에 전달하도록 수정했다. : 형식은 다음과 같다.

1. persona 지정
2. 수행 역할 설명(~일 간의 데이터 예측 수행할 것 등)
3. 필요한 결과에 대한 명시(JSON 필드 타입 지정 등) 
4. 전달하는 데이터에 대한 설명
5. 과거 데이터 전달
6. Option (Reasoning Effort, Context Gathering 등)

장기 날씨 데이터에 대한 추가적인 정보 : apec에서 제공하는 API 등을 추가적으로 도입했다.
이전 프롬프트와 변경 프롬프트 시의 결과 분석

마치며...

Anchoring Bias는 LLM의 Inherent Bias는 다른 문제이다. 기본적으로 LLM을 학습 시키는 과정에서 발생하는 Inherent Bias와 달리, 프롬프트 구성에서 발생하는 문제이므로 사전에 대처 가능하고, 문제를 파악했다면 해결할 수 있다.

[참고자료]

Docker와 n8n, FastAPI를 통한 자동화 시스템 구축

Fri, 12 Sep 2025 07:37:47 GMT

사내 자동화 시스템 구축을 맡으면서 n8n에 대해 공부하게 되었고, 약 2주간의 개발 과정끝에 Ubuntu Linux환경에서 Docker위에 n8n을 올린 자동화 시스템을 구축했다.

시스템 요약

간단하게 시스템 구조를 요약하자면 FastAPI를 통해 GET API 라우터 3개를 구성했고, n8n으로 3개의 Workflow를 구축했다.

각 workflow는 지정된 시간에 지정된 api를 호출하고, 결과 JSON에 대해 IF 노드로 판단한 이후에 지정된 Slack 채널에 결과를 보낸다.

내부 api 과정은 대략적으로 : Oracle DB에서 데이터 확인 -> 외부 API와 결합해 핵심 데이터 도출 -> ChatGPT API를 통한 예측 기능 수행 -> 결과 Oracle DB에 저장 의 흐름으로 이어진다.

거두절미하고 왜 많은 자동화 방법 중 Docker + n8n을 택했으며 과정과 결과를 간략하게 설명하고자 한다.

Docker란?

많은 분들이 사용하고 있고, 이제는 소프트웨어 빌드의 표준이 되었다고 해도 무방한 Docker는 애플리케이션과 실행환경을 Container 단위로 패키징해주는 플랫폼이다.

여기서 실행환경이란 OS 레이어(가상환경), 라이브러리 등에 대해 지칭하는 말이다.

1. Docker Engine

도커 엔진은 말 그대로 돌아가는 도커의 런타임을 의미한다.

컨테이너, 이미지, 네트워크, 볼륨 등을 관리한다.

systemctl status docker로 engine deamon 상태를 확인할 수 있다.

2. Docker Image 파일

컨테이너의 template 역할을 한다. read only의 레이어 집합으로, Dockerfile을 빌드하면 생성된다.

Image -> (RUN) -> Container

3. Docker Compose

다수의 Container를 하나의 스택으로 정의/실행하는 오케스트레이터 docker-compose.yml파일을 통해 설정한다.

n8n이란?

n8n은 오픈소스 워크플로우 자동화 도구로, UI를 통해 노드들을 연결해 데이터 페칭 -> 가공 -> 외부 서비스 연결 등의 업무를 자동/수동(웹훅)으로 수행하는 역할을 한다.

쉽고 간단하게 워크플로우를 구축할 수 있고, Slack, Git, Gmail 등 다양한 노드를 제공한다.

워크플로우 구축이 정말 간단하기 때문에 초기 설정(Credentials, Output JSON 타입 등)만 잘 해놓는다면 개발자가 아니여도 무난하게 사용할 수 있다.

구축하며

나는 Docker에 FastAPI 환경을 8001 포트로 ports: - "8001:8000" (호스트는 8001, 컨테이너는 8000) n8n 환경을 5678 포트로 설정해 작성했다. 유의해야 할 점은 Docker 환경에서 n8n이 localhost:8000/api에 접근할 때는 HTTP Request 노드에서 http://[호스트명(서비스명)]:8000/api로 접근해야한다.

왜냐하면, 컨테이너끼리 통신할 때는 호스트 내 통신이 아니기때문에 도커 네트워크 안의 호스트명에 대한 포트번호로 호출해야하기 때문이다.

docker-compose.yml에서 n8n 설정

FastAPI, n8n을 올린 docker-compose.yml은 다음과 같다.

services:
  # FastAPI 애플리케이션
  Application-Name:
    build:
      context: .
      dockerfile: Dockerfile
    container_name: HostName
    ports:
      - "8001:8000"
    environment:
      # Oracle Client 경로 (호스트와 동일한 경로)
      ...
      # Thick Mode 연결을 위한 Instant client 환경
    env_file:
      - .env.local
    volumes:
      # 개발용 코드 마운트 (코드 변경 시 자동 리로드)
      - ./app:/app/app:rw
      # SQLite 데이터 영속성
      - ./data:/app/data
      # 로그 디렉토리
      - ./logs:/app/logs
      # 호스트의 Oracle Client를 동일한 경로로 마운트 (호스트에서 작동했던 경로)
      ...

    # 서버 재실행해도 자동화 시스템 복구
    restart: always
    ...

  # n8n 워크플로우 (자동화용)
  n8n:
    image: n8nio/n8n:latest
    container_name: HostName
    user: "1000:1000"
    ports:
      - "5678:5678"
    environment:
      - N8N_BASIC_AUTH_ACTIVE=true
      ...
      - GENERIC_TIMEZONE=Asia/Seoul
      - WEBHOOK_URL=http://HostName:8000
    volumes:
      - ./n8n_data:/home/node/.n8n
    ...
    restart: unless-stopped
    profiles:
      - automation

networks:
  milk-predict-network:
    driver: bridge

volumes:
  n8n_data:
    driver: local

마치며...

되게 복잡한 빌드를 한 것은 아니지만 이전에는 꽤나 막막하고 어려워보였던 빌드가 Claude Code와 함께 1시간도 안걸렸다. 심지어 오래 걸린 이유가 Oracle DB 연결이 반드시 Thick Mode여야 했기 때문에 Instant Client 환경 설정에서 애를 먹었기 때문이었다.

왜 n8n cloud로 안하고 꾸역꾸역 로컬에 한 이유는

일단 비용문제를 고려한 점이 있었고
Docker위에 올렸기때문에 Dockerfile, docker-compose.yml만 있으면 서버가 바뀌거나 다른 환경에서도 똑같이 자동화 시스템을 수행할 수 있기 때문이다.

나름 또 오랜만에 Docker 찾아보고 n8n이라는 새로운 툴을 성공적으로 다뤄서 기분이 좋다.

다음엔 실제로 이 시스템(ChatGPT-5 API) 기반 예측 시스템에서 정확성 향상을 위해 시도한 다양한 과정을 작성해보겠다.

[빅데이터분석기사] Part4 - CH 02. 분석결과 해석 및 활용

Mon, 25 Aug 2025 13:16:51 GMT

Part 4. 빅데이터 결과 해석

Chapter 02. 분석결과 해석 및 활용

Section 01. 분석결과 해석

1. 분석 모델별 결과 해석

모델마다 해석 지표 상이

1-1. 회귀 모델

잔차 : 실제값과 예측값의 차이 : MAE, MSE, MAPE, RMSE, RMSLE
결정계수 : 추정된 회귀식이 변동을 잘 설명한 정도 : 1에 가까울수록 좋다. : R^2, Adjusted R^2

1-2. 분류 모델

각 경우에 따른 클래스 별 속할 확률의 정확도 : 정확도, 정밀도, Recall, F1-Score, ROC

1-3. 딥러닝 모델

분류 문제 : 정확도, 오차율
- 오차율 : 상대오차, 평균 제곱근 편차

1-4. 군집분석 모델

연속형 변수 : 평균, 중앙값
범주형 변수 : 범주별 각 군집의 분포
외부 평가 : 자카드 지수
내부 평가 : Dunn Index, 실루엣 계수, 팔꿈치 기법

1-5. 연관분석 모델

2개 이상 품목 간 상호 관련성
지지도, 신뢰도, 향상도 with 최소 기준점 : Apori 알고리즘

ROI : 투자 자본에 대한 수익/손실 비율 : (금전적 이익 - 소요비용 / 소요비용) X 100

2. 분석 모델별 시각화

2-1. 회귀 모델

변수들 간 관계 분석을 위함
Heat Map, Scatter Plot(산점도)
1. 비교 시각화 : 여러 변수 비교를 통한 식별 수치, 정도 표현
2. 관계 시각화 : 변수들 간 관계 표현

2-2. 분류 모델

SVM : 산점도와 구분선을 통한 비교시각화
KNN : 평행좌표계로 변수들 간 연관성, 그룹데이터 경향성 파악
Decision Tree

2-3. 딥러닝 모델

모델 아키텍처에서 파라미터, 가중치, feature 차원 감소

2-4. 군집분석 모델

클러스터별 산점도

2-5. 연관분석 모델

네트워크 그래프 : 연관성 있는 항목끼리 그룹화 - 관계 시각화

Section 02. 분석결과 시각화

1. 데이터 시각화

분석 결과를 쉽게 이해할 수 있도록 도표와 차트를 통한 시각적 표현 및 전달 : 기능적 + 심미적 측면
정보 습득 시간 절감, 데이터에 대한 즉각적 판단
통계적 그래픽 : 2, 3차원에서 데이터 분포 + 통계적 정보 표현
주제 지도학 : 특정 주제의 지리적 분포, 패턴을 지도 형태로 표현

1-1. 데이터 유형

데이터

범주형
- 명목형 : 특정 카테고리가 가질 수 있는 값의 집합, 순서X
- 순서형 : 명목형 + 순서

수치형
- 이산형 : 셀 수 있는 형태의 정수 값
- 연속형 : 측정되는 양, 시간, 온도 등

척도 (측정 대상의 수치화)

질적 척도
- 명목 : 단순 분류 용도로 사용, 의미 없는 값 (남자 : 1, 여자 : 0)
- 서열 : 선호되는 순위, 숫자에 대한 의미O, 비율, 간격에 대한 의미X

양적 척도
- 등간 : 수 자체, 차이는 의미 있으나 비율은 의미 없음
- 비율 : 가장 높은 측정 단위, 모든 값, 비율 의미 있음

1-2. 데이터 시각화 방법

데이터 시각화 : 데이터 값을 정량화하여 시각적 속성 부여 → 그래프
연속형 : 위치 + 크기 + 선 굵기 + 색
이산형 : 연속형 + 형태 + 선 유형

시간 데이터 : 막대, 누적막대 그래프, 점, 선 그래프
분포 데이터 : 히스토그램, 파이, 도넛 차트, Tree map, 누적 연속 그래프
관계 데이터 : 산점도, 버블차트, 히트맵
비교 데이터 : 히트맵, 체르노프 페이스, 스타차트, 평행좌표계, 다차원 척도법
공간 데이터 : 지도 맵핑

2. 데이터 시각화 영역

2-1. 정보 시각화

추상화된 데이터를 사람이 인지하기 쉽도록 시각화
방대한 양의 정보를 직관적으로
카토그램, 분기도, 개념도, 트리맵

데이터 시각화 : 그래픽을 통한 정보에 대한 명확한 ㅍ현

정보 시각화 : 데이터 시각화 + 정보 형태 가공 : 큰 범위의 집합에 대한 수치, 비수치적 시각적 표현

2-2. 정보 디자인

시각 디자인의 하위 영역
정보를 구성해 효율적 사용을 지원
그래픽 디자인 강조

2-3. 인포그래픽

복잡한 수치, 텍스트 정보와 지식을 한눈에 파악
스토리를 통한 정보 전달 및 설득형 메시지 : 통계, 과정, 비교, 지도, 목록, 타임라인 등

3. 시간 시각화

시간 흐름에 따른 데이터 변화 및 추세 표현

3-1. 이산형

특정 시점의 값 : 막대, 점 그래프

3-2. 연속형

구간의 변화하는 값 : 꺾은선, 계단, 추세선

묶은 막대 그래프 : 2개 이상 변수에서 첫번째 변수 위치에 나머지 값 표현 : 누적합 / 추이 판단 어려움

꺾은선 그래프 : 경향성 뚜렷

계단 그래프 : 특정 시점에서의 변화

추세선 : 값의 즉각적 변화에 대한 표현X : 변화의 경향성 표현

4. 분포 시각화

각 영역을 모두 합치면 1, 100%

4-1. 히스토그램

세로축 : 데이터 분포 정도
가로축 : 특정 변수의 구간 폭
특정 변수 값이 어떻게 분포되어있는지 파악

도수분포표 : 데이터 값의 다양한 산출분포 : 일정 범위(계급)에 대한 건수

누적히스토그램 : 각 구간값(빈도) 누적 : 마지막(가장 우측) = 전체 데이터 수

4-2. Pie Chart, Donut Chart

Pie Chart : 데이터 값에 대한 정확한 표현 어려움 : 여러 분류에 대한 값 표현 → 각각의 차트 필요
Donut Chart : 동일 성격 데이터 = 1 Chart에 중첩 표현 : 길이(면적X)로 값의 정도 표현

4-3. Tree Map

하나의 사각형 + 세부 사각형 크기로 데이터 분포 표현
계층형, 트리 구조 데이터 표현에 유리

4-4. 누적연속그래프

선 그래프 영역을 통해 시간 변화에 따른 값의 변화 표현
변화하는 값의 흐름 시각화
집단의 경향성을 추적하진 않음

4-5. 파레토 차트

막대 + 선 그래프
내림차순 막대 : 개별 데이터 값
누적 선 그래프 : 누적 총계
결과에 영향을 미치는 주요 요인 도출 시 사용
명목형 변수 개수 데이터에 적합 (연속형X)
- 순서형 데이터에는 적합하지 않음

5. 관계 시각화

데이터셋에 변수가 2개 이상 있을 때 변수 간 상관관계 표현

5-1. Scatter Plot : 산점도

두 변수의 값을 2, 3차원 좌표계에 점으로 표시
↗ : 양의 상관관계
↘ : 음의 상관관계

5-2. 버블 차트

산점도(x, y) + 원의 크기
도시 별 인구밀집도 등 국가/지역에 따른 값 분포

5-3. Heat Map

데이터 분포 및 관계에 따른 정보를 색으로 표현
색 = 수치의 정도

5-4. 모자이크 플롯

2개 이상 범주형 데이터의 상관관계

6. 비교 시각화

하나 이상의 변수에 대해 변수 사이의 차이, 유사성 표현

6-1. Heat Map

다수의 변수, 대상에 대한 표 형식의 시각화
연속형 데이터 값 변화 표현에 적합 : 온도 등

6-2. 체르노프 페이스

데이터 표현에 따른 차이 = 얼굴 모양
한 대상의 특징을 명확히 표현함 : 여러 대상 표현 못함

6-3. Star Chart

여러 변수값의 비교를 하나의 차트로

6-4. 평행좌표계

Star Chart의 여러 축을 평행하게 배치
한 대상이 변수 값에 따라 변동하는 연결선

6-5. 다차원 척도법

객체 간 근접성 시각화 : 대상 간 거리, 유사성이 클수록 가깝게
유사성 측정 척도
1. 계량형 : 실제 측정거리, 유클리드 거리
2. 비계량형 : 절대적 크기 무시, 순위 정도

7. 공간 시각화

장소, 지역에 따른 데이터 분포 표현
위치, 거리, 색상 기반 표현 : 지형 코드화 → 매핑

7-1. 단계구분도

정량정보 표시 시, 데이터 분포 지역별 색 상이
모양에 대한 왜곡 없음

7-2. 카토그램

데이터 값에 따라 지도 면적을 인위적으로 왜곡
직관적 이해를 높이나 시각적 왜곡 발생

Section 03. 분석결과 활용

1. 분석모형 전개 - 보편적 방법론

빅데이터 분석방법론 표준 프로세스
1. 분석 기획 : Planning
2. 데이터 준비 : Preparing
3. 데이터 분석 : Analyzing
4. 시스템 구현 : Developing
5. 평가 및 전개 : Deploying

1-1. CRISP-DM

비즈니스 이해
데이터 이해
데이터 준비
모델링
평가
전개

1-2. SEMMA

샘플링
탐색
전처리
모델링
평가

1-3. KDD

데이터 추출
전처리
변환
데이터 마이닝
해석/평가

전개 단계 : Deploying

개발된 모델을 적용한 결과 확인 및 지속적 관리

분석결과 활용 계획 수립

: 분석 결과를 어떻게 업무에 반영할 것인지 : 업무 성과를 지속적으로 모니터링 할 방안 수립
분석결과 적용 및 보고서 작성

: 모델, 결과를 업무 현장에 적용 : 성과 측정 지표에 따라 분석 성과 측정 및 개선 계획 수립
분석모형 모니터링 : 주변 환경과 데이터 변화를 빅데이터 분석 모델에 지속적으로 반영
분석모형 리모델링 : 변화된 업무, 데이터를 지속적으로 수용 : 데이터 품질 검토, 알고리즘 개선, 매개변수 최적화 : 분석데이터를 교체하진 않는다.

[빅데이터분석기사] Part4 - CH 01. 분석모형 평가 및 개선 (2)

Mon, 25 Aug 2025 11:17:13 GMT

Section 02. 분석모형 개선

1. Overfitting 방지

1-1. 모델 복잡도 감소

정규화, Dropout 등을 통해 적절한 복잡도의 모델 탐색
가중치 매개변수(학습 중 지속적으로 가중치 변화) → 상수값 하이퍼 파라미터 사용\

1-2. 가중치 감소

큰 가중치 = 큰 패널티, 가중치의 절대값 감소
모델을 강제로 제한해 과적합 방지

L2 규제 : 가중치 값을 비용함수 모델에 비해 작게 유지 : loss function + L2 norm^2 = 가중치 값을 비용함수 모델에 비해 작게 : L2 = ||w||^2 = ∑w^2 : 강도를 세게 할 수록 가중치는 0에 가까워짐
- 회귀 모델 + L2 규제 = Ridge

L1 규제 : L2 규제의 가중치 제곱을 절대값으로 변환 : loss function + L1 norm = 대부분의 특성 가중치를 0으로 : L1 = ||w|| = ∑|w|
- 회귀모델 + L1 규제 = Lasso

1-3. 편향-분산 Trade Off

OverFitting ↔ UnderFitting 간 적절한 Trade Off 필요 : 절충점

2. 매개변수 최적화

신경망 학습이란? : loss function 값을 최소화하는 매개변수 도출
매개변수 최적화 : loss funtion 값 최소화를 위한 매개변수의 최적값을 찾는 과정

2-1. 확률적 경사 하강법 : `SGD`

loss function의 기울기 따라 매개변수 업데이트 → 가장 작은 지점에 도달
랜덤으로 선택한 하나의 데이터로만 계산해 단순, 명확함

2-2. 모멘텀

SGD + 관성물리법칙
최적점 수렴 빠름

2-3. `AdaGrad`

개별 매개변수에 적응적 학습률 조정
최적점에 가까울수록 학습률↓

2-4. `Adam`

모멘텀 + AdaGrad
3개 파라미터로 구성 : 학습률 + 일차 모멘템 계수 + 이차 모멘텀 계수

2-5. Hyper Parameter 최적화

Hyper Parameter : 사람이 직접 설정하는 매개변수 : 뉴런 수, 학습률, 배치 크기, 은닉층 수 등

학습률 : 기울기 방향으로 빠르게 이동하는 정도 : 학습률 ∝ 1/학습시간, 학습률 ∝ 발산 정도
미니배치 크기 : 전체 훈련 데이터를 Batch 크기로 나눈 것 : 배치 크기 ∝ 병렬 연산 수
epoch : 훈련 데이터가 신경망을 통과한 횟수
Iteration : 하나의 미니배치 학습 시, 1Iteration = 1회 파라미터 업데이트 : 미니배치 수 = Iteration 수
은닉층 수 : 은닉층 수 증가 = 특정 훈련 데이터 최적화 : 모든 은닉층의 뉴런 수가 동일한 것이 더 효과적

3. 분석 모형 융합

3-1. 앙상블 학습

여러 분석 예측 모형 결합을 통해 하나의 예측 모형 도출
균형적 결과 도출, 변동성 및 과적합 여지 감소
Bagging, Boosting, Random Forest

3-2. 결합분석 모형

2개 이상의 결과 변수에 대해 동시 분석
결과변수 간 유의성/관련성 설명

4. 최종 모형 선정

4-1. 회귀모형 주요 성능 지표

SSE : ∑(실제값 - 예측값)^2
결정계수 R^2 : 회귀모형이 실제값에 적합한 비율
MAE : 1/n * ∑|실제값 - 예측값|
MAPE : MAE에서 실제값에 대한 상대적 비율 고려

4-2. 분류모형 주요 성능 지표

특이도(Specificity) : 음성 중 실제 음성 : TN / TN + FP
정밀도(Precision) : 양성 중 실제 양성 : TP / TP + FP
재현율(Recall) : 전체 양성 중 맞춘 양성 : TP / TP + FN
정확도(Accuracy) : 전체 수 중 실제값을 맞춘 수 : TP + FN / TP + TN + FP + FN

4-3. 비지도학습 주요 성능 지표

군집분석
- 군집 타당성 지표 : 군집 간 거리, 군집의 지름, 군집의 분산 : Dunn Index, 실루엣 계수

연관분석
- 지지도, 신뢰도 > 최소지지도

[빅데이터분석기사] Part4 - CH 01. 분석모형 평가 및 개선 (1)

Sun, 24 Aug 2025 14:04:47 GMT

Part 4. 빅데이터 결과 해석

Chapter 01. 분석모형 평가 및 개선

Section 01. 분석모형 평가

1. 평가 지표

1-1. 지도학습 - 분류모델 평가 지표 : `Classification`

오차행렬 : 분석모형의 답과 실제 결과와의 관계 : 예측값과 실제값 비교를 통한 분류 성능 측정

정확도 : Accuracy : 전체적인 분류 성능, 실제 데이터 = 예측 데이터 : TP + TN / TP + FP + FN + TN
정밀도 : Precision : Positive라고 예측한 값 중 실제 Positive : TP / TP + FP
재현율(민감도) : Recall : 실제 Positive 중 Postive라고 예측에 성공한 비율 : TP / TP + FN
F1-Score : 정밀도 + 재현율의 조화평균 지표 : F1-Score ∝ 모형의 정확도 : 2 x Precision x recall / (Precision + recall)
ROC 곡선 : FPR(FP / FP+TN)의 변화에 따른 TPR(TP / TP+FN)의 변화 : 곡선 모양은 분류모델의 성능을 의미함, 곡률이 좌상단에 가까울 수록 성능 좋음 : 하단 면적 = AUC
AUC : ROC 곡선의 하단 면적, 0~1 : AUC=1 = 성능 우수함

1-2. 지도학습 - 회귀모델 평가 지표 : `Regression`

실제값과 회귀 예측값의 차이

SSE : 오차제곱합 : 실제값과 예측값의 차이를 제곱하여 더한 값 : ∑(실제값 - 예측값)^2
MSE : 평균제곱오차 : SSE의 평균 : 1/n * SSE
RMSE : 평균제곱근오차 : √MSE
MSPE : MSE를 %로 변환
RMSLE : log RMSE, 이상치에 덜 민감함
MAE : 실제값과 예측값의 차이의 절대값을 합한 평균값 : 1/n * ∑|실제값 - 예측값|
MAPE : MAE를 %로 변환
MPE : 실제값 - 예측값의 상대적 오차를 백분율로 표현 : 100/n * ∑(실제값-예측값/실제값)
결정계수 R^2 : 회귀모형이 실제에 적합한 비율 : R^2 ∝ 성능
Adjusted R^2 : 독립변수 개수 ∝ 결정계수의 문제를 보완 : 표본 크기n, 독립변수 개수p를 함께 고려해 결정계수 증가 보정 : 1-(n-1)*MSE/SST)
AIC : 최대 우도(likelihood)에 독립변수의 개수에 대한 손실분 반영 : 모형과 데이터의 확률 분포 차이 측정 : AIC ∝ 1/모형의 적합도 : AIC = -2 log L + 2K (L : 모형 적합도 척도, K : 모형 파라미터 수)
BIC : 주어진 데이터에서 모형의 우도 측정 : BIC = -2 log L + k log n

AIC, BIC : 모형 비교 기준으로, 모형이 복잡할 수록 Penalty를 부과함

1-3. 비지도 학습 - 군집분석 평가 지표

모델 성능 평가가 어려움

실루엣 계수 : s(i) > 0.5 = 적절한 군집 모델, s(i) = 0 = 의미 없음 : s(i) = b(i) - a(i) / max(a(i), b(i))
- a(i) : 군집 내 데이터 응집도
- b(i) : 군집 간 분리도

Dunn Index : 군집 간 거리의 최소값 / 군집 내 요소 간 거리의 최대값 : Dunn Index ∝ 성능 : 군집 간 거리는 클수록, 군집 내 분산은 작을 수록 좋다.

2. 분석모형 진단

2-1. 정규성 가정

분석 진행 전, 데이터가 정규분포를 따르는지에 대한 검정 : 데이터 자체의 정규성 확인

중심극한정리

동일 확률분포의 독립확률변수 n개의 평균 분포 = n이 적당히 크다면, 정규분포에 가까워짐
표본분포평균 = 모평균
표준편차 = 모표준편차 / √n
정규성 검정 종류
1. 샤피로-월크 검정 (n < 2000)
2. 콜모고로프 스미르노프 검정 (n > 2000)
3. Q-Q Plot : n이 소규모, 시각화 도구 일종

2-2. 잔차 진단

회귀분석에서 독립변수 ↔ 종속변수의 관계를 결정하는 최적의 회귀선 = 잔차(실측치 - 예측치)를 가장 작게 하는 선(잔차의 합 = 0)

잔차 정규성 진단 : 시각화도구(Q-Q Plot)을 통한 정규분포와 잔차분포의 비교
잔차 등분산성 진단 : 잔차 분산의 등분산성 진단
잔차 독립성 진단 : 자기상관여부 판단 : 독립성 위배 → 시계열 분석을 통한 회귀 분석 진행

3. k-폴드 교차검증

과적합을 방지하는 교차검증 기법
전체 데이터셋 → k개의 subset + k-1개의 훈련데이터 + 1개의 검증데이터
모든 데이터셋을 평가에 활용
- 모델 훈련 및 평가/검증에 대한 시간 소요↑

홀드아웃 기법 : Hold Out : 훈련/검증/테스트 데이터를 일정 비율로 지정 : 과적합 방지를 목적으로 함 : 데이터셋 크기가 작을수록 데이터를 나누는 방식에 따라 모델 성능 추정에 영향

※ k-폴드 교차검증은 Hold Out보다 안정성이 높으나, 계산비용도 높음.

4. 적합도 검증

데이터 분포가 특정 분포함수와 일치하는 정도에 대한 검증
정규성 검정법 : 모집단 분포를 정규분포로 가정
- t-검정
- ANOVA
- 회귀분석

4-1. 카이제곱 검정

k개의 범주별로 구분된 관측치들과 동일한 범주의 가정된 분포 사이의 적합도 검정
범주형 값 k가 나와야 할 횟수의 기댓값Mk, 실제값Xk의 차이 : ∑{(Xk - Mk)^2 / Mk}
검정통계량 + 자유도를 통한 p-value 도출 → p-value < 유의수준 = 귀무가설(Ho) 기각

4-2. 콜모고로프 스미르노프 검정 (K-S Test)

누적분포함수의 차이를 통해 실제 표본 분포 ↔ 가정 분포 사이의 적합도 검사
연속형 데이터에도 적용 가능
관측치의 누적확률, 가정된 분포의 누적확률 비교

[빅데이터분석기사] Part3 - CH 02. 분석 기법 적용 (2)

Thu, 21 Aug 2025 14:17:44 GMT

Section 02. 고급 분석 기법

1. 범주형 자료분석

변수들이 이산형 변수일 때, 빈도를 <표>로 나타내는 것.

1-1. 분석 방법

자료의 형태에 따른 분류

독립변수 : 범주형 / 종속변수 : 범주형 => 빈도분석, 카이제곱 검정, 로그선형모형
독립변수 : 연속형 / 종속변수 : 범주형 => 로지스틱 회귀분석
독립변수 : 범주형 / 종속변수 : 연속형 => T검정, 분산분석
독립변수 : 연속형 / 종속변수 : 연속형 => 상관분석, 회귀분석

빈도분석 : 질적자료를 대상으로 빈도, 비율 계산
로지스틱 회귀분석 : 대상이 두 개 이상 집단으로 구분될 때, 개별 관측치의 분류 예상 분석
카이제곱 검정 / 교차분석 : 두 범주형 변수가 서로 상관 or 독립 판단
T검정 : 두 집단 간 평균 비교
분산분석 : 두 집단 간 분산 비교

2. 다변량 분석

조사 대상에 대한 다수의 측정치를 동시에 분석
종속 변수의 관계성 고려 선행
일변량 분석(t-검정, ANOVA, 회귀분석 등) 여러 개를 동시에 수행

2-1. 용어

종속기법 : 독립변수가 종속변수에 미치는 영향력 분석
상호의존적 기법 : 독립, 종속변수에 대한 구분 없이, 전체를 대상으로 분석
비정량적 자료
- 명목척도 : 단지 분류만을 위해 사용되는 수(의미X)
- 순위척도 : 명목척도 + 순위 표현 : 값 자체의 의미를 가지나 간격과 비율은 의미 없음
정량적 자료
- 등간척도 : 측정된 값, 값 간의 차이는 의미 있음
- 비율척도 : 측정값, 간격, 비율 모두 의미를 가짐 : 가장 높은 측정 단위
변량 : 수집 원본(변수)에 가중치를 부여한 변수들의 합으로 구성된 새로운 변수

2-2. 기법

다중회귀분석 : Multiple Regression : 다수의 독립변수 변화에 따른 종속변수의 변화 예측
다변량분산분석 : Multiple ANOVA : 2개 이상 범주형 독립변수와 2개 이상 종속변수 간 관련성 파악
다변량공분산분석 : Multiple ANCOVA : 통제되지 않은 독립변수들의 종속변수에 대한 효과 제거
정준상관분석 : 종속변수군과 독립변수군 간 상관을 최대화하는 각 변수 군의 선형조합 도출
요인분석 : Factor Analysis : 많은 변수들 간 상호관련성 분석, 설명 가능한 공통요인 도출(요약) : 변수 간 상호의존성 파악, 변수 차원 축소, 요인 해석 : 주성분분석(PCA), 최대우도법기반 수행
군집분석 : 사전 정의가 없는 집단에 대해 표본 간 유사성에 기반해 분류 체계 도출
다중판별분석 : 비계량적 종속변수(성별, 난이도 등), 계량적 독립변수의 경우 (각 표본이 여러 개의 집단으로 분류됨) : 집단 간 차이를 판별해 A가 특정 집단에 속할 가능성 예측
다차원척도법 : MDS : 원래의 차원보다 낮은 차원(2차원)에 위치시켜, 개체들 간 구조, 관계 파악 용이 : 다차원 관측값, 개체 간 거리, 비유사성을 이용해 차원축소

3. 시계열분석

주식과 같이 시간 흐름에 따라 관측되는 데이터
시계열 자료 구분
1. 이산 : 관측값들이 이산적 분리
2. 연속 : 연속적 관측값
3. 시차 : 관측 시점 사이의 간격

3-1. 성분

불규칙 성분 : 시간과 무관한 성분 : 랜덤 변동
체계적성분 : 시간에 따른 규칙이 존재하는 변동성분

추세성분 : 관측값이 지속적 증가 or 지속적 감소 : 추세(trend)를 포함
계절성분 : 주기적성분에 의한 변동 형태
순환성분 : 주기가 긴 변동
복합성분 : 추세성분 + 계절성분
자기상관성 : 시차값들 간 선형관계가 있는 경우
백색잡음 : 자기상관성이 없는 무작위한 움직임의 데이터

3-2. 정상성

시계열 데이터의 평균, 분산이 일정한 경우 : 분석이 용이함 : 정상성이 없는 데이터의 경우, 정상성을 갖도록 정제 과정 필요
- 공분산이 시차에만 의존한다면, 정상시계열은 평균회귀 경향성 : 시점A의 정도를 B에서 사용 가능 (일반화)
평균이 일정하지 않을 때 : 차분(difference)를 통해 정상성 부여
분산이 일정하지 않을 때 : 변환(transformation) 과정을 거쳐 정상성 부여

3-3. 분석 방법

1. 단순 방법

이동평균법 : MA : 일정기간 시계열을 이동하며 평균 계산 : 추세를 파악하고 다음 기간 예측
지수평활법 : 모든 시계열 데이터를 사용함 : 최근 시계열에 더 많은 가중치를 부여 : 단 기간에 발생하는 불규칙 변동 평활 시에 사용 + 중기 이상의 시계열 데이터
분해법 : 시계열 자료의 성분 분류대로 분해 : 체계적성분(추세, 계절, 순환)을 분리해 분석 및 예측

2. 모형기반 방법

자기회귀모형 : AR : 현재값이 이전 값에 의존하는 선형회귀 모형 (p시점 전의 자료가 현재에 영향) : 시계열 데이터의 패턴 및 추세 파악 : 오차항 = 백색잡음 : AR(p) = 이전 p개 값(차수)에 의존하는 모형
- AR계수 : 이전값과 현재값의 자기상관계수

자귀회귀이동평균모형 : ARMA : 자기회귀 + 이동평균 : 오차항에 의해서만 시계열 결정 : ARMA(p,q) = 현재 값이 이전q개의 이전 예측 오차에 의존
자기회귀누적이동평균모형 : ARIMA : 비정상성을 가지는 시계열 데이터 분석에 사용 : AR + MA + 차분 (현재값 - 이전값) : ARIMA(p, d, q) = d는 차분(경향성 제거)

4. 베이즈 기법

4-1. Bayesian Inference

통계적 추론, 추론 대상의 사전 확률과 추가 정보를 통해 대상의 사후 확률 추론
조건부 확률 : P(A|B) = P(B|A) * P(A) / P(B)
회귀분석, Classfication에서 사용

4-2. 회귀분석모델 적용

추정치와 실제의 차이를 최소화하는 것이 목표
∂0, ∂1이 특정 값이 아닌 분포를 갖는다면, P(model | data) = P(data | model) * P(model) / P(data)

4-3. Classification 적용

나이브 베이즈 분류 : 파라미터 추정을 위한 학습 데이터 양 적음 (복잡한 상황에서 좋음) : 특성 간 독립을 가정한 확률 분류기 : 지도학습에서 효율적 훈련
이벤트 모델

: 사전확률 / 특성분포에 대한 가정을 기반으로 데이터 설명 및 예측 : 각 클래스 간 사전확률은 동일 : Training Set으로부터 각 클래스의 샘플 수 기반한 사전확률 추정 ex) Class 3개 = 각 Class의 사전확률은 1/3

종류
- 가우시안 나이브 베이즈 : 연속적 값
- 다항분포 나이브 베이즈 : 이산적 특징, 특성 벡터가 다항분포에 의해 생성
- 베르누이 나이브 베이즈 : 아산적 특징, 특성 벡터가 독립적 이진 변수로 표현

5. 딥러닝 분석

5-1. 개념

ANN : 시냅스 결합 → 네트워크 → 학습 → 시냅스 결합 세기 변화 → 문제 해결 능력 : 계산 속도 저하, 초기치의존성, 과적합 우려
Deep Learning : 여러 개의 비선형 변환 기법 조합을 통해 높은 수준의 추상화 시도 : ANN 단점 해소
Deep Learning 원리 : 은닉층多 → 여러 단계의 신경망 구성을 통한 정확도 향상

5-2. 분석 알고리즘

심층 신경망 DNN : 입력층 ↔ 출력층 사이 여러 개의 은닉층으로 이루어진 인공 신경망 : 복잡한 비선형관계 모델링
합성곱 신경망 CNN : 최소한의 전처리, 다계층 퍼셉트론 : 하나 이상의 합성곱(Convolution Layer) + ANN + 가중치 + (Pooling Layer) : 오차 역전파를 통한 훈련
순환 신경망 RNN : 인공 신경망 구성 유닛 사이 연결(directed cycle) : 신경망 내부 메모리를 통해 임의 입력 처리 : Sequence Data Modeling을 통해 지금까지의 Input Data를 요약(기억)
심층 신뢰 신경망 DBN : 잠재변수의 다중계층으로 이루어진 심층 신경망 : 계층 간 연결 OK, 계층 내 연결 X

6. 비정형 데이터 분석

비정형 데이터의 내용 파악과 패턴 발견을 위한 다양한 기법 활용
정련 과정을 통해 정형 데이터로 변환한 후, 데이터 마이닝을 통한 의미있는 정보 발굴

데이터 마이닝

데이터에서 통계적 규칙 및 패턴을 분석해 가치있는 정보 추출

기법

통계학 : 탐색적 자료분석, 가설 검정, 다변량분석, 시계열분석, 일반 선형 모형
DB 기술 : OLAP, SOM, 신경망

적용 분야

Classification
Clustering
Association : 동시 사건 간 관계
Sequencing : 특정 기간에 걸쳐 발생한 사건들
Forecasting

종류

Text Mining : Text to Vector = 단어/문장 → 수치적 형태
Web Mining
Opinion Mining
Reality Mining

7. 앙상블 분석

주어진 자료로부터 여러 개의 학습 모형 구축 후 조합하여 하나의 최종 모형 구축
약학습기를 통해 강학습기를 만들어내는 과정

약학습기 : 오차율이 일정 이하인 학습 규칙, 무작위 X

강학습기 : 약학습기로부터 만들어내는 강력한 학습 규칙

장점

정확성 향상
과적합 방지
분산감소
다양한 모델 적용 가능

단점

계산 복잡성 증가
해석 어려움, 설명력 감소
구현 복잡성 증가

7-1. 종류

Voting : 보팅 : 서로 다른 알고리즘 모델 조합, 결과물에 대해 투표 : Bagging은 동일 알고리즘 내 다른 표본 데이터 조합
- Hard voting : 결과물에 대한 최종값 투표
- Soft voting : 최종 결과에 대한 확률값 합산 후 최종값 도출
Boosting : 부스팅 : 가중치를 활용해 연속적인 약학습기 생성 → 강학습기 도출 : 순차적 학습으로 가중치 부여 → 오차 보완 : 병럴처리 어려움, 학습시간 오래 걸림
Bagging : 배깅 : 동일 알고리즘 내 다른 표본 데이터 조합(Bootstrap) → 각 모델 학습 → 결과 집계(Aggregation) : Random Forest
- 범주형 데이터 : 투표 방식
- 연속형 데이터 : 평균
Stacking : 스태킹 : 개별 모델의 예측결과를 취합해 Meta Model 학습, Meta Model이 최종 예측 수행 : 개별 모델들의 다양성 중요

7-2. 앙상블 최적화

다양한 알고리즘, 모델 사용
개별 모델 다양성
하이퍼 파라미터 최적화
교차 검증을 통한 성능 평가
앙상블 크기 결정(개별 모델 수) : 크기 ∝ 성능

8. 비모수 통계

통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률 계산 → 통계학적 검정

모수 통계 : 데이터 분포 or 모수(평균, 분산)을 안다고 가정

모수 : Parameter

함수의 특정한 성질을 나타내는 변수 ∂ f(x) = ax + b에서 a, b

8-1. 사용 조건

모집단의 형상이 정규 분포가 아님
표본의 크기가 작음
자료들이 서로 독립적
변인척도가 명명척도 or 서열척도

8-2. 특징

질적척도 자료 분석 가능
비교적 신속하고 쉽게 통계량 도출
결과 쉬움

8-3. 검정법

데이터가 정규분포를 따르지 않을 때 유용함

부호검정 : Sign Test : 관측치 간 대소 비교에 따른 사실 검정 : 데이터 순서, 크기를 가정하지 않고, only 부호(>, =, <)만
윌콕슨 부호순위 검정 : 대소 부호 + 관측치 간 차이의 크기 순위 : 동일 개체에 대한 두 관측값 ex) 약 투여 전/후 체온 변화 비교
만-휘트니 U 검정 : 두 집단 간 중심 위치 비교 : 두 독립 그룹 간의 위치적 차이 비교 ex) 두 집단 성적 비교
크루스칼-왈리스 검정 : 3개 이상 집단의 중앙값 차이 : 독립 표본 데이터에 대해 그룹 간 순위차이 검정

8-4. 장단점

장점

유연성, 넓은 적용 범위
순위 사용을 통한 이상치의 영향 감소

단점

효율성 저하(낮은 검정력)

[빅데이터분석기사] Part3 - CH 02. 분석 기법 적용 (1)

Wed, 20 Aug 2025 11:43:47 GMT

Chapter 02. 분석 기법 적용

Section 01. 분석기법

1. 분석기법 개요

1-1. 지도 학습

정답이 있는 데이터(Labelled Data)로 학습 : Training Dataset / Test Dataset
1. Classification : Decision Tree, Random Forest, ANN, SVM 등 1-1. 이진 분류 : Logisitic Regression 1-2. 다중분류
2. Regression : 주어진 데이터 기반해 새로운 값 예측 : Decision Tree, Linear Regression, Multiple Regression

1-2. 비지도 학습

정답이 없는 데이터 학습해 숨겨진 의미/패턴 도출 및 구체화
학습 모델 성능 평가 어려움
Clustering, Neural Network, Auto Encoder

1-3. 준지도 학습

Labelled, Unlabelled 동시 학습
소수의 Labelled Data로 학습된 부분 학습 모델을 통해 나머지 데이터에 라벨 생성 후 지도 학습 수행
Self-Training, GAN

1-4. 강화 학습

주어진 환경에서 보상 최대화
Q-Learning, 정책 경사(PG)

2. 회귀 분석

특정 변수가 다른 변수에 어떤 영향을 미치는 지에 대한 수학적 설명/예측
- 독립변수를 통한 종속변수 예측
회귀선(회귀계수) : 독립변수에 대한 종속변수의 기대값, 최소제곱법 사용

최소제곱법 : 잔차 제곱의 합이 최소가 되게 하는 직선을 의미
- 잔차 : 실제 값과 예측 값의 차이

회귀 분석 모형 진단

적합도 검정 : 추정된 회귀식이 표본의 실제값을 설명하는 정도 : R^2 (결정계수)를 알고있다는 가정 하에, SSR(회귀제곱합) / SST(총제곱합), 1에 가까울 수록 설명력↑
변수영향력 분석 : p < 0.05 = 통계적 유의미

2-1. 선형 회귀 분석 : Linear Regression

종속변수 Y와 1개 이상의 독립변수 X와의 선형 상관성
X, Y 모두 연속형 변수
잔차의 기대값은 0, 정규분포를 이뤄야 함 : 잔차는 서로 독립 & 분산 일정

1. 단순 선형 회귀 분석

X 1개, Y 1개
y = ax + b (a : 회귀 계수, b: 절편)

2. 다중 선형 회귀 분석

X 多, Y 1개
y = ax1 + bx2 + ... + c

3. 일반화 선형 모델 (`GLM`)

종속변수 Y가 정규 분포를 따르지 않아도 적용 가능
선형 예측 변수 + 링크 함수를 통해 Y와의 관계 설명
선형 회귀, 로지스틱 회귀, 포아송 회귀 등

선형 예측 변수 : 독립변수 + 모수(Parameter)

링크 함수 : 선형 예측 변수와 종속변수 간 관계를 표현하는 함수
GLM은 종속변수가 특정확률분포(이항분포, 포아송분포 등)를 따른다고 가정

2-2. 로지스틱 회귀 분석 : Logistic Regression

종속변수가 이항분포를 따르는 범주형 변수

1. 단순 로지스틱

: 종속변수 = 이항형(2개 범주)

2. 다중 로지스틱

: 종속변수의 범주가 2개 이상

로지스틱 회귀함수식 : 각 모수(Parameter)에 대해 비선형 : 승산(odds)로 로짓 변환 ▶ 0~1로 조정해 선형함수로 치환

승산 : 사건A가 발생하지 않을 확률 대비 일어날 확률의 비 : P(A) / 1-P(A)

3. 의사결정나무 : Decision Tree

전체 자료 → N개의 소집단 → Classification or Prediction 수행
상위 노드 → 하위 노드로 갈수록 노드 내 동질성↑ & 노드 간 이질성↑

3-1. 구성

Root Node : 대상이 되는 모든 자료 집합
Internal Node : 중간 마디
Terminal Node : 끝 마디
Depth : 가장 긴 마디의 개수

3-2. 종류

분류나무

이산형 목표변수 : 빈도 기반 입력 데이터
빈도 기반 분리
분리 기준 : 불순도(서로 다른 데이터의 섞임 정도)가 자식 노드로 갈수록 감소하도록
- 정보 획득 : 부모 자식 간의 불순도 차이(순도↑, 불확실성↓)
1. 카이제곱 통계량의 p-value : ((실제도수-기대도수)^2 / 기대도수)의 합

2. 지니 지수 : 한 항목의 무작위 라벨 추정 시, 틀릴 확률

3. 엔트로피 지수 : 무질서 정도에 대한 측도

회귀나무

연속형 목표변수 : 평균/표준편차 기반 예측 결과, 유의미한 실수 값
평균/표준편차 기반 분리

분리 기준

1. F-통계량의 p-value : 등분산성 검정, p-value ∝ 등분산성(순수도)

2. 분산 감소량 : 분산 감소량 ∝ 순수도

3-3. Decision Tree 분석 과정

변수 선택 : 목표 변수와 관련된 독립 변수 선정
Decision Tree 형성 : 분리 기준, 정지 규칙, 평가 기준 수립
정지 규칙 : 더이상 분리되지 않을 노드에 대한 선정 규칙
- Depth가 지정한 최대값 도달
- Terminal Node의 샘플수가 최솟값에 도달
- 불순도 감소가 더이상 진행되지 않음
가지치기 : 과적합 방지, 일반화 향상 : 부적절 추론 규칙, 분류 오류 위험 마디 제거
- 에러 감소 가지치기 : 분할/결합 전과 오류 비교해, 오류 감소 전까지 반복
- 룰포스트 가지치기 : Root → Leaf 경로의 정확도 낮은 순으로 제거
모형 평가 및 예측
- 정보 획득 : 순도 증가, 불확실성 감소 : 현재 노드의 불순도 - 자식 노드의 불순도 : 어떤 기준으로 분할하는 것이 순수성 증가에 도움을 주는지 판단
- 재귀적 분기 학습 : 분기 이후 순도 증가, 불확실성 감소 = 각 영역의 정보 획득량 증가 : 모든 Terminal Node의 엔트로피 = 0
타당성 평가
해석 및 예측

3-4. Decision Tree 대표 알고리즘

CART

분류, 회귀 모두 적용 가능
데이터를 가장 잘 분할하는 기준을 반복적으로 찾아 트리 생성
- 범주형, 이산형 변수 : 지니지수
- 연속형 변수 : 분산감소량 기반 이진 분리
직관적, 이해 쉬움, 데이터 전처리 불필요
불안정성 높음, 과적합 가능성↑

C 4.5 / C 5.0

Decision Tree 발전 형태
데이터 마이닝 알고리즘 중 사용↑
범주형, 이산형 변수에만 사용 가능
- 불순도 측도로 엔트로피 지수 사용

CHAID

범주형, 이산형, 연속형 변수 모두 사용 가능
- 불순도 측도로 카이제곱 통계량 사용
Multiway split 허용
가지치기없이 적당한 크기에서 성장 중지 = 과적합 방지

4. Random Forest

Bootstrapping기반 Sampling Decision Tree : Bagging 기반 앙상블 학습
Bagging : 여러 부트스트랩 자료 생성 및 학습을 통한 분류기(Classifier)를 생성해 결과를 앙상블 : 모델 과적합 방지 & 예측에 대한 분산 감소 : 각 샘플별 모델링 → 학습 → 결과 집계
1. 범주형 변수 : 다수결 투표
2. 연속형 변수 : 평균

Boosting : 별개의 앙상블 기법 중 하나 : Weak Classifier에 가중치를 부여해 순차적으로 연결 : 모델의 bias를 줄이고, 새로운 분류 규칙 생성이 목표

AdaBoost, GBM, XGBoost, Light GBM 등

3-5. Decision Tree 장단점

장점

연속, 범주형 변수 모두 적용 가능
변수에 대한 비교 가능
규칙 이해가 쉽고, 데이터로부터 규칙 도출 유용

단점

트리 구조의 복잡성 ∝ 예측력, 해석력
데이터 변형에 민감함

4. 인공신경망 : `Artifical Neural Network`

4-1. 특징

입력 데이터 → 가중치 처리 → 활성화 함수 → 출력 계산 → 가중치 조정 의 과정을 거침
ANN 모형 구축 시 고려 사항
- 범주형 변수 : 일정 빈도 이상 등장, 범주가 일정 구간 내
- 연속형 변수 : 값들 간의 범위 차가 작아야 함 (for 표준화)

4-2. 발전 과정

다층 퍼셉트론의 문제 : vanishing gradient (신경망 층수 증가에 따른 기울기 소실 문제 발생) : 과적합
Deep Learning의 등장 : pre-training을 통한 기울기 소실 문제 해결 : 초기화 알고리즘, DropOut을 통한 과적합 방지 : DNN = 2개 이상의 은닉층
- CNN, RNN, LSTM, GAN, GRU, AutoEncoder

4-3. 원리

입력값X 에 대해 다음 뉴런으로의 적절한 출력값 생성해 목표값Y 도달
- X * weights + bias → 학습 & 최적화 → 활성화 함수
- 가중치(weights) : 노드와의 연결계수
- 활성 함수 : 노드의 활성화 여부를 결정하는 임계값
뉴런 간 연결
1. 층 간 연결 : 서로 다른 층의 뉴런 간 연결
2. 층 내 연결 : 동일 층 내 뉴런 간 연결
3. 순환 연결 : A 뉴런의 출력이 A에게 입력으로 돌아옴

4-4. 학습

가중치와 편향을 훈련 데이터에 적응하도록 조정하는 과정
손실함수 값이 최소가 되게하는 가중치와 편향 도출

1. 손실 함수 : Loss Function

신경망 출력값과 실제값 사이의 차이를 즉정하는 함수
모델의 성능을 평가하는 척도
경사 하강법과 같은 최적화 알고리즘을 통해 손실 함수의 기울기 계산

2. 평균제곱오차 : MSE

가장 널리 사용되는 손실 함수
실제 값과 예측 값 차이의 제곱에 대한 평균

3. 교차엔트로피 오차 : CEE

예측한 확률 분포와 실제 확률 분포 간의 차이를 측정하는 손실 함수
Classificaition 모델에 사용
모델이 잘못 예측했을 때 큰 penalty 부여

이진 교차 엔트로피 : 이진 분류에 사용
다중 클래스 교차 엔트로피 : 다중 클래스 분류 여기서, C : 클래스 총 개수, yi : One-Hot Encoding Vector (정답 1, 아니면 0)

4. 학습 알고리즘

mini batch → 기울기 산출 → 매개변수 갱신

미니 배치 : 훈련 데이터 중 일부를 무작위로 선택
기울기 산출 : 미니 배치에 대한 손실 함수 값 최소화 : 경사 하강법, 경사 상승법 등
매개변수 갱신 : 가중치 매개변수를 기울기 방향으로 업데이트

5. 오차 역전파

기울기 산출의 단점 : 시간 소모
오차를 출력층 → 입력층 으로 전달
덧셈 노드, ReLu, Sigmoid, Affine 등

6. 활성함수

입력 신호의 총합 ▶ 출력신호
노드의 활성화 여부 결정
- 퍼셉트론 : 1개 이상 입력층, 1개 출력층의 신경망 구조
- 다층 퍼셉트론 : 퍼셉트론 + 은닉층 1개 이상, 계단 함수를 통해 0, 1 반환
- 딥러닝 인공신경망 : 가중치 매개변수의 적절한 값 자동 학습
  
  Sigmoid : 이진분류 : True (0.5 ~ 1), False (0 ~ 0.5)
  
  ReLu : Sigmoid의 기울기 소실 문제 해결 : > 0 → 그대로 출력, ≤ 0 → 0

7. 과적합

학습 데이터에만 높은 성능을 보이는 경우
훈련 데이터 수가 적고, 매개변수가 많고, 표현력 높은 모델일 때 발생

해결법

Weight Decay : 가중치 감소 : 가중치가 클수록 패널티 부과, 가중치 매개변수의 절대값 감소

패널티 종류

L1 규제 (Lasso)
- L1-norm(벡터 요소의 모든 절대값 합)으로 비용 함수 조정
L2 규제 (Ridge)
- L2-norm(벡터 간 유클리드 거리값)으로 비용 함수 조정
- L1보다 활용도 높음
Dropout : 은닉층 뉴런을 임의로 삭제 : 적은 뉴런으로 훈련, 전체 뉴런으로 테스트 : 가중치가 높은 특정 뉴런에 대한 의존도 감소
Hyper Parameter 최적화 : 교차검증과 함께 사용 : Grid Search(가능한 모든 조합 시도) → Random Search(랜덤하게 하이퍼 파라미터 선택) → Bayesian Optimization(기존 결과 기반 다음 시도할 하이퍼 파라미터 추정)

8. 기울기 소실 : Vanishing Gradient

가중치 업데이트 이후, 역전파가 오차를 전파하는 와중 기울기가 소실되는 현상
입력 노드와 출력 노드 간 거리가 클수록 발생

해결법

ReLu : 양수값 기울기 일정 (1)
LSTM : 장기 기억 가능
GRU
배치 정규화 : 각 층에서의 데이터 분포 정규화
최적화 : Adam, AdaGrad 등

4-5. 딥러닝 모델 종류

CNN : 합성곱 신경망 : Affine 계층 사용 (인접 계층 모든 뉴런과의 완전 연결, ReLu or Sigmoid 사용) : 이미지 형상 유지, 이미지 특징 추출
- Convolution Layer - Affine ReLu - Pooling Layer(생략 가능)
  CNN 과정
  1. Filter (kernel) : 벡터의 특징을 찾는 정사각형 행렬 파라미터
  2. stride : filter는 입력 데이터를 일정 간격(stride)로 순회하며 특징 추출해 feature map 구성 : stride 크기 ∝ 1/출력데이터 크기
  3. Padding : Feature Map 크기 < 입력 데이터 → 출력 데이터 크기를 위해 주변을 0 or 1로 채움

Convolution Layer : 합성곱 : 2차원 입력 데이터에 filter window 적용해 총합을 구하고, 합성곱 연산 출력
- 입력 데이터의 채널 수 = filter의 채널 수 (모든 채널의 filter 크기는 동일, bias는 항상 1개)

Pooling Layer : Optional, 입력 데이터의 채널 수가 변화하지 않게 가로/세로 공간 감소 ex) 4*4 행렬 → 2*2 행렬 : Max Pooling (대상 영역의 최댓값으로 변환) : Average Pooling (대상 영역의 평균값으로 변환) : 과적합 감소 + 학습 시간 감소

RNN : Ordinary 시변적 특징 데이터 (필기, 음성인식 등)에 사용 : 메모리를 통한 입력 시퀀스 처리 : 순환 구조 은닉층을 가지며, 동일 가중치를 공유함 : GSD(확률적 경사 하강법) 사용

△ 단점 : 관련 정보와 정보 사용 지점이 먼 경우, 역전파 시 기울기 소실 문제 발생

LSTM : RNN의 기울기 소실로 인한 데이터 소멸 문제 해결 : 보통 신경망 대비 파라미터 수 x4 : Long Term Memory : 입력/출력/망각 게이트 → 가중치 곱연산 → 활성화 함수 없이 컨트롤 게이트를 통해 조절
AutoEncoder : 입력으로 들어온 다차원 데이터 → 저차원 → 고차원 의 과정을 통해 특징 도출 : 데이터 압축, 노이즈 제거 시 사용
- encoder : 다차원 → 저차원
- decoder : 저차원 → 고차원
GAN : 지도학습(판별자) + 비지도학습(생성자), 두 네트워크 간 MinMax Game
- discriminator : 패턴 진위여부 판별
- generator : 학습 데이터 패턴과 유사하게 생성
DCGAN : 두 모델 중 하나로 역량이 치우쳐 성능 제약 문제가 발생하는 것을 해결

4-6. ANN 장단점

장점

비선형적 예측 가능
다양한 데이터 유형, 새로운 학습 환경에 적용 가능

단점

데이터 양 ∝ 학습 시간
모델에 대한 설명력↓

5. SVM

지도학습 중 하나
고차원 공간에서 초평면을 찾아 Classification, Regression 수행
두 데이터 집합을 바탕으로 새로운 데이터가 속할 카테고리 판단 : 비확률적 이진 선형 분류

5-1. 주요 요소

vector : 점들 간 클래스
Decision Boundary : 클래스를 분류하는 선
hyperplane(초평면) : 서로 다른 분류에 속한 데이터 간 거리를 가장 크게 하는 선
Support vector : 두 클래스를 구분하는 경계
Margin : 서포트 벡터를 지나는 초평면 사이의 거리

5-2. 특징

Margin최대화에 중점 : 다른 분류기는 오류율 최소화에 중점
초평면의 마진 = 각 Support vector를 지나는 초평면 사이의 거리
가중치 벡터 : 초평면에 직교, offset 제공
선형 / 비선형 분류에 모두 사용

비선형 분류에서의 SVM : 커널트릭(데이터 차원 증가)를 통해 하나의 초평면으로 분류

5-3. 장단점

장점

분류, 회귀 예측 모두 활용 가능
적은 데이터로도 학습 가능 : 과적합, 과소적합↓ : 데이터 수 ∝ 학습 시간

단점

이진 분류 만 가능
각 분류에 대한 SVM 별도 구축 필요

6. 연관성분석

유사 개체들을 그룹화하여 각 집단의 특성을 파악 ▶ 사건의 연관 규칙 도출
비지도학습 중 하나, 탐색적 데이터 분석

6-1. 연관 규칙 순서

데이터 간 규칙 생성
데이터 특성에 부합되는 규칙 기준 설정
- Support(지지도) : 데이터 전체에서 해당 사건이 나타나는 확률
- Confidence(신뢰도) : 어떤 사건이 다른 사건에 대해 나타나는 확률
- Lift(향상도) : 두 규칙(A, B)의 상관 관계 : 1이면 독립, > 1 이면 양의 상관 관계
규칙 생성 : 빈발(frequent) 높은 것만 고려 : Apriori 알고리즘 기반 (최소 지지도 이상의 빈발항목집합에 대해서만 연관규칙 계산)

6-2. 장단점

장점

분석결과 이해도 높음
실적용에 용이함

단점

품목수 ∝ 연관규칙 수
계산과정이 많다.

7. 군집분석

비지도학습 중 하나
각 개체 간 유사성 분석을 통해 일반화 그룹 분류
이상치에 민감함, 신뢰성/타당성 검증X

7-1. 기본 가정

한 클러스터 내 개체 간 특성 동일
군집의 특성 = 군집 내 개체들의 평균

7-2. 군집분석 척도

유사성 계산 방법

거리 : 값이 작을수록 A, B가 유사함 : 유클리드 거리, 맨해튼 거리
유사성 : 값이 클수록 A, B가 유사함 : 코사인 값, 상관 계수
유클리드 거리 : 2차원에서 두 점을 잇는 가장 짧은 거리(피타고라스 정리) : 민코프스키 적용(m=2) 시, L2 거리
맨해튼 거리 : 가로지르지 않고 도착하는 최단거리 : 민코프스키 적용(m=1) 시, L1 거리
민코프스키 거리 : m차원 민코프스키 공간에서의 거리 : m = 1(맨해튼), m = 2(유클리드)
마할라노비스 거리 : 평균으로부터 특정 값의 거리 : 변수 간 상관관계 고려
자카드 거리 : 두 집합 간 비유사성 측정

7-3. 군집분석 종류

군집분석은 병합과 분할로 구분 병합 : N개의 군집에서 시작해 1개까지 유사 군집 병합

분할 : 1개의 군집 → N개 될 때까지

1. 계층적 군집분석

상위-하위 구조로 군집 형성
군집 수 명시X
시각화 = 덴드로그램
최단, 최장, 평균, Ward 연결법, 계층적 병합 군집화

2. 비계층적 군집분석

사전 군집 수로 표본 구분
각 레코드를 정해진 군집에 할당
계산량이 적어 대용량 DB에서 유리

K-means : 군집 내부 분산 최소화 : 주어진 데이터를 k개의 클러스터 중 하나에 할당 : 개별 유형 특징 파악에 용이 : 대용량 데이터 처리, 분산 처리에 용이

DBSCAN : 개체 간 밀도를 계산해 밀접 개체끼리 그룹핑 : 이상치 제외 가능, 유형 간 밀도차이 뚜렷하지 않을 때 용이

Gaussian Mixture Model : 확률 분포 기반 클러스터링 : 데이터 확률 분포가 정규 분포라는 가정 아래, 각 데이터가 정규 분포 상에서 어떤 분포에 속할 지 판단 : 대용량 처리 시엔 적합하지 않음

7-4. 장단점

장점

다양한 데이터 타입에 적용
변수에 대한 정의가 없을 때 적용할 수 있음 : 비지도 학습이니까

단점

초기 군집 수, 관측치 간 거리 결정에 따라 결과 변동 가능
주어진 사전 목표가 없다면 결과 해석이 어려움 : 비지도 학습이니까

[빅데이터분석기사] Part3 - CH 01. 분석 모형 설계

Fri, 15 Aug 2025 10:11:19 GMT

Part 3. 빅데이터 모델링

Chapter 01. 분석 모형 설계

Section 01. 분석절차 수립

1. 분석 모형 선정

데이터 속성 파악/처리 → 분석 모향 선정 및 적합한 분석 기법 선택
데이터가 준비되지 않았다면, 사전 분석 목적을 명확히 해야함

분석 모형 선정 프로세스

문제 요건 정의 : 데이터 선정, 분석 목표 및 조건 정의

데이터 수집, 정리, 도식화

데이터 전처리

분석모형 선정

2. 분석 모형 정의

분석 모형이란?

데이터 특성을 도출해 분석 방향을 정의

분석 모형 종류

예측 분석 모형 : 데이터, 상황에 따른 가설에 기반해 미래 현상을 분류/예측 ex) 날씨, 주가
현황 진단 모형 : 과거 데이터를 통해 현재를 객관적으로 진단
최적화 분석 모형 : 원하는 결과를 내고자 분석 모델을 최적화하는데 집중

사전 고려 사항

분석이 추진될 수 있는 가능성 확인
관련 과거 분석 사례를 사용할 지, 솔루션을 활용할 지 검토
분석 방법 구분
1. Bottom-Up : 대량 데이터를 분석해 유의미한 인사이트 도출
2. Top-Down : 문제를 먼저 정의 후 비즈니스 모델, 외부참조 모델, 분석 유스케이스 기반 모델을 통해 문제 발굴

3. 분석 모형 구축 절차

1. 분석 시나리오 작성

분석 대상 데이터, 범위 정의
해결 가능 문제, 목표, 구현 모델, 예상 결과 작성

2. 분석 모형 설계

사전 확인 사항 (필요 데이터 항목, 데이터 단위, 표준화 방법 등)
분석 모델링 설계 및 검정
적합한 알고리즘 설계
분석 모형 개발 테스트 (분석용 데이터를 훈련/테스트로 구분)

각 학습방법에 따른 적합 알고리즘 설계

비지도 학습 : 군집 분석, 연관성 분석, AutoEncoder

지도 학습 : Decision Tree, Random Forest, SVM, 회귀 분석

준지도 학습 : Self-Training, GAN

강화 학습 : Q-Learning, 정책경사(PG)

3. 분석 목적 기반 가설검정 - 통계적 검정

절차

유의수준 결정 & 귀무가설(H0), 대립가설 설정(H1) : 귀무가설이 옳다는 가정 하에 가설검정 시행
검정통계량 설정 : 귀무가설 기각 여부 결정 값
기각역 설정 : 검정통계량 in 기각역 then, 귀무가설 기각 : SUM(기각역) = 유의수준
검정통계량 계산 : 표본평균 - 모평균 / 표본표준편차
가설검정
- 양측검정 : 대립가설 = '~가 아니다. (크거나 작다)'
- 단측검정 : 대립가설 = '~보다 작다 or ~보다 크다'

4. 분석모델링 설계 검정 - 추정 방법에 대한 기술검토

모형에 활용될 후보 변수, 후보 분석 모형에 사용할 알고리즘 파악
분석모형 선정 문제 : 예측 분석, 현황 진단, 예측 최적화 중 1

Section 02. 분석 환경 구축

1. 분석 도구 선정

R : 오픈소스 분석용 프로그래밍 언어 : 객체지향, 고속 메모리 처리, 다양한 자료구조, 시각화 : 대용량 메모리 X, 보안 취약, 웹에서 사용 X
Python : 플랫폼 독립적, 인터프리터 언어, 동적 데이터타입, 가비지 컬렉션

2. 데이터 분할

전체 데이터를 학습/평가/테스트 데이터로 분류
1. 학습 데이터 : 분석 모형 구축
2. 평가 데이터 : 과대/과소적합 판단 및 모형 성능 평가
3. 테스트 데이터 : 일반화 검증

데이터 분류 비율

학습 : 검증 = 7 : 3

훈련 : 평가 : 검증 = 4 : 3 : 3 (5 : 3 : 2)

OverFitting : 학습 데이터에만 높은 정확도를 보임, 테스트 데이터에 성능 X : 데이터 분할, k-fold 교차검증, 정규화 등으로 방지

UnderFitting : 모형이 너무 단순해 패턴/규칙 학습에 실패 : 학습 데이터에도 부정확한 결과 도출

[빅데이터분석기사] Part2 - CH 02. 데이터 탐색

Wed, 13 Aug 2025 11:58:18 GMT

Chapter 02. 데이터 탐색

Section 01. 데이터 탐색의 기초

1. 탐색적 데이터 분석 : `EDA`

수집한 데이터에 대해 다양한 방법으로 관찰 / 이해하는 과정

필요성

내재된 잠재적 문제에 대한 이해 및 해결안 도출
문제 정의 단계에서 놓친 새로운 양상 / 패턴 발견

분석 과정 및 절차

분석 목적, 변수 확인
데이터 문제성(결측치 유무, 이상치 유무) 확인
데이터 개별 속성값이 예상 범위 분포 내에 위치하는지 확인
데이터 간 상관관계 확인 -> 상관분석

이상치 검출방법

개별 데이터 관찰
통계값 활용
- IQR : 사분위 범위 기반 이상치 제거
- 정규분포 : μ - 2σ ~ μ + 2σ
시각화
머신러닝 ( ex) K-means)

2. 상관관계 분석

두 변수간 선형적 관계 분석

두 변수는 독립적이거나 상관 관계에 있다.

상관분석

단순 상관분석 : 2개 변수 간 관계의 강도
다중 상관분석 : 3개 이상 변수 간 관계의 강도
- 편 상관관계분석 (Partial) : 다른 변수와의 관계는 고정, 두 변수 간 관계 강도만 측정

상관분석의 기본 가정

선형성 : X, Y간 관계가 직선적인가? : 산점도를 통해 확인
동변량성(등분산성) : X 값에 관계 없이 Y 값의 흩어짐 정도가 일정한가
두 변인의 정규분포성 : X, Y의 측정치 분포가 모집단에서 정규분포를 따르는가
무선독립표본 : 모집단에서 추출된 모든 표본이 서로 독립적 : 한 관측치의 값이 다른 관측치의 값에 영향 X

상관분석 방법

두 변수 간 관계를 측정하는 통계량으로 판단

1. 피어슨 상관계수 : Pearson Correlation Coefficient

두 변수 간의 선형 관계(linear)의 강도 / 방향 측정
- 한 변수가 증가할 때, 다른 변수가 증가 or 감소
X, Y간 선형 상관 관계를 -1 ~ 1 값으로 측정 : +1 = 양의 상관 : 0 = 상관 관계 X : -1 = 음의 상관
Outlier에 민감함
데이터가 정규분포, 등분산성을 만족해야 함

키 - 몸무게, 공부 시간 - 성적 등

2. 스피어만 상관계수 : Spearman Correlation Coefficient

두 변수 간의 단조 관계(monotonic)의 강도 / 방향 측정
- 한 변수가 증가할 때, 다른 변수도 항상 증가 or 항상 감소
- 반드시 직선적일 필요는 없음
실제 데이터 값 대신 순위(rank)를 통해 계산
두 변수의 차이 ∝ 스피어만 상관 계수 값
- 1에 가깝다. = 단조적 상관석
- 0 = 상관성이 없다.
Outlier 영향 적음
데이터 분포에 대한 가정 불필요

고객 만족도 순위 - 제품 품질 순위 등

3. 기초통계량 추출 및 이해

1. 중심화 경향 기초통계량

산술 평균 : 모평균μ, 표본 평균X (X_bar)
기하 평균 : n개의 양수들을 모두 곱한 후 n제곱근을 취한 값

: 평균물가상승률 의 비율, 성장률 값에 대한 평균 : 일반적으로 산술 평균 ≥ 기하 평균

조화 평균 : 각 요소의 역수에 대한 산술 평균 → 역수 : 자료 동일 시, 조화 = 산술 = 기하 : 자료 상이 시, 조화 ≤ 기하 ≤ 산술
중앙값
최빈값
분위수 : 자료의 위치 : 몇등분 하느냐에 따라 사분위수, 십분위수 등

2. 산포도 = 분산도

: 자료의 퍼짐 정도 : 중심 위치의 측도 + 중심 경향도 수치에서 자료의 떨어짐 정도

분산, 표준편차 : 평균을 중심으로 밀집/퍼짐의 정도 : 각 자료값에 대한 정보 반영 : 특이점에 영향이 크다. : 분산 ∝ 자료의 분포형태
범위 : MAX ~ MIN
평균 절대편차 : MAD : | 자료값과 표준평균과의 편차 |에 대한 산술평균 : ∑|X - AVG| / n

사분위 범위 : IQR : Q3 - Q1, 이상치 판단에 사용
변동계수 : CV : 평균을 중심으로 한 산포의 상대적 척도 : CV ∝ 분포의 정도

3. 자료의 분포 형태

왜도 : Skewness : 분포의 비대칭 정도, 대칭성/비대칭성 정량화 : 왜도 = 0 → 대칭, 평균 = 중앙값 = 최빈값 : 왜도 > 0 → 왼쪽 치우침, 평균 > 중앙값 > 최빈값 : 왜도 < 0 → 오른쪽 치우침, 평균 < 중앙값 < 최빈값 : 분포의 비대칭성 및 크기를 통해 이상치 존재 파악
- |왜도| > 1.96 → 비대칭성

피어슨 비대칭 계수 : 분포가 좌우로 얼마나 대칭적인지 : 왜도를 측정하는 간단한 통계량

최빈값을 알 때 : 제 1 비대칭 계수
최빈값 모를 때 : 제 2 비대칭 계수

첨도 : Kurtosis : 분포의 뾰족한 정도 : 평균에 몰릴 수록 첨도가 높음 : 첨도 > 3 → 뾰족, 첨도 = 3 → 정규 분포, 첨도 < 3 → 평평

4. 시각적 데이터 탐색

1. 통계적 시각화

도수 분포표 : 계급에 의한 분류 : 질적자료를 범주에 대한 도수(상대도수)로 표현
- 상대도수 : 도수 / n
히스토그램 : 도수분포표를 통해 표분의 자료분포 표현 : 가로축 = 수량
막대 그래프, Pie Chart
산점도 : Scatter Plot
줄기 잎 그림
상자 수염 그림 : Box Plot

Section 02. 고급 데이터 탐색

1. 시공간 데이터 탐색

다차원 데이터 : 공간 정보 + 시간적 흐름

시간 데이터 : 어느 한 시점에 대한 스냅샷 정보 : 유효시간, 거래시간, 이원시간(거래 + 유효) 등
공간 데이터 : 레스터 공간(실세계 객체 이미지), 벡터 공간, 기하학적 타입, 위상(공간 객체 간 관계)
공간 데이터 모델
1. 관계형 : 데이터 표현 유연하지 않음 : 실세계 객체 표현 X
2. 객체지향 : 비구조적, 데이터 표현 자연스러움 : 연산 및 확장, 무결성 검사 쉬움

시공간 데이터 분석

시공간위상 관계 연산
1. 공간위상 연산자 : 두 객체 간 공간 영역 상 관계에 대한 True/False
2. 시간 관계 : 두 객체 간 선후 관계에 대한 True/False

시공간 기하 연산
1. 공간 기하 : 두 객체 간의 거리
2. 시간 구성 : 객체의 유효기간 변경

2. 다변량 데이터 탐색

: 변수 간 인과관계 규명 및 분석

종속변수와 독립변수 간 인과관계 탐색법

1. 다중 회귀 : `Multiple Regression`

독립변수 2개 이상의 회귀 모형
- 각 독립변수는 종속변수와 선형 관계
종속변수 Y에 대해 독립변수 X가 k개
회귀 모형은 모수에 대해 선형
오차항의 평균 = 0, 오차항은 정규분포 추종
- 오차항 : 관측치와 모예측치 간 편차 차이
최소자승법 사용

2. 로지스틱 회귀 : `Logistic Regression`

독립변수의 선형 결합을 통해 사건의 발생 가능성 예측
이항형 데이터(변수 2개) → 종속변수 Y = [0, 1]
이진적 종속변수에 대해 P(y|x)는 이항분포
독립변수는 형태 상관 없음
- 종속변수는 연속 or 이산

3. 분산 분석 : `ANOVA`

2개 이상 집단 평균이 통계적으로 유의미한 차이가 있는지 검정
분산을 통한 집단간의 차이 평가
집단 간 분산, 집단 내 분산으로 분해해 비교
1. 집단 간 분산 : 각 집단의 평균이 전체 평균으로부터 떨어진 정도 : 집단 간 차이 ∝ 집단 간 분산
2. 집단 내 분산 : 각 집단 내부 데이터가 내부 평균으로부터 퍼진 정도

F-통계량 귀무가설 : 모든 집단의 평균은 동일 대립가설 : 적어도 한 쌍의 집단 평균은 다름

if F > 1 : 귀무가설 기각

4. 다변량 분산 분석

: 측정형 변수, 종속 변수가 2개 이상 : 독립 변인의 수가 2개

공분산과 독립성 관계

공분산 : 2개의 확률 변수의 상관 정도

두 확률 변수가 상호 독립(Cov(A, B) = 0) = 공분산 0 △ Cov(A, B) = 0이라고 해서 A, B가 상호 독립은 아님

두 확률 분포 간 독립성 확인

분포 독립성 확인 : 두 확률 변수의 결합 확률 분포를 확인
- P(X, Y) = P(X) x P(Y) = 상호 독립

공분산 및 상관계수 확인 : 공분산 = 0 and 상관계수 = 0, X, Y 독립
독립성 검정 : 카이제곱 독립성 검정법 등

변수 축약

변수들 상관 관계를 통한 변수의 수 감소

주성분 분석 (PCA) : 다변량 자료에서 비정규성/이상치 발견 : 상관 관계 없는 새로운 변수 도출 : N개의 변수 → 서로 독립인 K개의 주성분 도출
- 원 변수의 차원 감소 ∵ K < N

요인 분석 : 변수 간 상관 관계 분석 → 요인Factor 기반 공통차원을 통해 축약 : 독립/종속 변수 개념 X
정준 상관 분석 : 정준 변수 = 집단 간 상관 구조를 가장 잘 설명하는 변수 간 선형 결합 : 정준 상관 계수 = 정준 변수 간 상관 계수 : 두 집단 중 변수의 수가 적은 집단의 변수 수 만큼의 정준 변수 도출

개체 유도

개체 특성을 측정한 변수 간 상관 관계를 통해 유사 개체 분류

군집 분석 : Cluster Analysis : 모집단에 대한 사전 정보 X : 관측값 간의 유사성(거리) 이용
군집 분석 방식 구분
1. 계층적 군집 분석 : 차례로 군집화, 한 번 병합되면 분리하지 않음
2. 비계층적 군집 분석 : 산포 측도 이용, 재분류 가능
3. 조밀도 : 데이터 분포 특성에 따라 군집화
4. 그래프 : 시각적 군집화(2, 3차원으로 축소 필수)
다차원 척도법 : MDS : 다차원 개체 간 거리 / 비유사성 활용해 낮은 차원에 위치시킴
- 개체 간 구조, 관계 파악 용이

판별 분석 : 많은 그룹으로 나누어진 개체에 대해 분류에 영향을 미칠 특성 측정
- 새로운 개체 분류
- 로지스틱 판별 분석 : 분류 판별식으로 로지스틱 회귀 분석을 이용

3. 비정형 데이터 탐색

정의된 데이터 모델이 없음.
텍스트, 날짜, 숫자, 사실 등
특징을 추출해 정형/반정형으로 변환

비정형 데이터 분석

Data Mining : 대규모 데이터에서 통계적 규칙, 패턴을 분석해 가치있는 정보 추출 : 탐색적 자료분석, 가설 검정, 시계열 분석 등 : OLAP, SOM, 신경망 등의 기술적 방법론 사용
- 적용 분야 : 신용 평가 모델, 장바구니 분석등 : Classification, Clustering, Association, Sequencing, Forecasting
- 단점 : 자료 의존성 높음 : 자료가 현실에 대한 반영도가 낮다면 모형이 잘못됨

Text Mining : NLP를 통해 데이터의 숨겨진 의미 발견
Opinion Mining : 사람의 주관적 의견을 통계/수치화 → 객관적 정보 : NLP를 통해 감정 및 뉘앙스, 태도를 파악
Web Mining : 웹 자원으로부터 유의미한 패턴 및 추세 도출 : log, User Action 등을 마케팅에 사용
1. 웹 구조 마이닝 : 구조적 요약 정보
2. 웹 내용 마이닝 : 유의미한 Contents
3. 웹 사용 마이닝 : 유저 액션 등의 패턴

[빅데이터분석기사] Part2 - CH 01. 데이터 전처리 (2)

Tue, 12 Aug 2025 12:14:56 GMT

Section 02. 분석 변수 처리

1. 변수 선택

독립 변수를 효율적으로 선택하는 과정

변수별 모형

전체 모형 FM : 모든 독립 변수 사용
축소 모형 RM : 전체 모형에서 사용되는 변수의 수 감소
영 모형 NM : 사용하는 독립변수 0개

변수 선택 방법

전진선택법 : NM에서 시작, 중요 변수를 차례로 모형에 포함(한 번 추가된 변수는 제거 X) => 부분 F검정을 통한 유의성 검증
후진선택법 : FM에서 시작, 설명력이 낮은 변수 순으로 제거 => 부분 F검정을 통한 유의성 검증
단계적선택법 : 전진선택법을 통한 유의미 변수 포함 → 포함되지 않은 나머지 변수에 후진선택법 적용해 제거

2. 차원축소

차원 : 데이터 종류의 수
차원축소 : 데이터 종류(변수)의 양 감소

차원축소의 필요성

복잡도 축소 : 동일 품질 보장 하에, 효율성 향상
과적합 방지 : 차원 증가 → 과적합 가능성 ↑ → 분석 모형에 대한 신뢰도↓
해석력 확보 : 차원의 수 ∝ 분석 모델 내부 구조의 복잡성
차원의 저주 : 학습 데이터 수 ＜ 차원 수 => 성능 감소

차원축소 방법

1. 요인 분석 : `Factor Analysis`

변수들 간의 상관관계 분석을 통해 공통 차원 축약, 통계 분석 과정 수행
주성분 분석, 공통요인 분석, 특이값 분해(SVD)행렬, NMF 등
목적 : 변수 축소 및 제거 : 관련 변수들의 군집화를 통한 변수 특성 파악(상호 독립성 파악 용이) : 변수의 독립성 여부 파악을 통한 타당성 평가 : 요인 점수를 이용한 신규 변수 생성(파생변수)
특징 : 기술 통계에 의한 방법 : 독립/종속 변수 개념이 없다.

2. 주성분 분석 : `PCA`

데이터의 특성을 설명 가능한 하나 이상의 특징 도출
고차원 공간 데이터 → 직교 변환 → 저차원 : 각 고차원 데이터 간 상호 연관성 O
원 데이터의 중요 정보를 최대한 보존하면서 차원 축소를 목표
PC1 : 첫번째 주성분 : 데이터 분산을 가장 많이 설명하는 방향
PC2 : 두번째 주성분 : PC1과 직교 & 남은 분산을 가장 많이 설명하는 방향

3. 특이값 분해 : `SVD`

m x n 행렬 A 를 3개의 행렬 곱으로 분해
- U : m x m 크기의 직교 행렬
- Σ : m x n 크기의 대각 행렬
- Vt : n x n 크기의 직교 행렬, V의 전치 행렬
데이터의 주요 정보가 큰 특이값(k)에 집중
적당한 특이값 k를 통해 비슷한 정보력의 차원으로 축소

4. 음수 미포함 행렬 분해 : `NMF`

음수 미포함 행렬 V를 음수 미포함 2개 행렬(W, H)의 곱으로
데이터가 0 이상 값으로 구성되어있을 때, 데이터의 숨겨진 구조/패턴 도출
W, H의 차원은 V보다 작다.

3. 파생 변수의 생성

Data Mart : Data Warehouse로부터 수집(복제)된 데이터 모임의 중간층 : 요약 변수 + 파생 변수

파생 변수

: 기존 변수나 데이터로부터 새로운 규칙, 계산을 적용해 만든 변수 : 모델의 성능 향상 및 데이터의 숨겨진 의미 파악에 사용 : 주 구매매장, 주 활동지역 등 : 매우 주관적, 논리적 타당성 필요

국어, 수학 점수 데이터를 통한 종합적 학업 능력 평가 시, 전체 과목 평균 = 파생 변수

유의점 : 전 데이터 구간에 대한 대표성을 가져야 함

교호작용 : `Interaction`

한 변수의 효과가 다른 변수의 값에 따라 달라지는 현상

광고비와 할인율 두 변수의 상호작용 ▶ 매출이라는 결과 변수에 영향
- 교호작용을 통한 파생변수 생성 : 2개 이상 변수가 서로에게 영향을 미쳐 예측 변수에 미치는 효과가 달라질 떄, 이를 확인하기 위해 새로운 변수를 만드는 기법 : 독립 변수 간의 상호작용을 모델에 반영 ※ 단, 종속 변수와 독립 변수 간 교호작용을 사용하면 안됨

요약 변수

: 수집된 정보를 분석에 맞게 종합 : Data Mart에서 가장 기본적인 변수 : 다른 분석 모델에서 공통으로 사용 가능한 변수 : 매장이용 횟수, 기간별 구매금액 등

유의점 : 결측치, 이상치 처리에 유의 : 연속형 변수 → 구간화를 통해 의미있는 구간 발굴

4. 변수 변환

데이터를 분석하기 좋은 형태로 변환
- 데이터 전처리 중 일부

변환 방법

1. 범주형 변환

변수를 범주형으로 변환(순위, 비율 %)
결과의 명료성 / 정확성 향상

2. 정규화

연속형 데이터를 상대적 특성이 반영된 데이터로 변환
1. 일반 정규화 : 수치상 차이를 같은 범위로 변환
2. Min-Max 정규화 : 0 ≤ value ≤ 1 : 이상치 영향↑
3. Z-Score : 이상치 문제를 해결 : 평균 = 0, value < AVG = 음수

3. 로그 변환

기존 수치값 X에 log를 씌워(ln(X)) 분포가 정규 분포에 가까워짐
데이터가 좌측으로 치우친 경우에 사용

4. 역수 변환

변수 X의 역수(1/X)를 분석에 사용해 선형적 특성 향상
극단적 좌측 치우침의 데이터 분포를 정규화

5. 지수 변환

변수 X에 대한 지수 사용(X^n)해 선형적 특성 향상
극단적 우축 치우짐의 데이터 분포를 정규화

6. 제곱근 변환

변수 X에 대해 제곱근(√X) 사용
좌측으로 약간 치우친 데이터 분포에 사용 ↔ 우측으로 약간 치우쳤다면 X^2

단일 집단의 정규성 검정 방법

샤피로 테스트
Q-Q Plot

7. `Box-Cox 변환

데이터 분포를 정규분포에 가깝게, 분산의 안정성 확보
λ(변환 형태 결정)에 따라 형태가 상이한 거듭제곱 변환
모든 실수에서 연속
오른쪽으로 치우친 분포를 가질 때 사용

5. 불균형 데이터 처리

Class 불균형

데이터에서 각 Class(범주형 반응 변수)별 데이터 양 차이가 클 때
불균형도가 높은 High-Imbalanced Data의 경우, Class가 우세한 모형의 정확도가 높다. => 성능 판별이 어렵다.

불균형 데이터 처리 방법

1. 가중치 균형법 : `Weight Balancing`

소수 Class에 더 큰 가중치 부여 → 소수 Class를 잘못 예측 시, 더 큰 Penalty
Data sample 수 변경 없이 학습 과정에 개입

2. UnderSampling

다수 Class 中 일부만 사용 (대표성 고려)

3. OverSampling

소수 Class의 데이터를 복사해 절대적인 수 증가

6. Encoding

범주형 데이터 → 숫자 의 변환 과정

Label Encoding

각 범주에 고유한 정수값 할당
데이터 차원 증가가 없어, 메모리 사용량이 적음
변환 숫자들 간의 순서(Ordinality)가 발생
순서 있는 데이터에 사용 or 트리 기반 데이터

One-Hot Encoding

각 범주를 별도의 binary로 변환
해당하는 인덱스 1, 아니면 0
범주 종류 수 ∝ 차원의 저주
순서 없는 명목형 데이터에 주로 사용

Target Encoding

각 범주를 해당 범주 결과 변수의 평균값으로 변환
분류 문제에서 사용
new column 생성 X = 차원증가 문제 해결
과적합 가능(교차 검증, Smoothing 기법을 함께 사용해 방지)

[빅데이터분석기사] Part2 - CH 01. 데이터 전처리 (1)

Mon, 11 Aug 2025 11:58:14 GMT

Part 2. 빅데이터 탐색

Chapter 01. 데이터 전처리

Section 01. 데이터 정제

데이터 관련 정의

데이터 : 사실/자료, 기호화/수치화된 자료
단위(Unit) : 관찰되는 항목
관측값 : 조사 단위별 기록 정보/특성
변수 : 각 단위에서 측정된 특성 결과
원 자료(Raw Data) : 정제를 거치지 않은 최초의 자료

데이터 종류

단변량 자료 : 특성 변수(자료의 특성을 대표)가 하나
다변량 자료 : 특성 변수 두 개 이상
질적 자료 : 정성적/범주형, 자료를 범주(Category)로 분류 => 명목자료/서열자료
수치 자료 : 정량적/연속적, 수의 크기에 의미를 부여(구간, 비율)
시계열 자료(Time Series) : 일정 시간 간격 동안 수집, 시간 개념이 포함된 자료 (ex) 주식)
횡적 자료(Cross Sectional) : 횡단면 자료, 특정 단일 시점에 여러 대상으로부터 수집
종적 자료 : 시계열 + 횡적 자료

데이터 정제

분석에 필요한 데이터 추출 및 통합 : 데이터 구성의 일관성 향상 + 도출된 결과의 신뢰성 향상
비정형 데이터는 기본적으로 정형 데이터로 변환하면서 결측치, 오류 수정의 과정을 거침

정제 과정

: 데이터 수집 ▶ 변환 ▶ 교정 ▶ 통합

정제 방법

집계(Aggregation) : 데이터 요약 및 그룹화, SUM, AVG, 중앙값, 최빈값, MIN, MAX
일반화(Generalization) : 일반적 특성/패턴 도출, 복잡성 ↓, 주요 특징 강조
정규화(Normalization) : 데이터 표준화, 수치형 데이터로의 변환, 상대적 비교 가능, Outlier에 대한 영향 감소
평활화(Smoothing) : 데이터 변동 감소, Noise 제거, 이동평균법, 지수평활법

1. 데이터 결측값 처리

결측치 : Missing Data

임의 제거 : 데이터 손실은 데이터 수집 실패로 이어질 수 있음
임의 대체 : bias 발생으로 이어져 결과의 신뢰성 저하

따라서, 데이터에 기반한 결측치 처리 방안 필요

결측 데이터 종류

MCAR : 완전 무작위 결측 : 결측 데이터와 나머지 간 관계 X
MAR : 무작위 결측 : 결측 데이터와 관측 데이터간 관계 O, 비관측 데이터간 관계 X
NMAR : 비무작위 결측 : 결측 변수 값이 결측 이유와 관련

결측값 유형 분석 및 대치

MCAR하에 처리 = 불완전 자료 무시 + 완전 관측 자료만으로 표준적 분석 수행

단, 효율성, 자료처리의 복잡성, bias 고려 필수

대치법

결측값을 처리하는 방식에서의 차이

1. 단순 대치법

기본적으로 MCAR, MAR로 판단

완전 분석 : 불완전 자료 완전 무시 => 분식 용이성↑, 효율성↓ 및 통계적 추론 타당성↓
평균 대치법 : 결측치 = 데이터들의 평균 => 효율성↑, 통게량 표준오차 과소 추정
회귀 대치법 : 회귀분석에 의한 예측치로 결측치 대치 => 데이터 변동성 반응↑, 독립변수와 종속변수간 관계가 강할 수록 신뢰성이 올라감
단순 확률 대치법 : Hot-Deck 방법, 확률 추출에 의해 전체 데이터 중 무작위로 대치
최근접 대치법 : 전체 표본을 몇 개의 대체군으로 분류 → 응답 자료를 순서대로 정렬해 결측값 이전 데이터로 대치 => 응답값 중복 사용 가능

2. 다충 대치법

통계적 효율성 및 일치성 문제를 보완함 : n개의 단순 대치 → n개의 새로운 자료에 대한 분석 시행 → 결과 통계량에 대해 통계량 및 분산 결합
다중 대치 단계
1. 대치 단계 : 복수의 대치에 의한 결측을 대치한 데이터 생성
2. 분석 단계 : 복수개의 Dataset에 대한 분석 시행
3. 결합 단계 : 분석결과들에 대한 통계적 결합으로 결과 도출

2. 데이터 이상값 처리

Outlier

데이터 전처리 과정에서 발생
정상의 범주에서 벗어난 값
오차, 극단적인 값 => 분석 결과의 왜곡 발생

이상치 종류

단변수 : 하나의 데이터 분포에서 발생하는 이상치
다변수 : 연결된 데이터 분포들에서 발생하는 이상치

이상치 발생 원인(비자연적 이상치)

: 입력 실수, 측정 오류, 실험 오류, 의도적 이상치, 자료처리 오류, 표본 오류(모집단에서 표본 추출 중 발생한 bias)

이상치 탐지

데이터 분포에 따라 종속변수가 단변량 인지 다변량 인지 고려
모수적(Parametric) vs 비모수적(Non-Parametric)

비모수적 & 단변량

= 독립변수: 범주형, 종속변수: 수치형

시각화
1. 상자 수염 그림(Box-Plot)
: 데이터 분포를 한 눈에 파악 가능 : 최소값, 최대값, 중앙값, 1사분위수(Q1, 25%), 3사분위수(Q3, 75%) : 사분위 범위(A) = Q3 - Q1 : 최대값 = Q3 + 1.5 x A / 최소값 = Q1 - 1.5 x A : 이상치 = value > (Q3 + 1.5 x A) or value < (Q1 - 1.5 x A)

모수적 & 단변량

Z-Score : Data Point와 평균과의 거리를 표준편차 단위로 표현 => 데이터가 정규 분포를 따른다는 가정 하에
- 과정
1. 데이터 정규화(평균 = 0, 표준편차 = 1)
2. 정규화된 Data Point의 Z-Score 계산 : Z = x−μ / σ
3. 1σ : 68.27%, 2σ : 95.45%, 3σ : 99.73%

비모수적 & 다변량

DBSCAN : 군집 간 밀도 이용 : 특정 거리 내 데이터 수 > 지정 개수 => 군집 형성
- 고립의사나무 : Isolation Forest : 데이터가 다른 데이터들과 얼마나 분리되어있는지 측정
- 과정
1. Data Point 분할
2. 분할 기준 설정
3. 분할된 데이터 영역 계산
4. 이상치 탐지
5. 의사결정나무 생성

Next.js에서의 데이터 통신 - tRPC vs REST API

Thu, 07 Aug 2025 02:26:20 GMT

Next.JS 환경에서 데이터를 가져오고, 처리하는 과정 중 oracledb 모듈을 직접 import해서 api 단을 구성하고 있다.

그렇다면 이렇게 API 단과 통신하는 방식에 대해 두가지를 고려해볼 수 있다.

전통적이지만 강력한 REST API 기반 : /api/data?action=??? 을 통해 URL 문자열을 조합해 API를 호출하고 JSON타입의 데이터를 받는다.
tRPC라우터를 통한 명시적 프로시저 정의 : zod를 통한 입력값 검증 및 react-query에 의존하는 데이터 fetching

REST API 방식

현재 개발 방식은 REST API 구조에 맞춰져있다. 아무래도 친숙한 방식이기도 하고, 단순 데이터 조회 쿼리(SELECT)를 통해 가져온 데이터를 route 단을 통해 전달해주면 되기 때문.

현재 작성중인 코드 중 대표적인 예시는 다음과 같다.

// src/app/api/data/route.ts
export async function GET(request: NextRequest) {
  const { searchParams } = new URL(request.url);
  const action = searchParams.get('action');

  switch (action) {
    case 'GET_NOTIFICATION':
      return await getNotification();
    case 'GET_MODULE':
      return await getModules();
    case 'GET_SENDINFO':
      return await getSendInfo();
    default:
      return NextResponse.json({ error: 'Invalid GET action' }, { status: 400 });
  }
}

route.ts는 get Action에 대해 전달할 함수 로직을 담는다.

// src/app/api/data/handler/sendInfoHandler.ts
import { executeQuery } from '@/lib/oracle';
import { NextRequest, NextResponse } from 'next/server';
import { getConnection } from '@/lib/oracle';
import oracledb from 'oracledb';

export async function getSendInfo() {
    let connection;
    try {
        connection = await getConnection();
        const result = await executeQuery(`
            select
                   ...
            from ...
            where 1 = 1 
        `);
        return NextResponse.json(result);

    } catch(error){
        return NextResponse.json({ error: 'Failed to fetch notifications' }, { status: 500 });
    } finally {
    if (connection) {
      try {
        await connection.close();
      } catch (err) {
        console.error('Oracle DB 연결 종료 오류:', err);
      }
    }
  }
}

각 핸들러는 역할에 맞는 쿼리를 통해 oracledb로 부터 데이터를 가져온다.

// app/check/page.tsx
'use client';

import { useState, useEffect } from 'react';
...

const fetchSendInfo = async (): Promise => {
  const res = await axios.get('/api/data?action=GET_SENDINFO');
  return res.data;
};


const CheckPage = () => {
  const { data, isLoading, error, refetch } = useQuery({
    queryKey: ['sendInfo'],
    queryFn: fetchSendInfo,
  });

  ...

  return (
    
      
        ...

        
          
        
      

      ...
    
  );
};

export default CheckPage;

client단에서는 axios.get을 통해 요구 데이터를 요청하고 데이터를 fetching 해 받아온다.

해당 방식은 POST Method에서바인드 변수를 수동으로 관리하고, 별도의 타입 유효성검사 함수를 작성해야 한다는 번거로움이 있지만

아무래도 익숙한 프로토콜이며 개발방식이라는 점에서 러닝커브가 낮다는 장점이 있다.

tRPC : typeScript Remote Procedure Call

tRPC란 end-to-end API 라이브러리 중 하나로, Client ↔ Server 간 통신에서 런타임 타입 건증 없이 타입 안정성을 보장하는 프로토콜이다.

핵심 특징으론

서버에서 정의한 API 스키마가 Client에 전파됨

Compile time에 type error를 검출함 이 있다.

서버 단에선 프로시저 기반 접근을 통해

export const appRouter = router({
getUser: publicProcedure
.input(z.object({ id: z.string() }))
.query(async ({ input }) => {
  // Oracle DB 조회
  const user = await db.execute(`
    SELECT ...
    FROM ..
    WHERE ...
  `, { userId: input.id });
  return user;
})
});

다음과 같이 접근할 수 있고

클라이언트 단에선

const UserProfile = () => {
const { data: user, isLoading } = trpc.getUser.useQuery({ id: '123' });
const createUser = trpc.createUser.useMutation();

if (isLoading) return Loading...;

return (

  {user?.USER_NAME}
  {user?.EMAIL}

);
};

react-query 훅 기반으로 API 함수를 호출해 데이터를 fetching하고, post할 수 있다.

당연히, react-query가 제공하는 캐싱 및 최적화를 하나의 장점으로 가져갈 수 있다.

tRPC vs REST API

비교 항목	tRPC	REST API
성능	• JSON-RPC 기반 최적화된 페이로드 • React Query 내장 캐싱 • 추가 라이브러리 필요 (~50KB) • WebSocket 지원, Subscription 내장	• HTTP 헤더 오버헤드 존재 • HTTP 캐싱, CDN, 브라우저 캐싱 지원 • 표준 fetch API 사용 • 별도 WebSocket 구현 필요
러닝 커브	• TypeScript 필수 (고급 지식 필요) • 새로운 RPC 패러다임 • 제한적 학습 자료 • 신규 개발자 적응 시간 필요	• TypeScript 선택사항 • 표준화된 HTTP methods 개념 • 풍부한 자료와 예제 • 대부분 개발자가 익숙함
유지보수성	• 컴파일 타임 타입 체크 • 자동 타입 오류 감지 • 강제적 타입 일관성 • IDE 지원 안전한 리팩토링 • 타입 오류로 사전 방지	• 런타임 검증 필요 • 수동 테스트 및 확인 • 개발자 규칙 의존 • 런타임 오류 발생 가능 • 수동 리팩토링 확인
개발 기간	• 복잡한 초기 설정 • 스키마 정의로 빠른 API 개발 • 자동 타입 생성 • 타입 검증으로 테스트 간소화 • 코드 자체가 문서 역할	• 간단한 초기 설정 • 개별 엔드포인트 구현 • 수동 타입 정의 • 전체 API 테스트 필요 • 별도 API 문서 작성
확장성	• Monolithic 적합 • TypeScript 환경에 제한 • 제한적 써드파티 지원 • 중소규모 팀에 적합 • 복잡한 비즈니스 로직에 유리	• MSA 분리에 유리 • 모든 플랫폼 지원 • 표준 HTTP로 광범위 지원 • 대규모 팀 협업에 유리 • 단순한 CRUD에 적합
종합 평가	TypeScript 프로젝트, 복잡한 비즈니스 로직, 빠른 개발, 타입 안전성 중요한 경우	다양한 클라이언트 지원, 마이크로서비스, 대규모 팀, 표준 준수 필요한 경우

마치며...

현재 작성중인 REST API 방식에서 tRPC로 리팩토링을 진행해 볼 예정이다. 성능 상 큰 차이가 있진 않지만 애초에 react-query기반으로 Client단을 작성해놔서 리팩토링 비용이 작기 때문이다.

특히 Next.js 만을 가져가는 Monolithic 구조이기 때문에 더더욱 그렇다.

개발하면서 서비스 구조와 아키텍처 패턴을 더 중요시 여기게 되는거 같다.

[빅데이터분석기사] Part1 - CH 03. 데이터 수집 및 저장 계획

Tue, 05 Aug 2025 11:29:26 GMT

Part 1. 빅데이터분석기획

Chapter 03. 데이터 수집 및 저장 계획

Section 01. 데이터 수집 및 전환

1. 데이터 수집

기초 데이터 수집 수행 절차 : 비즈니스 도메인 정보 수집 ▶ 분석기획서 기반 도메인 및 서비스 이해 ▶ 수집 Data 탐색 ▶ 기초 Data 수집
데이터 수집 시스템 구축 : 수집 데이터 유형 파악 ▶ 수집 기술 결정 ▶ 아키텍처 수립 ▶ Hardware 구축 ▶ 실행환경 구축

Hadoop : 다수의 COM을 하나처럼 묶어 대용량 데이터 처리를 지원하는 OpenSource Framework

원천 데이터 정보

데이터 수집 가능성 (수집 용이성, 데이터 발생 빈도 파악)
데이터 보안 (개인정보 포함 여부, 지적 재산권 존재 여부)
데이터 정확성 (항목과 품질의 적정 여부)
수집 난이도
수집 비용

내/외부 데이터 수집

내부
- ERP, CRM 등 내부 시스템
- 백본, 방화벽, 스위치 등 Network & Server
- VOC, PRM 등의 마케팅 데이터 => 실시간 수집 가능, 정형화된 수집 방식 가능

외부
- SNS, M2M(센서, 장비 로그), LOD(경제/의료/교육 등의 공공 분야), 특정 기관 데이터 => 수집 데이터 관리 정책 필요, 수집 데이터 변환 필요

데이터 수집 기술

정형 데이터
- ETL : 데이터 추출 ▶ 변환 ▶ 적재 (Data WareHouse)
- FTP : 네트워크 기반 파일 전송, TCP/IP 위에서 동작
- Apache Sqoop : RDBMS 간 대량 데이터 효과적 전송 : RDBMS의 데이터를 Hadoop File System으로 전송(HDFS, Hive, HBase) : RDBMS ↔ MapReduce (병렬처리, 고기능성) : 적재 과정 자동화, 병렬처리, Bulk Import 지원
비정형 데이터
- 크롤링
- RSS (XML 기반 정보 배포)
- Open API
- Chukwa(척와) : 분산 시스템으로부터 데이터 수집 → Hadoop 파일 시스템에 저장 / 실시간 분석
- Kafka : 대용량 실시간 로그 처리 분산 스트리밍 플랫폼
반정형 데이터
- Apache Flume : 대용량 로그 데이터 수집, 집계, 이동 → 신뢰성 있는 분산 서비스 제공 : Streaming Data 흐름 기반 : 대량 이벤트 데이터 전송 (Log, Network Traffic, SNS 등) : 높은 신뢰성, 확장성, 효율성
  - Scribe : 서버多에서 실시간 데이터 수집 → 분산 시스템 저장
- Sencing : 네트워크를 통한 센서 데이터 수집
- Streaming : TCP, UDP, Bluetooth, RFID

2. 데이터 유형 및 속성 파악

데이터 수집 세부 계획 작성

세부계획서 작성 (데이터 유형, 위치, 보관방식, 수집주기, 이관절차, 비용)
적절성 검증 / 세부 계획 반영
재수집 및 가공

데이터 유형에 따른 분류

정형 : RDB, FILE
반정형 : HTML, XML, JSON, RSS => Meta Data를 포함한 데이터를 말함
비정형 : 동영상, Img, Text

데이터의 위치에 따른 분류

내부 : 정형 기반, 수집 난이도 ↓, 분석 가치 ↓
외부 : 비/반정형 기반, 수집 난이도 ↑, 분석 가치 ↑

데이터 확보 비용 산정 기준

: 데이터 크기, 수집 주기 / 기술 / 방식, 대상 데이터의 가치 고려

저장 방식에 따른 분류

File System : 일정 규칙 명명에 따른 파일 분류 및 위치 지정
관계형 DB : 정형화된 테이블 구조
분산처리 DB : 데이터 집합이 여러 물리적 위치에 분산 저장

3. 데이터 변환

종류

비정형 데이터 ▷ 정형 데이터(RDB)
수집한 데이터 ▷ HDFS(분산파일시스템)
Data Warehouse : 주제별/시계열적 저장
NoSQL (Key-Value)

DB 구조 설계 방식

HDFS에 변환 없이 직접 저장
Python, Ruby 등을 통한 데이터 변환 과정

DB 구조 설계 절차 4단계

DBMS 구축 여부 결정 : 수집 데이터의 특성(정형/반정형/비정형)에 따라
저장 DB 결정 : 상용/비상용 DBMS
DBMS 설치
테이블 구조 설계

비정형/반정형 데이터 변환

전/후처리 前 구조적 형태로 데이터 변환 필요
1. 데이터 속성 구조 파악
2. 수집 절차에 대한 수행 코드 정의를 통한 데이터 추출
3. 데이터 저장 프로그램 작성
4. DB에 데이터 저장

융합 DB 설계

데이터 유형과 의미 파악 → 목적별 융합 DB 설계
수집/저장된 데이터 의미 파악 → 활용 가능한 융합 DB 재구성
요구사항 분석 → 데이터 표준화 / 모델링 수행 : 표준 코드, 데이터 도메인 등 정의

Data = Entity + Attribute : 개념적 설계(ERD) + 논리적 설계(관계형 스키마 작성)
비/반정형 데이터 → 정형 DB : 데이터 분석 용이성 향상

4. 데이터 비식별화

식별 가능한 개인정보를 정해진 규칙으로 대체/가공 → 개인이 식별할 수 없게
개인정보 보호 ↔ 데이터 분석 간 균형 중요 : Data 유효성 유지하면서, 개인 식별 가능성 제거

식별자와 속성자

식별자 : 사물에 고유하게 부여된 값(고유하게 식별 가능, ex) 주민번호) => 원칙적 삭제, 필요 시 비식별화
속성자 : 다른 정보와 결합 시, 개인 식별 가능(추가적인 정보, ex) 주소) => 원칙적 삭제, 필요 시 가명처리, 총계처리 등 수행

비식별조치 종류

가명처리 : 개인 식별이 가능한 데이터 자체를 대체하는 것 => 휴리스틱 가명화, 암호화, 교환방법
총계처리 : 통계값 적용
Data Reduction : 일부 및 전부 삭제
Data 범주화
Data Masking

여러 방법을 복합적으로 사용하는게 원칙

프라이버시 보호 모델

k-익명성 : 특정인 추론 가능 여부, 일정 확률 수준 이상 비식별 필수 : 동일값 레코드를 k개 이상
취약점
1. 동질성 공격 : 일부 정보가 모두 같은 값을 가져 공격 대상이 됨
2. 배경지식에 의한 공격 : 주어진 정보 + 공격자의 외부 지식을 통해 민감 정보 접근
l-다양성 : 민감 정보에 대한 다양성 향상을 통한 추론 가능성 감소 : 동질성 공격 및 배경지식에 의한 공격 방어 : 각 레코드는 최소 l개 이상의 다양성 확보
취약점
1. 쏠림 공격 : 정보가 특정 값에 쏠려 l-다양성이 무력한 경우
2. 유사성 공격 : 비식별 조치된 레코드 정보가 유사할 때, 민감 정보 노출 우려 발생
t-근접성 : 민감 정보의 분포를 낮춰 추론 가능성 감소 : 쏠림 공격 및 유사성 공격 보완 : 정보의 분포 조정을 통해 전체 데이터 분포 간 특정 정보 분포의 차이를 t 이하로

5. 데이터 품질 검증

가치성, 정확성, 유용성있는 데이터 확보 및 신뢰성있는 데이터 유지 과정

정형 데이터 품질 기준

완전성
- 개별 : 필수 항목의 누락 확인
- 조건 : 기업의 경우 사업자등록번호가 매핑되어있는지 등
유일성
- 단독 : 컬럼이 유일 값을 갖는지 (주민번호 등)
- 조건 : 조건에 따른 유일 값 (강의명 - 교수 - 강의실)
일관성 : 기준코드, 참조무결성 등
유효성 : 범위, 날짜, 형식
정확성 : 선후관계, 계산/집계, 최신성, 업무 규칙

비정형 데이터 품질 기준

기능성 : 요구를 만족하는 기능의 제공 정도
신뢰성 : 오류 방지
사용성 : 이해가 쉽고 선호되는지
효율성 : 자원에 따라 요구하는 성능을 제공하는지
이식성 : 다양한 환경 및 상황에서의 품질

품질 진단

절차 : 품질 진단 계획 수립 ▶ 품질 기준 및 진단 대상 정의 ▶ 품질 측정(종합 품질 지수 산출) ▶ 측정 결과 분석 ▶ 데이터 품질 개선

정형 데이터 품질 진단 : 데이터 프로파일링

Meta Data 수집 및 분석, COL 속성 분석, 누락값 분석, 값 허용 범위 분석, 허용값 목록 분석, 문자열 패턴 등

비정형 데이터 품질 진단 : 품질 세부 기준 체크리스트

기능성(정확성, 적절성, 상호운용성, 기능순응성)
신뢰성(성숙성, 신뢰순응성)
사용성(이해성, 친밀성, 사용순응성)
효율성(시간효율성, 효율순응성)
이식성(적응성, 공존성, 이식순응성)

품질 검증 수행

: 수집 데이터 품질보증체계 수립 ▶ 품질 점검 수행 (데이터 재수집) ▶ 품질 검증 평가서 작성

Section 02. 데이터 적재 및 저장

1. 데이터 적재

: 데이터 수집 ▶ 유형 및 실시간 처리 여부 파악 ▶ 데이터 수집 도구(Fluentd, Flume, Scribe, Logstash, Sqoop 등) ▶ RDBMS, HDFS, NoSQL에 적재

데이터 수집 도구

Fluentd : 각 서버에 설치해 로그 수집 → 중앙 로그 저장소 : 다양한 형태의 사용자로그를 JSON으로 수집 후 다양한 형태로 출력함, 가장 간단한 구조
Flume : 대량 로그 데이터를 효율적으로 수집 및 취합, 이동 : 분산형 SW
Scribe : 실시간 스트리밍 로그 데이터 집약 서버
Log Stash : 다양한 소스에서 데이터 수집 및 변환, 접근이 잦음

NoSQL

mongoimport : 수집한 데이터(CSV 등의 text data)를 NoSQL타입으로 적재

RDBMS ▷ NoSQL

SQLtoNoSQLimporter
Mongify

데이터 적재 완료 테스트

정형/비정형/반정형에 따른 체크리스트 작성 : Table, Attribute 수, Data Type 일치 여부, Record 수 일치 여부 등
Data Test case를 통해 적재 정상 완료 검증 준비
체크리스트 검증 및 Test Case 실행

2. 데이터 저장

빅데이터 저장 시스템 : 신뢰성, 가용성을 보장하며 사용자에게 데이터 제공

파일시스템 방식 : 대용량, 분산, 데이터 집중형 애플리케이션 => 고성능 & fault-tolerance 환경 제공 : Apache HDFS, Google File System(GFS)
DB 방식 : RDBMS, NoSQL

HDFS : Hadoop Distributed File System

대용량 파일을 클러스터에 여러 블록으로 분산 저장
마지막 제외 모든 볼록은 64MB로 동일 크기
Master 1 (Name Node[Meta Data + Monitoring]) : Slave 多 (Data Node)
데이터 손상 방지를 위해 데이터를 복제 저장
대용량 비정형 데이터 저장/분석에 효과적
개별 서버의 병렬 처리 결과를 통합 => 시스템 과부화 및 병목 현상 감소

MapReduce

분산데이터 처리 기술

동작 과정 : Input → Splitting → Shuffling → Mapping → Reducing : Map 함수 + Reduce 함수 = 입력 분할 및 함수 적용

GFS : Google File System

Master (상태 관리/통제) + Chunk Server (HDD 입출력 처리) + Client (File Read/Write 요청)
높은 데이터 처리 성능

NoSQL 특징

스키마 X
탄력성 (일부 시스템 장애에도 접근 가능)
Query 기능 (mongodb)
Caching (Redis) : 메모리 기반 빠른 접근

NoSQL 분류

Key-Value : DynamoDB, Redis : 실시간으로 발생하는 다양한 데이터 처리에 유리
Column-Oriented : Bigtable, Cassandra, HBase, HyperTable : 연관 데이터에 유리, DB 확장성 높음 : HBase = HDFS + SQL의 분석환경 구축
Document : MongoDB, SimpleDB, CouchDB : 문서마다 스키마가 상이함
CAP 이론

: 분산 컴퓨팅 환경에서 일관성, 가용성, 지속성을 동시에 만족할 수 없음
1. 일관성 Consistency : 모든 노드가 동일 시점에 동일 데이터 접근
2. 가용성 Availability : 일부 노드의 다운이 다른 노드에 영향을 미치지 않음
3. 지속성 Partition Tolerance : 데이터 전송 중 일부 손실에도 시스템이 정상 작동함

빅데이터 저장 시스템 선정

기능성 비교 분석

데이터 모델 관점 1-1. 데이터를 테이블로 저장 : RDBMS 1-2. 유연한 스키마 활용/문서중심 : MongoDB 1-3. 웹 기반 시스템 : Apache CouchDB 1-4. Key-Value, 대규모 사용자 & 부하 분산 : DynamoDB, Redis 1-5. 극단적 확장성 : Cassandra, HBase, HyperTable
확장성 관점 2-1. 높음 : Column-Oriented(HBase, Cassandra) 2-2. 낮음 : In-Memory(Redis), Document(MongoDB, CouchDB)
트랜잭션 일관성 : RDBMS 만한게 없다.
Query 지원 : MongoDB, CouchDB, Redis + RDBMS
접근성 : MongoDB, CouchDB, Redis, Cassandra

대용량 실시간 서비스 데이터

Spark, Storm : Hadoop보다 실시간 대용량 처리에 특화됨 : 별도의 저장소 없어 외부 저장 시스템과 연동이 강제됨
실시간 서비스를 웹으로 제공한다면? : Redis

Next.js와 DB 연동, Serverless VS WAS

Thu, 31 Jul 2025 02:28:29 GMT

SSR 방식의 Next.js를 통해 웹 애플리케이션을 개발하다보면 필연적으로 고려해야하는 부분이 있다.

DB Connection을 어떻게 구축하는게 좋을까?

특히, 기존 애플리케이션 구조가 전혀 없어 새롭게 시작해야하는 시점에 깊이 하게되는 고민인데,

필자는 Oracle DB 서버가 구동중이고 React나 FastAPI와 같은 프론트엔드/백엔드가 전혀 없는 현 단계에서 시스템 마이그레이션을 고려하면서 다음 내용을 고민하게 되었다.

당연히 애플리케이션 아키텍처가 4-Tier Layered로 구조화되어 Business Logic 계층과 Data layer가 분리되어있다면 당연히 Next.js + FastAPI/Node.js + DB의 방식이 올바른 접근법이겠지만, Data Layer와 Business Logic 계층의 분리가 명확하지 않은 3-Tier Layered 방식을 기존 시스템이 따른다면 점진적 마이그레이션에선 위의 고민에 직면하는 것이 당연하다고 생각한다.

아래 게시글에서는 SSR 및 REST API와 같은 기초적인 기술 개념에 대해서는 따로 설명없이 진행하겠다.

REST API 방식의 WAS 구축

가장 흔하게 사용되는 애플리케이션 구조로, FastAPI나 Express를 통해 WAS를 구축하고 REST API 방식을 통해 Next에게 데이터를 전달하고, 요청받는 구조이다.

간단히 나타내는 아키텍처 구조는 다음과 같다. Client → Next.js (SSR/SSG) ↔ REST API (FastAPI/Node.js) ↔ Oracle DB

프론트엔드와는 HTTP(S) 방식으로 통신하나, 실시간 및 양방향 통신이 주요하게 요구된다면 Web Socket 이나 gRPC 방식의 프로토콜을 적용할 수 있다.

프로덕션 배포 시, 백엔드를 위한 별도의 서버 인스턴스가 필요하고 이를 온프레미스 인프라로 진행할 수도, AWS EC2나 Oracle Cloud(OCI) 등의 클라우드 서비스로 진행할 수도 있다. 당연히 그만큼 필수적인 비용이 발생하게 된다.

또한 프론트엔드와 백엔드의 도메인 차이가 발생해 Cross Origin 및 포트 차이가 발생하게 되고 CORS 핸들링을 위한 별도의 장치가 선행되어야한다.

Nginx, Vercel 등의 Reverse Proxy가 이를 해결하기 위한 가장 대표적인 방법 중 하나이다.

구현된 백엔드 로직은 흔히 말하는 JSON 상하차를 진행하게 되는데 request로 받는 요청을 확인해 DB에 접근하고, 상호작용을 통해 도출된 결과를 response로 프론트엔드에 전달한다.

Serverless

그럼, Serverless Architecture란 무엇일까

최근 각광받는 아키텍처 구조로, 기존 백엔드의 역할을 프론트엔드의 Server Actions로 이관해 데이터 접근부터 API 요청 처리를 하나의 프레임워크에서 진행하는 방식을 의미한다.

Client → Next.js (API Routes/Server Actions) ↔ Supabase

가장 대표적으로 사용되는 접근 방식은

Next.js + Supabase

Supabase자체가 Serverless에 특화된 방식으로서 POST, GET 등의 Method 처리를 직접적으로 제공하고, 별도의 인스턴스가 필요없는 클라우드 방식이기 때문에 빠른 개발 속도와 비용 절감을 위해 많이 사용한다. 빠른 MVP를 위해서는 이만한 접근법이 없는 셈

Client → Next.js (API Routes/Server Actions) ↔ Serverless Platform ↔ DB

외에는 AWS Lambda, Oracle Functions를 통해 요청이 있을 때만 Server ON 방식을 통해 DB와 접근하고 response를 제공하는 것이 기초적인 방식의 아키텍처이다.

당연히 별도의 지속적으로 켜져있는 서버 인스턴스가 요구되지 않고 CORS 고려사항도 훨씬 간단해지나, Next.js 환경의 개발 숙련도가 더욱 요구되고 대용량 트래픽 처리나 동시성 처리, 캐싱 등에 있어선 Redis나 Kafka 등을 도입하기 편리한 WAS 구축 방식이 더 유리하다.

Direct RDBMS Connection (Oracle DB)

그럼 이제 Oracle DB와 Next 직접 연결을 고려해보자. Client → Next.js (API Routes/Server Actions) ↔ Oracle DB (On-Premise)

현재 상태는 온프레미스 인프라로 Oracle DB를 접근할 수 있는 상태에서 Next에 Server Actions 방식을 고민하는 것이다.

Server Action에 직접적인 DML 쿼리를 작성해 데이터를 조회하고, DB를 핸들링한다면 별도의 백엔드 로직이나 인스턴스를 필요로 하지 않으면서 애플리케이션을 구축할 수 있다.

당연히 CORS 핸들링 역시 고려할 필요가 없다.

다만, DML 권한 관리가 핵심 이슈로 작용하며 개발자에게 트랜잭션 관리 및 쿼리 튜닝 등 핵심적인 DB 지식이 추가로 요구된다.

예를 들어, Client Layer에서 JWT나 세션을 통해 인증된 사용자 정보를 기반으로 Next.js의 Actions 과정에서 Role을 명시적으로 확인해 DB 핸들링 과정에서 발생하는 사고를 예방해야한다. 당연히 보안성에 대한 고려사항과 정책 수립이 선행되어야 하기 때문에, 전문적인 지식 역시 필수적이다.

또한 해당 방식은 동시 연결의 한계가 명확하고, 처리 시간에 따른 지연 발생 확률이 기하급수적으로 증가하며 효과적인 캐싱 전략에 대한 별도의 구조와 설계가 필요하다.

차이점 정리 및 적용 상황 고려

점진적 마이그레이션을 고려한다면,

Next.js ↔ Oracle DB (PL/SQL을 통한 비즈니스 로직 처리
Next.js ↔ WAS ↔ Oracle DB (PL/SQL 로직을 WAS로 점진적 이관) 의 방식이 효과적이다.

특히 프로시저, 패키지, 트리거의 역할을 확인해 이를 각각의 API로 이동하면서 유지보수성을 향상하는게 개발자의 목표라고 생각한다.

다음은 Claude를 통해 작성된 차이점 정리표이다.

🏗️ Next.js + Oracle DB 아키텍처 최종 비교표

📊 종합 비교 개요

구분	Next.js + Oracle 직접 연결	Next.js + WAS + Oracle
아키텍처	Client → Next.js(Vercel) → Oracle(On-premise)	Client → Next.js → WAS → Oracle(On-premise)
복잡도	🟢 단순 (2-Tier)	🔴 복잡 (3-Tier)
Serverless 여부	⚠️ 부분적 (Frontend만)	❌ Traditional
초기 구축 속도	🟢 빠름	🔴 느림

🚀 성능 및 확장성 비교

성능 지표	Next.js 직접 연결	Next.js + WAS
최대 동시 연결	🔴 제한적 (~50-200개)	🟢 높음 (수천개)
응답 시간	🟡 250ms (Cold: 1.2s)	🟢 50-100ms
처리량 (TPS)	🔴 낮음 (100 TPS)	🟢 높음 (1000+ TPS)
Cold Start	🔴 있음 (1-3초)	🟢 없음
네트워크 지연	🔴 높음 (Cloud↔On-premise)	🟡 중간 (내부망 활용 가능)
연결 풀 관리	🔴 제한적 (Function별)	🟢 최적화 (WAS 레벨)
캐싱 전략	🟡 기본 수준	🟢 고급 (Redis, Memcached)

🔧 개발 및 유지보수성

개발 측면	Next.js 직접 연결	Next.js + WAS
코드 구조	🟡 결합도 높음	🟢 관심사 분리
팀 협업	🔴 풀스택 개발자 필요	🟢 역할별 전문화
API 버전 관리	🔴 어려움	🟢 체계적 관리
배포 전략	🔴 전체 재배포	🟢 독립적 배포
테스트 전략	🟡 E2E 중심	🟢 계층별 테스트
디버깅	🟡 통합 환경	🟢 계층별 분리
기술 스택 확장	🔴 Next.js 종속	🟢 다양한 기술 선택

🔐 보안성 비교

보안 요소	Next.js 직접 연결	Next.js + WAS
네트워크 격리	🔴 Oracle 외부 노출 필요	🟢 내부망 보호
접근 제어	🟡 애플리케이션 레벨	🟢 다계층 제어
권한 관리	🟡 단일 계정 or 제한적	🟢 세밀한 Role 기반
감사 로깅	🟡 애플리케이션 로그	🟢 통합 로깅 시스템
암호화	🟡 TLS 기본	🟢 End-to-End 암호화
DML 권한 제어	🟡 코드 레벨 검증	🟢 DB + WAS 이중 검증

🌐 네트워크 및 연결성

네트워크 측면	Next.js 직접 연결	Next.js + WAS
CORS 이슈	🟢 없음 (Same Origin)	🟢 없음 (적절한 설정 시)
프록시 필요성	⚠️ 네트워크 접근성에 따라	🟢 불필요 (내부망)
방화벽 설정	🔴 복잡 (외부 접근 허용)	🟢 단순 (내부망 유지)
VPN 필요성	⚠️ 보안상 권장	🟢 선택적
IP 화이트리스트	🔴 Vercel IP 대역 관리	🟢 고정 IP 관리

💰 비용 및 운영

비용 요소	Next.js 직접 연결	Next.js + WAS
초기 구축 비용	🟢 낮음	🔴 높음
인프라 비용	🟢 낮음 (Serverless)	🔴 높음 (서버 유지)
개발 인력	🟢 적음 (풀스택 1-2명)	🔴 많음 (FE/BE 팀)
운영 복잡도	🟢 낮음	🔴 높음
장기 운영 비용	🟡 트래픽 증가 시 상승	🟢 예측 가능
모니터링 비용	🟢 통합 모니터링	🔴 다중 시스템 모니터링

📈 프로젝트 규모별 권장사항

프로젝트 규모	사용자 수	동시 접속	권장 아키텍처	핵심 이유
소규모 프로토타입	< 100	< 10	🟢 Next.js 직접	빠른 개발, 검증
스타트업 MVP	< 1K	< 50	🟢 Next.js 직접	비용 효율성
중소 서비스	1K-10K	50-200	🟡 상황별 선택	성장 계획에 따라
기업 서비스	10K-50K	200-1K	🔴 WAS 분리	확장성, 안정성
대규모 엔터프라이즈	50K+	1K+	🔴 WAS 분리	성능, 보안 필수

🚦 마이그레이션 경로

전환 시점 판단 기준

전환 신호	임계점	대응 방안
응답 시간 지연	> 500ms 지속	WAS 도입 검토
동시 연결 한계	> 200 동시 사용자	백엔드 분리 시작
복잡성 증가	비즈니스 로직 복잡화	점진적 서비스 분리
보안 요구사항	엔터프라이즈 보안 정책	WAS 기반 보안 아키텍처
팀 규모 확장	개발자 5명 이상	역할별 팀 구성

단계적 마이그레이션 전략

단계	아키텍처	특징	적용 시점
1단계	Next.js 직접 연결	MVP, 빠른 검증	프로젝트 시작
2단계	Hybrid (읽기: 직접, 쓰기: API)	점진적 분리	성능 한계 도달
3단계	부분 WAS 분리	핵심 기능만 분리	보안/복잡성 증가
4단계	완전 WAS 분리	마이크로서비스	전사 확산

🎯 최종 선택 가이드

✅ Next.js 직접 연결 선택 기준

체크 항목	설명
☐ 팀 규모 5명 이하	풀스택 개발 가능
☐ DAU 10K 이하	트래픽 부담 적음
☐ 단순한 CRUD 위주	복잡한 비즈니스 로직 없음
☐ 빠른 시장 진입 필요	개발 속도 우선
☐ 제한된 예산	비용 효율성 중요
☐ 풀스택 개발 역량 보유	기술적 역량 충분

✅ WAS 분리 선택 기준

체크 항목	설명
☐ 엔터프라이즈 환경	높은 안정성 요구
☐ DAU 10K 이상	대용량 트래픽 처리
☐ 복잡한 비즈니스 로직	트랜잭션, 배치 처리
☐ 높은 보안 요구사항	엔터프라이즈 보안 정책
☐ 다양한 클라이언트 지원	웹, 모바일, API
☐ 전문 개발팀 보유	역할별 전문성

🎉 핵심 결론

🏃‍♂️ 빠른 시작: Next.js 직접 연결

장점: 빠른 개발, 낮은 비용, 단순한 구조
적합: 스타트업, MVP, 소규모 프로젝트
주의: 확장성 한계, 보안 고려사항

🏢 안정적 운영: WAS 분리

장점: 확장성, 보안성, 전문성
적합: 엔터프라이즈, 대규모 서비스
주의: 높은 복잡도, 구축 비용

💡 최적 전략: 점진적 진화

Start Simple → Scale Smart

Next.js 직접 연결로 빠른 시작
성능/보안 한계 도달 시점에서 WAS 분리 검토
비즈니스 성장에 맞춰 단계적 아키텍처 진화

마치며...

다음 포스팅엔 Next와 Oracle 연결을 Gemini CLI를 통해 진행하는 개발 과정을 작성해보겠다.

컨텍스트 엔지니어링이란?

Fri, 25 Jul 2025 08:43:57 GMT

최근, Claude, Gemini, Grok 등 LLM 모델의 성능이 비약적으로 향상되고, Claude Code, Gemini CLI 등 기존 모델을 특정한 분야에서 더욱 실용적이게 사용하는 방안이 앞다투어 발표되면서 중요시 되는게 있다.

바로, LLM 모델을 단순히 사용하는걸 넘어 원하는 결과값을 도출하기 위한 방안인데 컨텍스트 엔지니어링 : Context Engineering은 이전의 프롬프트 엔지니어링에서 발전한 방식으로 LLM이 더 정확한 판단과 응답을 하도록 지원하는 방식이다.

컨텍스트 엔지니어링이란

컨텍스트 엔지니어링은 LLM이 주어진 작업을 더 정확하고 신뢰성있게 수행할수 있도록, 단순한 프롬프트 작성을 넘어 필요로 하는 모든 정보, 구조, 도구를 체계적으로 설계/관리/제공하는 시스템적 접근 방식을 의미한다.

Prompt Engineering이 "무엇을 물어볼 것인가" 에 초점을 두었다면, Context Engineering은 "무엇을 어떤 맥락 속에서 어떻게 물어볼 것인가" 를 설계하는 것

이는 단순한 프롬프트 제공을 넘어 모델이 참고할 다양한 요소를 제공하는 방식으로 시스템 지침, 사용자 대화 기록, Long-Term Memory, RAG, Tools, Output Format 등을 의미한다.

직원에게 업무 지시만 내리는 것이 아니라, 관련 자료, 이전 업무 기록, 참고할 도구 들을 함께 제공하고 업무를 지시하는 것과 같다.

VS 프롬프트 엔지니어링

프롬프트 엔지니어링은 단순히 법률 전문가처럼 답변해줘 등의 간결한 지시와 같다. 이는 결과적으로 컨텍스트 엔지니어링의 하위 단계이며, 일회성 지시에 대한 중점을 둔 방법으로 점 단위의 미시적 접근과 같다.

반면에 컨텍스트 엔지니어링은 모델에 대해 AI가 처한 상황과 정보 환경 전체의 설계에 대한 정보를 제공하고, 선과 면 단위의 거시적이고 시스템적인 접근을 제공하는 것이다.

쉽게 말해, 프롬프트 엔지니어링이 '어떻게 질문할 것인가?'에 대한 고민이라면, 컨텍스트 엔지니어링은 'AI가 무엇을 보고, 알고, 사용할 수 있게 할 것인가?' 에 대한 고민이다.

구성요소

시스템 프롬프트/지침 : 모델의 행동을 정의하는 기본 지침 및 규칙, 예시
사용자와의 대화 : 사용자가 작성하는 프롬프트
상태/대화 히스토리 : 현재까지의 대화 흐름, 맥락 정보
장기 기억 : 이전 대화 내용을 통한 정보 요약, 모델이 장기적으로 기억하도록 학습된 정보
RAG : 외부 문서, API 등을 통해 불러온 정보
사용 가능 도구 : 모델이 호출해 사용 가능한 함수 및 내장 툴 (MCP를 통해 추가 가능)
구조화 된 출력 : 모델의 response가 갖춰야 될 응답 형식

중요성

컨텍스트 엔지니어링의 중요성은 기존 모델에 대한 파인튜닝에서 입력 설계로 초점이 전환함에 있다. 즉, 낮은 결과에 대한 이유를 모델에서 찾는 것에서 입력에서 찾는 것으로 변화했기 때문이다.

이를 통해 이뤄내는 결과로는

Hallucination 감소를 통한 정확성 및 신뢰도 향상
복잡한 과업 수행 능력 강화
비용 절감 및 효율성 증대
개인화 및 맞춤화된 결과

등이 있으며, 결과적으로 AI를 단순한 질의응답 도구가 아닌, 특정 분야에 대한 전문성을 갖춘 동료로 사용할 수 있다.

사례

효과적인 컨텍스트 엔지니어링을 통한 생산성 향상 및 AI 활용도 향상 사례는 다음과 같다.

"내일 일정 확인해 줘" 라는 요청에 Gemini가 계정과 연동된 Google Calendar를 확인하고 내일 오전 11:00시에 A팀과 회의가 있습니다.라고 알려주는 건 컨텍스트 엔지니어링을 통해 좀 더 개인화되고 구체적인 답변을 받는 대표적인 사례이다.

최근 조사에 따르면, ChatGPT와 같은 AI를 감정의 반려자로 활용하는 사람이 점점 늘어나고 코딩이나 연구 목적으로 사용하는 비율보다 더욱 크다고 한다. 그렇다면, AI에게 자신의 직업, 평소 자신의 삶의 태도, 가족 상황, 취미, 좋아하는 서적 등을 외부 정보로 제공하고 대화를 시도한다면 보다 개인화되고 공감적인 태도의 답변을 이끌어 낼 수 있다.

NotebookLM

구글의 NotebookLM은 이러한 컨텍스트 엔지니어링을 체감할 수 있는 대표적인 플랫폼이다. 사용자가 직접 업로드한 문서나 자료를 기반으로 AI가 답변을 생성하며 자료가 더욱 구체적일수록 답변이 더욱 명확해지고 똑똑해진다.

고려사항

다만, 잘 설계되지 않은 컨텍스트 엔지니어링은 정보의 비대를 초래하고, 노이즈 및 Outlier를 추가할 수 있다. 이는 AI가 답변을 만들어 낼 때 불필요한 정보까지 파악하거나, 세부 사항에 집착하는 맥락 산만을 초래할 수 있다.

따라서 전달하는 맥락에 대해 판단하고, 원하는 결과를 도출할 수 있는 맥락을 구성하는게 AI를 사용하는 한 명의 컨텍스트 엔지니어로서의 주요한 역할이 될 것이다.

마치며...

결국 대부분의 사람보다 일정 수준 이상 똑똑한 LLM들을 효과적으로 사용하기 위해선 정교한 컨텍스트 엔지니어링이 필수이고, 단순히 대화만 주고 받으면서 "LLM 생각보다 안 똑똑한대?" 라고 하는건 오히려 자신의 무지를 드러내는 꼴이다.

당연히 더 정교한 맥락을 제공하고, 더 많은 툴을 제공하고, Agent로 발전하는 AI에게 더 효과적인 명령을 내리려면 그 만큼 도메인에 대한 지식과 체계적인 목적 설계, 구조화된 출력 정의 등 시스템 설계 역량이 중요해진다.

이제는 정말로 AI가 사람의 과제를 완수하게끔 돕는 역할을 넘어 사람이 AI의 과제를 완수할 수 있게 돕는 시점이 오고있다.

[참고자료]

[빅데이터분석기사] Part1 - CH 02. 데이터 분석 계획 (2)

Sun, 06 Jul 2025 09:38:24 GMT

데이터 분석 거버넌스

데이터 분석 → 하나의 기업 문화로 정착 : 기획/관리 조직 + 과제 기획/운영 프로세스 + 지원 인프라 + Data Goverance + 분석 교육 및 HR

1. 데이터 분석 과제 기획 / 운영 프로세스

: 과제 발굴 단계 ▶ 과제 수행 및 모니터링 단계

과제 발굴 단계 : 분석 Idea 발굴 → 분석 과제 후보 제안 → 과제 확정
과제 수행 및 모니터링 단계 : 팀 구성 → 분석 과제 실행 → 진행 관리 → 결과 공유 및 개선

2. 데이터 분석 지원 인프라

분석 플랫폼 구축 : 장기적, 지속적, 안정적 활용 및 확장성 고려 : 분석에 필요한 프로그래밍, 실행, 서비스 가능한 환경 제공

협의의 분석 플랫폼 : 데이터처리 Framework + 분석 엔진 + 분석 라이브러리
광의의 분석 플랫폼 : 협의의 플랫폼 + 분석 서비스 제공 엔진 + 분석 애플리케이션 + 분석 서비스 제공 API + OS + Hardware

3. Data Governance

: 개별 데이터 관리 시스템 → 중복 데이터 및 정합성 오류를 야기함 ▶ Data Governance가 없는 빅데이터 적용 = 단발성 효과에 불가

Data Governance?

: 전사 차원의 모든 데이터에 대한 표준화 관리 체계를 수립/운영하기 위한 Framework, 저장소 구축

주요 관리 대상
1. Master Data : 마스터 파일 형성, 데이터 처리 및 조작
2. Meta Data : 구조화된 데이터, 다른 데이터 설명
3. Data Dictionary : 효과적인 데이터 자원 관리
특징 : 데이터 가용성, 유용성, 통합성, 보안성, 안정성 확보
구성요소 (원칙 + 조직 + 프로세스)
1. 원칙 : 보안, 품질기준, 버전관리
2. 조직
3. 프로세스 : 작업절차, 모니터링, 측정 방안 등

데이터 거버넌스 체계

데이터 표준화 : 표준 용어 설정, Meta Data & Data Dictionary 구축
데이터 관리 체계 : 데이터 생명 주기 관리 방안 수립
데이터 저장소 관리 : 전사 차원 저장소 구성, WF 관리 지원
표준화 활동 : 데이터 표준화 개선 → 실용성 증대

데이터 분석 수준 진단

: 현 상태에 대한 명확한 점검을 통해 데이터 분석의 유형과 방안 결정 : 현재 분석 수준을 이해하고 미래 목표 수준을 정의하는 과정

분석 수준진단 프레임워크

: 분석 준비도(Readiness) + 분석 성숙도(Maturity)

분석 준비도 : 6가지 영역에 대해 현 수준을 파악 → 일정 수준 충족 = 데이터 분석 업무 도입. 충족 X = 데이터 분석 환경 조성
1. 분석 업무 파악
2. 인력 및 조직
3. 분석 기법
4. 분석 데이터
5. 분석 문화
6. IT 인프라
분석 성숙도 모델 : 비즈니스 / 조직 및 역량 / IT → 3개 부문을 대상으로 데이터 분석 능력, 결과 활용에 대한 성숙도 평가 : 성숙도 수준 = [도입 / 활용 / 확산 / 최적화]
1. 도입 단계 : 분석을 시작해 환경 및 시스템 구축
2. 활용 단계 : 분석 결과를 실제 업무에 적용
3. 확산 단계 : 전사 차원에서 분석 관리 및 공유
4. 최적화 단계 : 분석을 진화, 혁신 및 성과 향상에 기여
분석 수준 진단 결과 : 현재 조직 수준 객관적으로 파악 → 향후 목표 및 방향 정의 / 개선방안 수립

Section 02. 데이터 분석 작업 계획

데이터 분석 작업 계획 = 데이터 처리 영역 + 데이터 분석 영역

데이터 분석 작업 계획 <데이터 처리 영역>

데이터 소스
데이터 수집
데이터 저장
데이터 처리

<데이터 분석 영역>
데이터 분석
데이터 표현

1. 데이터 처리 영역

데이터 분석을 위한 기초 데이터 정의
수집, 저장, 분석을 위한 물리적 환경 제공

1. 데이터 소스
- 조직 내/외부 데이터, 미디어 정보(SNS)
2. 데이터 수집
- 직접 입력, log 수집, 크롤링 등
3. 데이터 저장
- 유형별 데이터 분리(정형/비정형), Data Storage
4. 데이터 처리
- 실시간 처리, 배치 처리, 분산 차리

2. 데이터 분석 영역

데이터 추출 ▶ 가공 ▶ 분석 수행 ▶ 결과 표현

분석 수행 절차

도메인 이슈 도출
분석 목표 수립
프로젝트 계획 수립
보유 데이터 자산 확인

데이터 확보 계획

1. 데이터 확보 사전 검토 사항

필요 데이터 정의 : 분석 목적에 맞는 데이터 정의 : 확보 가능 데이터 목록 및 기대효과 작성
보유 데이터 현황 파악
분석 데이터 유형 고려 : 정형, 반정형, 비정형
편향되지 않은 충분한 양의 데이터 규모 : 훈련 / 검증 / 테스트 데이터 셋 구분
내부 데이터 사용 : 법률 및 보안적 요소 고려 : 개인정보 데이터의 경우, 비식별 조치사항 수행
외부 데이터 사용 : Open API 등, 법률 및 제도 검토
데이터 수집 방법 : 크롤링, 스크래퍼, FGI(집단적 토론을 통한 의견 수집) 등

2. 분석 변수 정의

적합한 데이터 유형, 분석 변수 정의 : 빅데이터 특징(5V)고려, 측정 구간별 순수도를 가장 높이는 변수 도출

3. 분석 변수 생성 프로세스 정의

논리적 인과관계 분석 + 데이터 간 상관관계 분석 프로세스

객관적 사실 기반 문제 접근 : 분석적 가정(WHY)에 의한 접근법 + 무엇(WHAT)이 문제인지 파악
데이터 상관분석
프로토타입을 통한 분석 변수 접근 : 반복적 개선을 통해 비정형 데이터의 문제점 해소

문제 인식 수준을 확인하고, 필요 데이터 존재 유무를 확인함.
사용 목적에 따른 가변성 검증

4. 분석 변수 정제를 위한 점검 항목 정의

도출된 데이터에 대해 가용성 평가, 점검 항목 정의
논리적 지표에 따라 분석 변수 점검

분석 변수 점검의 논리적 지표

데이터 수집
1. 데이터 적정성
2. 데이터 가용성
3. 대체 분석 데이터 유무
데이터 적합성
1. 데이터 중복
2. 분석 변수별 범위 (MIN, MAX)
3. 분석 변수별 연관성
4. 데이터 내구성 (Noise, 왜곡 발생 시 예측 성능을 보장하는지)
특징 변수
1. 특징 변수 사용
2. 변수 간 결합 가능 여부 파악 (교차 검증 가능 여부)
타당성
1. 편익 및 비용 검증
2. 기술적 타당성

5. 분석 변수 전처리 방법

논리적 모형 설계를 위한 Preprocessing 방법
정형/반정형/비정형 데이터를 분석에 적합한 데이터 형태로 변환
정제/통합/축소/변환의 반복적 수행
1. 정제 : 모순점 포착, MetaData 확인
2. 통합 / 축소 : 데이터, 스키마 통합, 중복처리, 통계 생성
3. 변환 : 노이즈 제거, 새로운 속성 추가, 정규화, 요약 및 집계

6. 생성 변수 검증 방안 수립

데이터 양이 충분한 지(충분성) > 정확성

분석 절차와 작업 계획

1. 분석 절차

[문제 인식 ▶ 데이터 확보 및 분석 ▶ 결과 도출] 일련의 과정
정형화된 분석 절차
1. 문제 인식 (문제 인식 및 분석 목적 정의)
2. 연구 조사 (각종 문헌 조사, 해결 방안 정의)
3. 모형화 (문제를 변수들 간의 관계로 정의)
4. 데이터 수집
5. 데이터 분석
6. 분석 결과 제시
고려사항
1. 문제에 대한 구체적 정의가 있고, 데이터와 분석 역량을 보유함 : 통계 기반 전통적 데이터 분석 수행
2. 문제에 대한 구체적 정의가 없음 : Data Mining 기반 인사이트 발굴, 반복적으로 개선 결과 도출

2. 작업 계획

프로젝트 소요비용 배분 ▶ 작업 분할 구조 수립 ▶ 업무분장 계획 및 배분
작업 분할 구조 (WBS 작성)
1. 데이터 분석 과제 정의
2. 데이터 준비 및 탐색
3. 분석 모델링 및 검증
4. 산출물 정리

3. 분석 목표 정의서

분석 목표 수립 → 필요 데이터 정보, 분석 타당성 검토, 성과 측정 방법 등 정의
구성요소
1. 원천 데이터 조사 : 데이터 정보 + 데이터 수집 난이도
2. 분석 방안 및 적용 가능성 판단 : 분석 목표와 우선순위 조정
3. 성과 평가 기준 3-1. 정성적 3-2. 정량적

분석 프로젝트 관리

도출된 분석기회 → 프로젝트화

분석 프로젝트 특징

도출된 결과 → 재해석 → 지속적 반복 및 정교화

추가적 중점관리 영역

Data Size
Data Complexity
Speed (분석 모형의 성능, 속도)
분석 모형의 복잡도 (정확도와 정밀도는 Trade Off 관계)
정확도와 정밀도
- 결과 활용 측면 : 정확도(Accuracy) 중요
- 안정성 측면 : 정밀도(Precision) 중요

[빅데이터분석기사] Part1 - CH 02. 데이터 분석 계획 (1)

Sat, 05 Jul 2025 11:45:01 GMT

Part 1. 빅데이터분석기획

Chapter 02. 데이터 분석 계획

Section 01. 데이터 분석 방안 수립

데이터 분석 : 대용량 Dataset으로부터 인사이트를 발굴, 공유해 의사결정 지원

데이터 정의→수집→변환→모델링→시각화의 일련의 과정

데이터 분석의 지향점

전략적 통찰이 없는 데이터 분석의 배제
일차원적 데이터 분석 지양
전략 도출을 위한 가치 기반 데이터 분석을 통한 해당 사업의 중요 기회 발견

데이터 분석 시 고려사항

: 데이터 분석은 규모가 아니라 어떤 시각과 통찰을 얻을 수 있는지의 문제 : Data → Insight를 통한 성과 창출

데이터 분석 기획

분석 수행 전, 과제 정의 및 결과 도출 방안을 계획
분석 기획 절차 : 비즈니스 이해, 범위 설정 → 프로젝트 정의 → 수행 계획 수립 → 위험 계획 수립
분석 기획 특징
1. 분석 대상 및 방법에 따른 4가지 구분 1) 대상을 알고, 방식을 알고있음 : Optimization 2) 대상을 모르나, 방식은 알고 있음 : Insight 3) 대상은 알고있으나, 방식을 모름 : Solution 4) 대상도 모르고, 방식도 모름 : Discovery
2. 목표 시점에 따라 1) 단기적 접근(과제중심적) : 당면한 과제를 빠르게 해결 2) 중장기적 접근(마스터 플랜) : 전사적으로 장기적 관점에서 과제 도출 3) 혼합 : 마스터 플랜 수립 → 빠른 과제 해결을 통한 가치 증명

분석 기획 필요 역량
- 도메인 지식, 정보 기술, 수학/통계적 지식
- 프로젝트 관리 역량, 리더십
분석 기획 시 고려사항
1. 사용 가능한 데이터 확인
2. 적합한 사례 탐색
3. 분석 수행 시, 발생 가능 요소 고려 : 시각화, 성능, 변화 관리 방안 등
데이터 분석 유형
- 설명 분석 : 주어진 데이터 요약 및 집계 (사실 그 자체)
- 예측 분석 : 미래를 사전 예측, 결과의 가능성 파악
- 진단 분석 : 인과관계, 상관관계 파악을 통한 원인 파악
- 처방 분석 : 예측 상황에 대한 대안 도출 및 의사결정

분석 마스터 플랜 & 로드맵 설정

: 과제의 목적, 목표에 따라 전체적인 방향성 제시 : 데이터 분석 과제 정의 → 우선순위 결정(전략적 중요도, 비즈니스 성과, ROI, 실행용이성 등) → 단기/중장기 구분 → 분석 로드맵 수립

빅데이터 특징을 고려한 분석 ROI 요소 : 4V
1. 투자비용(3V) : Volume + Variety + Velocity
2. 비즈니스 효과 : Value
과제 우선순위 평가기준
1. 시급성 : KPI → 비지니스 효과
2. 난이도 : 비용 범위 측면 → 투자 비용 요소
분석과제 우선순위 선정 및 조정
1. 시급성 기준 : 3 → 4 → 1 → 2
2. 난이도 기준 : 3 → 1 → 4 → 2
분석 로드맵 설정 : 분석과제 수행에 필요한 기준등을 담아 만든 종합적 계획 : 데이터 분석 체계 도입 → 분석 유효성 검증 → 데이터 분석 확산 및 고도화 : 데이터 수집/확보 → 분석 데이터 준비(순차적) → 모델링 단계 분석 모델 설계 → 분석모델 적용 → 분석모델 평가 (반복)

분석 문제 정의

도출 방법
1. 하향식 ↓ (Top Down) : 문제에 대한 해법 탐색 : 데이터 분석 주제 유형 에서 1) Optimization & 3) Solution
2. 상향식 ↑ (Bottom Up) : 데이터를 통한 문제 재정의 및 해법 탐색 : 데이터 분석 주제 유형 에서 2) Insight & 4) Discovery
3. 혼합 : 동적 환경에서 발산(Bottom Up), 수렴(Top Down) 반복적 수행

하향식 접근 방식 : Top Down

: 문제에 대한 해법 도출, 각 과정이 체계적(단계화) : 문제 탐색 ▶ 문제 정의 ▶ 해결방안 탐색 ▶ 타당성 평가(과제 선정)

1. 문제 탐색

전체적인 관점의 기준 모델(누락없이 문제를 도출 및 식별)
문제 해결을 통해 발생하는 가치에 중점

문제 탐색 기법

비즈니스 모델 기반 : 기업 내부
외부 참조 모델 기반 : 기업 외부
분석 Usecase 정의

문제 탐색 과정

비즈니스 모델 캔버스를 통한 과제 발굴 : 9가지 비즈니스 모델 블록 → 업무, 제품, 고객(문제 발굴 단위) + 규제&감사, 지원 인프라(관리)

분석 기회 발굴 범위 확장 : 새로운 문제 발굴과 장기적 접근을 통한 환경/경쟁 구도 변화, 혁신적 분석 기회 추가 도출

2. 문제 정의

비즈니스 문제 → 데이터적 문제로 전환
최종 사용자 관점에서 정의

3. 해결방안 탐색

분석 문제 해결을 위한 방안 모색 1) 분석 역량 확보 & 기존 시스템 사용 : 기존 시스템 개선 2) 분석 역량 확보X & 기존 시스템 사용 : 교육 및 채용을 통한 역량 확보 3) 분석 역량 확보 & 시스템 신규 도입 : 시스템 고도화 4) 분석 역량 확보X & 시스템 신규 도입 : 전문 업체 아웃소싱

4. 타당성 평가

도출된 여러 대안 중 최선의 대안 선택
비용 대비 편익 분석 관점(경제적 타당성)
데이터 및 기술적 관점

결론

하향식 접근은 솔루션 도출에 유효하나, 새로운 문제 탐색은 어렵다.
복잡하고, 다양한 환경에서 발생하는 문제엔 부적합

상향식 접근 방식 : Bottom Up

: 문제 정의 자체가 어려운 경우, 데이터 기반으로 문제 재정의 → 해결방안 탐색 : 해당 일(사건)이 발생한 이유를 역추적하여 문제 도출 : 새로운 문제 탐색 및 복잡한 상황에서의 문제 해결

디자인 사고 접근법(What 관점 접근) : 관찰 → 감정이입 → 관점 전환 : 사물을 있는 그대로 인식
비지도 학습에 의한 수행 : 목표값에 대한 사전정의 X : 데이터 자체만으로 결과 도출
빅데이터 환경에서의 분석 : 인과관계 분석이 아닌 데이터 간 상관관계 분석
프로토타이핑 접근법 : 상향식 접근 방식의 문제 해결법 : 분석 시도 → 결과 확인 → 반복적 개선 : 신속한 모형 제시, 문제 명확화, 필요 데이터 식별 및 구체화 : 사용자 요구사항 및 데이터 정의가 어렵고, 원천 데이터 불명확한 경우에 사용

데이터 분석 방안

1. 분석 방법론

: 데이터 분석을 효과적으로 수행하고자, 분석 결과를 체계적으로 정리 : 상세한 절차 + 방법 + 도구/기법 + 템플릿/산출물

분석 방법론 생성 과정

암묵지, 형식지, 방법론으로 구성 : 암묵지를 형식화 = 형식지 : 형식지를 체계화 = 방법론 : 방법론을 내재화 = 암묵지

2. 계층적 프로세스 모델 구성

PHASE ▶ TASK ▶ STEP

PHASE(단계) : 완성된 단계별 산출물 생성, 버전 관리 등으로 각 단계 통제
TASK : 단계를 구성하는 단위 활동, 물리적/논리적 단위의 품질 검토
STEP : WBS의 워크 패키지, 단위 프로세스

3. SDLC 활용

: 요구명세 ▶ 요구분석 ▶ 설계 ▶ 구현 ▶ 테스트 ▶ 유지보수

모형 선정 기준 : 프로젝트 규모 및 성격, 개발 방법/도구, 개발 소요 시간/비용, 산출물 등 고려
모형 : Waterfall, Prototype, Spiral, Iterative 등

4. KDD 분석 방법론

: 통계적 패턴, 지식 탐색에 활용 가능한 프로파일링 기반 데이터 마이닝 프로세스 : DB에서 지식을 발견하는 과정을 체계화

데이터에서 패턴 탐색 과정 → 9 프로세스
1. 분석 대상 비즈니스 도메인 이해
2. Dataset 선택 및 생성
3. Noise, Outlier 제거 (Preprocessing)
4. 분석 목적에 맞는 변수 도출, 필요 시 차원 축소 진행
5. Data Mining 기법 선택
6. Data Mining 알고리즘 선택
7. Data Mining 수행
8. 결과 해석
9. 지식으로 활용

** KDD 분석절차**

Dataset 선택
Data Preprocessing : Noise, Outlier, 결측치 식별 및 제거, 대체
Data 변환 : 학습 / 검증용 데이터 분리
Data Mining : 기법, 알고리즘 선택, 분석 수행
결과 평가 : 결과 해석 = 분석 목적 (일치성 확인)

5. CRISP-DM 분석 방법론

: 4계층으로 구성된 Data Mining 계층적 프로세스 모델

계층 구성

최상위 레벨(PHASE) : 여러 개의 Phase로 구성
Generic Tasks : 데이터 마이닝의 단일 프로세스를 완전하게 수행
세분화 Tasks : 일반화 Task를 구체적 수행
Process 실행 : 데이터 마이닝 작업을 구체적 수행

CRISP-DM 분석절차

업무 이해
데이터 이해 : 초기 데이터 수집/탐색/품질 확인
데이터 준비 : 분석용 Dataset 선택/정제/통합/Formatting
모델링 : 모델링 기법 선택, 테스트 계획 설계, 모형 작성 및 평가
평가
전개

CRISP-DM vs KDD

CRISP-DM 분석 방법론	KDD 분석 방법론
업무 이해 (Business Understanding)	-
데이터 이해 (Data Understanding)	데이터셋 선택 (Selection) 데이터 전처리 (Preprocessing)
데이터 준비 (Data Preparation)	데이터 변환 (Transformation)
모델링 (Modeling)	데이터 마이닝 (Data Mining)
평가 (Evaluation)	데이터 마이닝 결과 평가 (Interpretation/Evaluation)
전개 (Deployment)	-

6. SEMMA 분석 방법론

: Sample, Explore, Modify, Model, Assess : Data Mining 프로젝트의 모델링 작업 중점

SEMMA 분석절차

추출(Sample) : 통계적 추출, 조건 추출
탐색(Explore) : 그래프, Clustering, 상관 분석
수정(Modify) : 수량화, 표준화, 변환, 그룹화
모델링(Model) : Decision Tree, 로지스틱 회귀
평가(Assess) : 보고서, 피드백, 모델 검증

빅데이터 분석 방법론

: Application 개발을 위한 3계층(PHASE - TASK - STEP)

개발 절차 : 분석 기획 ▶ 데이터 준비 ▶ 데이터 분석 ▶ 시스템 구현 ▶ 평가 및 전개

1. 분석 기획

비즈니스 이해 및 범위 설정 : 도메인 문제점 파악, 프로젝트 방향 설정, 명세서 작성
프로젝트 정의 및 계획 수립 : 모형 평가 기준 설정, KPI/목표 수준 구체화, WBS 작성
프로젝트 위험 계획 수립 : 위험 식별 및 사전 대응 방안 수립, 우선순위 설정

2. 데이터 준비

필요 데이터 정의 : 내/외부 데이터 정의서 작성, 시스템 간 인터페이스 설정, 법적 이슈 고려
Data Store 설계 : 모든 형식 데이터 저장 가능, 논리적/물리적 설계
데이터 수집 및 정합성 검증 : 크롤링, API, ETL, 품질 확보 및 품질 개선

3. 데이터 분석

분석용 데이터 준비 : 데이터 범위 확인 및 구조화, 가공 단계
텍스트 분석 : Data Store에서 필요 데이터 추출, 분석 모형 구축 (최종 모형)
탐색적 분석 : Dataset에 대한 정합성 검토, 데이터 편성, 시각화
모델링 : 학습/테스트 데이터 분할
모델 평가 및 검증 : 모형의 완성도 평가(데이터 분석 목적 및 Dataset 특성에 따른 평가 방법 상이)

4. 시스템 구현

설계 및 구현 : System Data Architecture & UI 설계 : 모형 구현
시스템 테스트 및 운영

5. 평가 및 전개

모델 발전 계획 수립 : 생명주기 설정, 모형의 계속성 확보, 유지보수/재구축 방안 마련
프로젝트 평가 및 보고

[빅데이터분석기사] Part1 - CH 01. 빅데이터의 이해

Mon, 30 Jun 2025 13:39:13 GMT

Part 1. 빅데이터분석기획

Chapter 01. 빅데이터의 이해

Section 01. 빅데이터 개요 및 활용

데이터 : 추론과 추정의 근거를 이루는 사실

특징 : 단순한 객채로도 가치 있음, 객체 간 상호관계 속 더 큰 가치

정량 데이터 : 숫자 1-1. 정형 : 정해진 형식, 구조 (RDBMS) 1-2. 반정형 : Schema 정보를 데이터와 함께 제공, 연산 불가 (JSON, XML)
정성 데이터 : 문자, 함축적 의미를 담은 데이터 2-1. 비정형 : 구조가 정해지지 않음, 동양상, 이미지, mp3 등

원본 Data → [데이터 수집 과정] → 재생산
- 가역 : 원본으로 환원 가능 (1:1)
- 불가역 : 원본으로 환원 불가능
지식의 피라미드 : 지혜 > 지식 > 정보 > 데이터
지식 형태
1. 표출화 (암묵지→형식지)
2. 연결화 (형식지→형식지)
3. 내면화 (형식지→암묵지)
4. 공통화 (암묵지→암묵지)

DBMS : DB를 관리하며 Applications 간 데이터 공유 가능한 환경 제공

SQL : 데이터 정의, 조작 기능 제공 질의어

DB 활용

OLTP : 현재 시점의 Data만을 DB가 관리, 복잡한 데이터 구조 : 데이터 갱신 위주
OLAP : Online Analytical Processing : 단순한 데이터 구조, 정보 위주의 분석 처리, OLTP에서 처리된 트랜잭션 데이터를 분석해 프로세싱 : 다차원적 데이터 접근 → 의사결정에 활용 가능한 정보 도출 : 데이터 조회 위주

Data Warehouse

: 일정 시간 동안 데이터 축적 → 의사결정을 위한 분석 작업 수행

특징
1. 주제 지향성
2. 통합성
3. 시계열성
4. 비휘발성
구조 : 데이터 모델 + ETL + ODS + Meta Data + OLAP + 데이터 마이닝 + 분석 Tool + 경영기반 솔루션

빅데이터

작은 용량에서 얻을 수 없던 새로운 인사이트, 가치 도출

빅데이터 5V

Volume : 규모
Variety : 형태
Velocity : 속도
Value : 가치
Veracity : 진실성(품질)

데이터 처리의 변화 : 사전 처리(Preprocessing) → 사후 처리 : 필요 정보만 → 최대한 많이 : Quality → Quantity

데이터 분석의 변화 : 이론적 인과관계 → 단순 상관관계

빅데이터 활용 3요소

: 자원 + 기술 + 인력

빅데이터의 가치 : 고객 세분화, 맞춤형 개인화 서비스 제공 : 알고리즘 기반 의사결정 지원
데이터 산업의 변화 과정
1. 데이터 처리 (Task간 구분) [1970 - 1980] : 데이터 = 업무 처리의 대상, 새로운 가치를 제공하지 않음
2. 데이터 통합 (업무 간 구분) [1990 - 2000] : 데이터 모델링, DBMS 등장
3. 데이터 분석 (조직 간 구분) [2010 - ] : Hadoop, Spark, 빅데이터 기술, 데이터 소비자의 역할, 데이터 리터러시 프로그램
4. 데이터 연결 [2018 - ] : Open API
5. 데이터 권리 : 마이데이터, 산업이 데이터 중심으로 재편

데이터 산업 구조
1. Infra : 데이터 수집/저장/분석, HW & SW 영역
2. Service : 데이터 활용 교육, 컨설팅, 솔루션 제공, 데이터 제공 및 처리
Data Scientist : 데이터의 근원을 찾고, 복잡한 대용량 데이터를 구조화, 데이터 간 연결

Section 02. 빅데이터 기술 및 제도

빅데이터 플랫폼

: 빅데이터 수집/저장/처리/분석 등 전 과정을 통합적으로 제공하는 플랫폼

필요 이유
1. 비즈니스 요구사항 변화 대응 : 장기적/전략적 접근, Cloud Computing 등
2. 데이터 규모 증가, 처리 복잡도 증가 : 처리할 데이터의 규모 및 내용의 증가 : 정보의 수집 및 분석의 기간 증가 : 분산 처리 환경 필수 : 데이터 수집 경로의 다양화
3. 데이터 구조의 변화 : 비정형 데이터의 비중 증가 : 데이터 실시간 처리의 필요성 강조 : 데이터 발생 속도의 증가
4. 데이터 분석 유연성 향상 : AI의 발전 → 다양한 방법론을 통해 텍스트, 음성 등 다양한 형태의 데이터 분석 가능
기능 : 빅데이터를 처리하는 과정에서 발생하는 부하를 기술적 요소의 결합으로 해결
- 부하 종류 / 해결법
1. 컴퓨팅 부하: CPU 성능 향상 & Cluster에서의 효과적인 자원 할당
2. 저장 부하 : File System 개선 & DB 성능 향상
3. 네트워크 부하 : 대역폭의 효과적 분배 & 노드 간 최단거리 탐색
구조 : Software 계층 > Platform 계층 > InfraStructure 계층
1. Software 계층
  - Application 구성
  - 데이터 처리 및 분석
  - 데이터 수집 및 정제
2. Platform 계층
  - 작업 스케줄링
  - 데이터/리소스 할당 및 관리
  - 프로파일링 모듈 운영
3. InfraStructure 계층
  - 자원 배치, 스토리지 관리
  - 네트워크, 노드 관리
  - 빅데이터 처리 분석에 필요한 자원 제공

빅데이터 처리 과정과 요소 기술

처리 과정 : 데이터(생성) ▶ 수집 ▶ 저장(공유) ▶ 처리 ▶ 분석 ▶ 시각화
1. 생성 : DB, File System 등의 '내부 데이터' : 인터넷 기준의 '외부 데이터'
2. 수집 : 데이터 원천을 크롤링해 데이터 검색 및 수집 : ETL(Extract, Transform, Load)를 통해 데이터 추출/변환/적재
3. 저장 : 정형/반정형/비정형 데이터 저장 : 병렬 DBMS, Hadoop, NoSQL 등 활용 : 시스템 간 데이터 공유
4. 처리 : 분산 병렬 처리 : 인메모리 방식의 실시간 처리(MapReduce)
5. 분석 : 특정 분야/목적의 특성에 맞는 분석 기법 선택 : 통계 분석, 데이터 마이닝, 텍스트 마이닝, 기계학습(ML)
6. 시각화 : 정보, 실시간 자료 시각화

1. 빅데이터 수집

크롤링 : 분산 저장되어있는 문서를 수집 → 검색 대상의 색인으로 포함
로그 수집기 : 조직 내 웹 서버, 시스템의 로그 수집
센서 네트워크 : 초경량, 저전력의 많은 센서로 구성된 유/무선 네트워크
RSS Reader, OpenAPI : 데이터 생산 및 공유에 참여
ETL 프로세스 : 다양한 원천 데이터를 취합 → 추출 → 공통된 형식으로 변환 → 적재

2. 빅데이터 저장

NoSQL : 비관계형 DB, SQL을 사용하지 않는 DBMS : ACID의 유연한 적용
공유 데이터 시스템 : CAP이론 = 분산 데이터베이스 시스템은 일관성, 가용성, 분할 내성 중 2개만 충족 가능 : 기존 RDBMS 대비 높은 성능과 확장성을 위함
병렬 DB 관리 시스템 : 다수의 마이크로프로세서 탑재, 작은 단위 동작의 트랜잭션 : 여러 디스크에서 DB처리를 동시에 진행
분산 파일 시스템 : 네트워크로 공유하는 파일 시스템 : GFS(Google File System), AWS S3, HDFS
네트워크 저장 및 공유 : SAN, NAS

3. 빅데이터 처리

분산 시스템과 병렬 시스템 : 분산된 다수의 COM을 단일 시스템처럼 사용 : 작업을 분할해 동시에 처리
분산 병렬 컴퓨팅 : 독립된 컴퓨팅 자원을 네트워크 상에 연결 : 미들웨어를 이용해 하나의 시스템으로 활용
Hadoop : 분산처리 환경에서 대용량 데이터 처리/분석을 지원하는 OpenSource Framework : HDFS(분산파일시스템) + HBase + MapReduce(분산 컴퓨팅 프레임워크)
Apache Spark : 인메모리 방식의 분산형 컴퓨팅 플랫폼 : Hadoop보다 빠른 속도가 특징 : Scala, R, Java, Python 지원
MapReduce : 구글에서 개발, 효과적인 병렬/분산처리 지원 : 분산 병렬 데이터 처리 기술 표준

MapReduce 처리 단계

: Split ▶ Map ▶ Shuffle ▶ Reduce : 입력 데이터 READ → 데이터 분할(Split) → 분할된 데이터 할당(Map) → 중간 데이터 통합 및 재분할 → 중간 데이터 셔플(Shuffle) → Reduce → 출력 데이터 생성

4. 빅데이터 분석

데이터 분석 방법 분류
1. EFA (탐구 요인 분석) : 데이터 간 상호 관계 파악
2. CFA (확인 요인 분석) : 집합요소 구조 파악을 위해 통계적 기법을 통한 데이터 분석
데이터 분석 방법 : Classification(분류), Clustering(군집화), ML, TextMining, Web Mining, Opinion Mining, Reality Mining, 소셜네트워크 분석, 감성 분석 등

빅데이터와 인공지능

인공지능 : 사람이 생각하고 판단하는 사고 구조를 구축
기계학습 : 축적된 데이터를 통해 인간의 학습 능력과 같은 기능 구축
딥러닝 : 깊은 구조를 기반으로, 대량의 데이터를 이용해 사람처럼 스스로 학습

기계학습의 종류

지도 학습 : 학습 데이터로부터 하나의 함수 유추
비지도 학습 : 데이터 구성 방식 파악, 입력값에 대한 목표치 없음, 군집화 등
준지도 학습 : 목표가 있는, 없는 데이터 모두 학습에 사용
강화 학습 : 선택 가능한 행동 중 보상을 최대화하는 행동 선택 : 학습 과정에서의 성능에 초점 → 탐색/이용 간의 균형 중시

데이터 학습의 진화

전이학습 : 기존 학습된 모델의 지식을 새로운 문제에 적용 : 빠르고 효율적인 학습 수행 : 적은 양의 데이터로도 좋은 결과 도출 : 지도학습 분류 모형 중 인식 특화(이미지, 텍스트)
전이학습 기반 사전 학습 모형 : 인지능력을 갖춘 Deep Learning 모형에 추가 데이터 학습
BERT

빅데이터와 인공지능 간 관계

양질의 데이터 확보 = 인공지능의 학습 데이터를 위해 필수적
Annotation을 통해 학습이 가능한 데이터로 가공

Annotation? → 데이터 주석을 작성하는 과정, 설명을 추가한다.
인공지능 기술 동향 : ML Framework(TF, Keras) ▶ GAN ▶ Auto-Encoder ▶ XAI(설명가능 AI) ▶ AutoML ▶ LLM

개인정보

살아있는 개인에 관한 정보, 개인을 알아볼 수 있는 정보
다른 정보와 쉽게 결합해 특정 개인을 식별할 수 있는 정보

개인정보 처리 위탁

: 업무 처리를 목적으로 제3자에게 정보를 이전 : 제공하는 자의 업무

개인정보 제3자 제공

: 업무 처리 및 이익을 목적으로 정보를 제3자에게 정보를 이전 : 제공받는 자의 업무

빅데이터 개인정보보호 가이드라인

: 비식별화, 투명성 확보, 재식별 시 조치, 민감정보 및 비밀번호 처리, 기술적/관리적 보호 조치

개인정보보호 고려사항

정보주체의 권리를 보호하며, 데이터의 효율적 이용 방안 모색
주요 법령 및 규제 기관의 가이드라인 지속 파악
내부 개인정보 컴플라이언스 체계 구축

개인정보 보호법 : 당사자 동의 없는 개인정보 수집 및 활용, 제3자 제공 금지 : 정보 주체로부터 개인정보 제3자 제공 동의 필요 : 통계 작성, 학술 연구를 목적으로 '특정 개인을 식별 불가능한 형태'로 개인정보 제공 가능
정보통신망법 : 이용자 동의 없는 개인정보 수집 및 제3자 제공 = 처벌
신용정보 보호법 : 개인신용정보를 신용정보회사 등에 제공 시에, 서면 혹은 공인전자서명 전자문서로의 동의 필수

※ 개인식별정보 : 성명, 주소, 주민등록번호 등 개인을 식별 가능한 정보

데이터 3법 주요 개정안 : '가명정보' 개념 도입, 유사/중복 규정 정비, 개인정보처리자 책임 강화

개인정보 비식별화

비식별조치

: 개인을 식별 가능한 요소를 전부(일부) 삭제/대체

가이드라인 : 사전검토 → 비식별조치(가명, 총계, 삭제, 범주화, 마스킹) → 적정성평가(k-익명성, l-다양성, t-근접성) → 사후관리

가명정보

: 개인정보를 일부를 삭제/대체하는 과정을 거쳐 나온 산출물 : 추가 정보 없이 특정 개인 식별 불가능

절차 : 사전준비(목적 설정 등) → 위험성 검토 → 가명처리 → 적정성 검토 → 관리