null_point.log

2025년 IT와 AI의 최신 동향: 기술의 변화와 혁신을 읽다

Thu, 23 Jan 2025 08:02:56 GMT

기술의 발전은 우리의 삶을 빠르게 변화시키고 있습니다. 특히 IT와 AI는 현대 사회의 중심에 자리잡으며 다양한 산업에 큰 영향을 미치고 있습니다. 이번 포스팅에서는 2025년 현재 주목받는 IT와 AI의 주요 동향을 심도 있게 다루어 보겠습니다.

1. 초경량 AI 모델: 경량화가 가져온 효율성

AI 기술의 발전은 단순히 모델의 크기를 키우는 데 그치지 않고, 효율성과 경제성을 강화하는 방향으로 진화하고 있습니다. 초경량 AI 모델은 제한된 리소스를 사용하는 장치에서도 높은 성능을 발휘하도록 설계되어 있습니다.

LoRA (Low-Rank Adaptation): 대규모 언어 모델(LLM)의 학습을 단순화하면서 비용을 절감할 수 있는 기술입니다.
Quantization: 숫자를 줄여 모델을 간소화하면서도 정확성을 유지하는 기술입니다.
Edge AI의 성장: 클라우드에 의존하지 않고 디바이스 자체에서 데이터를 처리하는 기술로, IoT 기기와 결합해 빠른 응답 속도를 제공합니다.

2. 생성형 AI의 현실적 활용

생성형 AI(Generative AI)는 이제 단순한 텍스트 생성 이상의 가치를 제공하며 다양한 산업에서 실제로 활용되고 있습니다.

주요 사례

헬스케어: AI가 환자 데이터 분석을 통해 맞춤형 치료법과 예후를 제안합니다. 예를 들어, 특정 환자에게 최적화된 약물 조합을 추천할 수 있습니다.
패션 디자인: AI가 고객 데이터를 분석해 맞춤형 의류 디자인을 제공합니다. 최근에는 AR/VR 기술과 연계해 실시간으로 옷을 입어볼 수 있는 서비스도 개발되고 있습니다.
콘텐츠 제작: 텍스트, 이미지, 영상 생성 AI가 마케팅 콘텐츠부터 영화 제작에 이르기까지 폭넓게 활용되고 있습니다.

3. Web3와 AI: 탈중앙화와 인공지능의 만남

2025년의 IT 환경은 Web3와 AI가 융합하면서 새로운 디지털 생태계를 구축하고 있습니다.

AI 기반 스마트 계약: 스마트 계약은 블록체인에서 자동으로 실행되며, AI는 이를 최적화하여 더 안전하고 신뢰할 수 있도록 만듭니다.
분산형 데이터 관리: 개인이 자신의 데이터를 소유하고 관리할 수 있는 탈중앙화 시스템이 점차 보편화되고 있습니다.
AI와 DAO(탈중앙화 자율 조직): 조직의 의사결정 과정에서 AI가 중요한 역할을 맡으며 효율성과 투명성을 제공합니다.

팁: Web3 프로젝트에 AI를 통합하면 새로운 시장 기회를 창출할 수 있습니다.

4. 클라우드 기술의 진화와 서버리스 아키텍처

클라우드 기술은 여전히 혁신을 거듭하며 많은 기업의 디지털 전환에 핵심 역할을 하고 있습니다.

서버리스 컴퓨팅: AWS Lambda, Google Cloud Functions와 같은 플랫폼은 개발자가 인프라를 관리하지 않고도 코드를 실행할 수 있는 환경을 제공합니다.
Kubernetes와 컨테이너화 기술: 컨테이너를 사용하면 애플리케이션의 배포와 확장이 훨씬 쉬워집니다.
Terraform: 코드로 인프라를 관리하며, DevOps 팀의 생산성을 크게 향상시키는 도구입니다.

결론

2025년의 IT와 AI 트렌드는 효율성과 확장성, 그리고 사용자 경험 향상에 초점이 맞추어져 있습니다. 초경량 AI 모델, 생성형 AI의 실제 활용, Web3와의 융합, 클라우드 기술의 발전은 우리가 앞으로 더 나은 기술 환경을 구축하는 데 중요한 기반이 될 것입니다.

2025년 IT와 AI의 최신 동향: AI의 미래와 기술 혁신

Tue, 21 Jan 2025 13:07:47 GMT

오늘은 2025년을 선도하고 있는 IT와 AI 분야의 최신 동향에 대해 살펴보겠습니다.

기술의 발전 속도는 점점 빨라지고 있으며, 개발자와 기업 모두 이러한 변화를 이해하고 적응하는 것이 중요합니다.

1. 초경량 AI 모델: 더 작고 강력하게

2025년에는 초경량 AI 모델의 수요가 증가하고 있습니다. 대규모 언어 모델(LLM)이 높은 성능을 유지하면서도 리소스를 줄이는 방향으로 발전 중입니다.

LoRA (Low-Rank Adaptation): 기존 모델을 효율적으로 확장할 수 있는 방법으로, 많은 기업에서 채택하고 있습니다.
AI 전용 하드웨어: NVIDIA Hopper 시리즈, Google TPU v5, Apple Neural Engine 등의 발전이 모델 효율성을 더욱 향상시키고 있습니다.
Pruning 및 Quantization: 모델의 경량화를 위한 필수 기술로, 메모리 사용량을 줄이면서 성능을 유지하는 방법입니다.

예시: 사용자가 모바일 디바이스에서 고성능 AI 서비스를 이용할 수 있는 환경을 만들고 있습니다.

2. 생성형 AI의 실질적 활용

생성형 AI는 단순히 텍스트 생성 도구를 넘어, 실질적 비즈니스 가치를 창출하는 도구로 자리잡고 있습니다.

활용 사례:

헬스케어: 환자의 데이터를 바탕으로 맞춤형 치료 계획을 생성.
소매업: 개인화된 상품 추천 및 마케팅 콘텐츠 자동 생성.
교육: 학생 수준에 맞춘 교재 및 학습 자료 생성.

3. Web3와 AI의 융합

AI와 Web3 기술이 결합하며, 분산형 인터넷 환경을 발전시키고 있습니다.

AI 기반 스마트 계약: 블록체인에서 자동화된 계약 검증 및 실행.
DAO의 발전: AI가 Decentralized Autonomous Organizations의 의사결정을 지원하며 더욱 효율적인 관리 시스템 구축.
데이터 소유권 혁신: 개인이 자신의 데이터를 안전하게 관리하고 수익화할 수 있도록 돕는 기술.

팁: Web3 프로젝트를 준비 중이라면, AI를 통합해 새로운 사용자 경험을 창출할 방법을 고민해 보세요.

4. 서버리스 및 클라우드 기술

클라우드 인프라는 서버리스 아키텍처와 컨테이너 기술로 더욱 발전하고 있습니다.

Kubernetes의 자동화: 컨테이너화된 애플리케이션의 자동 확장 및 복구.
AWS Lambda 활용: 서버리스 환경에서 이벤트 기반 애플리케이션 실행.
Terraform: DevOps 환경에서 인프라를 코드로 관리해 배포 속도를 단축합니다.

실제 사례: 서버리스 아키텍처는 스타트업들이 초기 비용을 최소화하면서도 확장 가능한 서비스를 제공하는 데 이상적입니다.

결론

2025년의 IT와 AI 트렌드는 효율성과 실용성을 강조하고 있습니다. 초경량 AI 모델, 생성형 AI의 산업별 활용, Web3와 AI의 융합, 클라우드 기술의 발전은 미래를 준비하는 핵심 요소입니다.

최신 IT와 AI 동향: 2025년을 선도하는 기술들

Mon, 20 Jan 2025 15:21:05 GMT

2025년 IT와 AI 분야에서 주목할 만한 최신 동향을 소개합니다. 기술은 빠르게 변화하고 있으며, 이를 따라잡는 것은 개발자뿐만 아니라 기술 리더들에게도 필수적입니다.

1. AI 모델의 경량화와 효율성 증대

2025년의 AI 기술은 고성능을 유지하면서도 리소스를 줄이는 데 초점을 맞추고 있습니다. 대규모 언어 모델(LLM)은 이제 더 적은 데이터와 연산으로도 뛰어난 결과를 제공합니다.

주요 기술:

LoRA (Low-Rank Adaptation): 학습 속도를 높이고 비용을 절감하는 핵심 기술로 떠오르고 있습니다.
AI 전용 칩셋: NVIDIA의 최신 칩셋뿐만 아니라 Google TPU, Apple Neural Engine이 주목받고 있습니다.
ONNX(Open Neural Network Exchange): 다양한 프레임워크 간 호환성을 높이며 AI 개발자들에게 큰 도움을 줍니다.

2. 생성형 AI의 산업별 활용

생성형 AI는 이제 단순한 텍스트 생성 도구를 넘어 다양한 산업의 혁신을 이끌고 있습니다.

활용 사례:

헬스케어: 환자 데이터를 기반으로 맞춤형 치료 계획을 생성합니다.
패션: 고객 데이터를 분석해 개인화된 의류 디자인을 제공합니다.
교육: 인터랙티브 학습 도구 및 맞춤형 교재 생성에 활용됩니다.

Tip: Hugging Face의 오픈소스 모델을 테스트해 보거나 OpenAI API를 활용해 새로운 아이디어를 실현해보세요.

3. Web3.0과 AI의 융합

Web3.0과 AI의 결합은 인터넷 환경의 미래를 만들어가는 중요한 동력이 되고 있습니다.

주요 기술:

AI 기반 스마트 계약: 블록체인 상에서 계약을 자동으로 검증하고 실행합니다.
탈중앙화 데이터 분석: 분산형 데이터를 AI 모델이 효율적으로 처리합니다.
AI 및 DAO(Decentralized Autonomous Organizations): AI가 조직의 의사결정을 자동화하고 최적화합니다.

4. IT 인프라의 재구성: 서버리스와 컨테이너

클라우드 기술은 서버리스 아키텍처와 컨테이너 기술로 진화하며, 개발 효율성을 극대화하고 있습니다.

주요 기술:

AWS Lambda와 Azure Functions: 이벤트 기반 서버리스 애플리케이션 개발에 필수적인 도구입니다.
Kubernetes(K8s): 컨테이너 애플리케이션의 배포 및 관리를 간소화합니다.
Terraform: 인프라를 코드로 관리하는 DevOps 필수 도구입니다.

결론

IT와 AI는 2025년에도 빠르게 변화하고 있습니다. 이러한 흐름을 따라잡기 위해 생성형 AI, Web3.0, 서버리스 아키텍처 등 핵심 기술을 꾸준히 학습하고 적용하는 것이 중요합니다.

다음 포스팅에서는 AI 모델 최적화 전략에 대해 다룰 예정입니다. 기대해주세요! 😊

AI와 인간의 경계: 기억, 창의성, 그리고 협력의 가능성

Sat, 18 Jan 2025 12:38:38 GMT

서론: AI가 인간과 기계의 경계를 재정의하다

인공지능(AI)은 더 이상 공상 과학 속 이야기가 아닙니다. 오늘날, AI는 우리의 일상 깊숙이 자리 잡고 있습니다.
스마트폰 앱, 동영상 추천 알고리즘, 음악 재생 목록, 그리고 이미지 생성 도구 등 AI는 우리가 기술과 상호작용하는 방식을 바꾸고 있습니다.

하지만 AI의 급격한 발전 속에서 이런 질문을 떠올리지 않을 수 없습니다.

"AI와 인간의 차이는 무엇인가?"
"AI가 점점 더 인간처럼 변한다면, 그 경계는 어디에서 흐려질까?"

기억과 창의성: AI가 인간처럼 느껴지는 이유

AI가 놀라운 성과를 낼 수 있는 이유는 단순한 계산 능력이 아닙니다. AI는 기억과 창의성이라는, 전통적으로 인간에게만 속한다고 여겨졌던 두 가지 특성을 활용하기 때문입니다.

기억과 창의성의 관계

2007년, 데미스 허사비스(Demis Hassabis)는 기억과 창의성의 상관관계를 밝히는 논문을 발표했습니다. 그는 "기억은 창의성의 기반"이라고 설명하며, 인간이 과거의 경험을 바탕으로 새로운 아이디어를 만들어내는 방식이 AI 모델의 학습 과정과 유사하다고 말했습니다.

예시:

AI가 생성한 그림을 보고 "어디서 본 것 같은데?"라고 느꼈다면, AI가 기존 데이터를 조합해 만든 결과일 가능성이 큽니다.
반대로, "완전히 새로운 작품이야!"라고 느낀다면, 이는 당신이 비슷한 데이터를 접한 적이 없기 때문일 수도 있습니다.

결국, 우리가 AI의 창의성을 어떻게 평가하는가는 각자의 기억과 경험에 크게 의존합니다.

AI의 의사결정 과정: 인간과 무엇이 다른가?

AI의 의사결정은 단순히 데이터를 분석하는 것을 넘어, 새로운 통찰을 만들어내는 데 초점이 맞춰져 있습니다. 이를 간단히 비교하면 다음과 같습니다.

의사결정의 세 가지 단계

1. 메소드(Method):

입력값에 따라 고정된 출력을 생성합니다.
예: 자판기에 동전을 넣으면 음료가 나오는 시스템.

2. 알고리즘(Algorithm):

데이터를 분석해 최적의 결과를 제공합니다.
예: 자판기가 인기 음료 데이터를 분석해 가장 선호도가 높은 제품을 추천.

3. 인공지능(Artificial Intelligence):

데이터를 학습하고, 적응하며, 새로운 결과를 생성합니다.
예: 사용자의 나이, 성별, 과거 선택 기록 등을 기반으로 맞춤형 음료를 제조.

AI는 고정된 규칙에 얽매이지 않고, 상황에 따라 변화하고 적응합니다.

AI와 인간의 협력: 더 나은 미래를 위한 공존

AI는 더 이상 단순한 도구가 아닙니다. 우리는 이제 AI와 협력하며 더 큰 성과를 만들어가는 시대에 살고 있습니다.

AI의 주요 활용 사례

예술 분야:
예술가들은 AI를 활용해 새로운 스타일의 작품을 창조합니다.
연구 분야:
과학자들은 방대한 데이터를 AI와 함께 분석하며 연구의 속도를 높이고 있습니다.
교육 분야:
AI는 학생들에게 개인 맞춤형 학습 경험을 제공하며 교육 방식을 혁신하고 있습니다.

결론: 인간과 AI, 협력으로 만들어갈 미래

AI는 점점 더 인간의 사고 방식을 닮아가고 있지만, 때로는 인간이 상상하지 못한 방식으로 결과를 만들어냅니다.
이제 AI를 단순히 도구로 바라보는 시각에서 벗어나, 창의적이고 협력적인 파트너로 받아들일 필요가 있습니다.

우리의 창의성과 AI의 계산 능력이 결합된다면, 지금까지 상상하지 못했던 미래가 열릴 것입니다.

인간과 AI가 함께 만들어가는 세상은, 단순한 도구를 넘어선 가능성의 시대를 열어줄 것입니다.

☕Buy me a coffee #AI #ArtificialIntelligence #MachineLearning #DeepLearning #AI와인간 #AI의사결정 #기억과창의성 #AI협력 #데이터분석 #미래기술 #AI활용사례 #기술혁신 #AI알고리즘

ChatGPT 언어모델:새로운 자연어 처리 기술의 탄생

Wed, 24 Jul 2024 17:05:18 GMT

안녕하세요🐕

오늘은 가볍게 OpenAI에서 개발한 ChatGPT 언어모델에 대해서 이야기해보려 합니다.

1. 자연어 처리 분야의 혁신, ChatGPT 언어모델의 역할

ChatGPT는 인공지능 기술의 한 분야로, 자연어 처리 분야에서 혁신적인 성과를 보여주고 있습니다. 이 모델은 대량의 텍스트 데이터를 학습하여, 문장 생성 및 응답 생성과 같은 다양한 자연어 처리 작업에 이용됩니다. 이를 통해 ChatGPT는 인간과 대화를 나누는 것처럼 자연스러운 대화를 구사하며, 놀랍도록 혁신적인 결과를 보여주고 있습니다. 이러한 ChatGPT 언어모델은 앞으로 더 많은 분야에서 발전하며, 우리의 일상에서도 더 많이 사용될 것으로 기대됩니다.

2. OpenAl의 비전: 사람과 함께 살아가는 인공지능

ChatGPT는 OpenAI가 추구하는 '사람과 함께 살아가는 인공지능'의 비전을 구현하기 위해 개발된 인공지능 기술입니다. 이를 위해 OpenAI는 자연어 처리 기술을 발전시키고, 인간과 인공지능 간의 상호작용을 개선하는 연구를 지속적으로 수행하고 있습니다. 매우 이상적이면서 효율적이고 아름다운 목표죠.

3. ChatGPT 자연어 처리 기술을 기반으로 한 새로운 비즈니스 모델의 가능성

그러나 우리에게 무엇보다 중요한 건, ChatGPT 언어모델은 다양한 분야에서 수익창출 가능성이 높은 기술이라는 것입니다. 예를 들어, 이 모델을 이용하여 음성 인식 기술을 개선하거나, 자연어 처리 기술을 활용한 대화형 챗봇을 만들어 제공할 수 있습니다. 또한, 이 모델을 이용하여 자연어 처리 기반의 광고 서비스를 제공하는 등 다양한 비즈니스 모델이 가능합니다.

이처럼, ChatGPT 언어모델은 자연어 처리 분야에서 혁신적인 기술을 제공하며, OpenAI의 비전을 실현하기 위한 중요한 역할을 수행하고 있습니다. 더불어 이 모델을 활용하여 다양한 비즈니스 모델을 구상하여 수익 창출이 가능하다는 점도 주목할 만합니다.

앞으로 더욱 발전하는 ChatGPT 언어모델에 대한 사용자들의 기대감이 높아짐에 따라 기존의 글로벌 IT공룡기업들은 물론이고 새로운 게임체인저가 되기위한 스타트업들의 활약이 기대됩니다.

ADSP_1_데이터의 이해(...ing)

Thu, 18 Jul 2024 11:52:18 GMT

1.데이터와 정보

데이터의 정의

데이터의 정의와 특성

가공되지 않은 자료,즉 객관적인 사실을 의미
있는 그대로의 사실 : 존재적 특성
추론,예측,전망,추정을 위한 정보의 근거 : 당위적 특성
데이터(자료) -> 의미와 가치가 부여됨 -> 정보

데이터의 유형

정성적(특성,속성,카테고리) 데이터와 정량적(수치,도형,기호) 데이터 1) 정성적 : 언어,문자,소리 등 2) 정량적 : 길이,무게,삼각형,오각형 등
정형(고정된 프레임) 데이터와 비정형(자유로운 프레임) 데이터, 그리고 반정형(고정된 형태지만 연산 불가) 데이터 1) 정형 : 연산 및 평가가 가능한 데이터, 수집 및 관리 용이하므로 일반적으로 RDB 에서 사용 2) 비정형 : 연산이 매우 어렵거나 불가능, 관리 또한 어렵다. 일반적으로 NoSQL DB 에서 사용 3) 반정형 : 고정된 형태 존재. 단, 수집 및 관리가 쉽지 않아 가공을 통해 정형 데이터로 변환 가능
암묵지(무형의 지식) 와 형식지(유형의 지식) 1) 암묵지 : 경험을 기반으로 시행착오 겪어 정립된 지식. 겉으로 드러나지 않는다. #공통화 #내면화 2) 형식지 : 문서나 메뉴얼과 같은 유형의 객체로 존재하는 지식. 공유 할 수 있는 지식으로 반드시 형상화 되어 있다. #표출화 #연결화

데이터와 정보

DIKW 피라미드 ⭐️⭐️⭐️

※ 데 이터 이 ㄴ포메이선 노 ㄹ로지 위 스덤

데이터 : 객관적 사실
정보 : 데이터의 가공 및 처리 이후 의미와 가치가 부여되어 도출된 것 (단, 정보가 유의미한 것인지에 대한 판단은 어려움)
지식 : 정보를 구조화하여 유의미한 정보를 분류하고 개인의 경험을 결합해 고유의 지식으로 내재화된 것
지혜 : 지식의 축적 + 아이디어 + 창의성 + ... 이 결합된 산물. 창의성이 포함되어 유의미한 비정형 정보일 확률이 높다.
- 참고이미지

데이터에 관한 상식

비트 ? bit. binary digit(이진수) 의 약자로 "0"과 "1" 두 가지 값으로 표현하는 단위 (LOW LEVEL 수준의 신호를 표현)
바이트 ? byte(=8 bit). 신호의 집합으로 일반적으로 데이터의 양을 나타내는 단위.

1 byte 는 "숫자 및 영어, 특수문자 1글자 표현 가능" 2 byte 는 "한글, 일어, 중국어 등 문자 1글자 표현 가능"

데이터의 단위 ⭐️

Bit -> Byte -> KB -> MB -> GB -> TB -> PB -> EB -> ZB -> YB

2. 데이터베이스

데이터베이스 개요

데이터베이스 정의 _ 연혁

최초에는 군수물자를 관리하기 위해 수집된 자료를 뜻하는 데이터 + 기지의 뜻으로 "데이터베이스" 라고 부르기 시작함(1950년대)
미국 SDC가 개최한 심포지엄에서 "대량의 데이터 축적하는 기지" 라는 뜻으로 사용(1963년)
미국의 CAC가 한국과학기술정보센터(KORATIC)를 통해 처음 시작(1975년)
다양한 정의 1) EU, 데이터베이스의 법적 보호에 관한 지침 : 체계적,조직적으로 정리된 접근 가능한 독립된 저작물이나 데이터, 기타수집물

2) 한국, 저작권법 : 소재를 체계적으로 배열 또는 구성한 편집물. 법률적으로 기술 기반 저작물 인정 3) 컴퓨터 용어사전, 정보통신용어사전(TTA) : 복수 이용자의 요구에 대응하여 데이터 저장-공급 4) 위키피디아 : 체계적으로 정렬된 데이터 집합. 저장,관리,검색,이용할 수 있는 컴퓨터 기반의 DB 로 진화 5) 한국데이터산업진흥원 : 다수의 콘텐츠를 정보처리 및 체계적인 수집-축적으로 다양한 용도와 방법으로 이용할 수 있게 정리한 정보 집합체

DB ? 정보집합체 DBMS ? DB 관리 소프트웨어

데이터베이스의 특징

일반적인 특징 (통합,저장,공용,변화) 1) 통합된 데이터(Integrated Data) : 데이터가 중복되지 않게 통합 2) 저장된 데이터(Stored Data) : 저장 매체에 저장(컴퓨터 기술 비탕) 3) 공용 데이터(Shared Data) : 여러 사용자가 데이터를 공동으로 이용(+대용량화,+복잡도), 이용목적은 다를 수 있다. 공유 4) 변화하는 데이터(Operational Data) : 운영 데이터라고도 부르며 CUD 를 통해 항상 최신의 정확한 상태를 유지한다.

데이터베이스의 다양한 측면에서의 특성 ⭐️⭐️

측면	특성
정보의 축적 및 전달	기계가독성(정보처리기기가 활용할 수 있는 형식), 검색가능성(필요한 정보 검색가능), 원격조작성(온라인으로 즉시 이용가능)
정보이용	이용자의 요구에 따라 정보를 신속정확하게 조회 / +경제성
정보관리	일정한 질서(인덱스)와 구조(스키마)에 따라 검색 및 관리, 체계적이고 관리가 용이하며 최신 상태 유지
정보기술발전	정보를 활용한 소프트웨어,하드웨어,처리기술,네트워크 기술 등의 발전을 유도(견인)
경제-산업적	축적된 유의미하고 정확한 데이터베이스의 인프라를 활용하여 경제,산업,사회 전반에 긍정적인 영향을 미쳐 효율성 및 편의성 증대

트랜잭션의 특성

Transaction, 명령에 따른 작업수행의 논리적인 단위. 예를 들면 *"데이터 조회 요청"* 은 트랜젝션이 1번 발생, *"내용 저장이지만 중복된 내용을 확인하고 기존 내역은 삭제 후 저장"* 의 경우 DB 작업은 여러 번 발생하지만 조회와 마찬가지로 하나의 트랜젝션으로 묶여 "1개의 작업단위"로 판단할 수 있다.

트랜젝션의 특성은 원자성(모두적용 or 무효),일관성(결과의 일관성),고립성(서로다른 트랜잭션은 서로 영향X),지속성(수행결과는 영구적) 이 있다.

데이터베이스 활용

활용방안

기업 내부의 DB 1) 인하우스DB <1990년대~> : 정보통신망 구축 가속화 -> 기업 경영 전반에 필요한 자료를 체계화 하고 운영 -> 전사관리시스템(ERP) 의 전신 2) OLTP(Online Transation Processing) <1990년대 중반 이전> : 정보수집 및 공유를 위한 경영정보시스템(MIS) 과 단순 자동화 중심의 시스템 구축 3) OLAP(Online Analytical Processing) : 데이터마이닝 기술의 등장 -> 단순 "수집" 과 "공유" 에서 "분석" 중심 시스템 구축 4) CRM & SCM <2000년대> : DB 구축의 화두가 보다 유의미한 고객관계관리(Customer Relationship Management) 와 공급망관리(Supply Chain Management) 중심으로 변화. 공급망 정보와 고객 정보가 연동.
OLTP 와 OLAP 의 차이 OLTP 는 Transaction, 거래단위에 초점 OLAP 는 Analytical, 적제된데이터에 초점
EAI(Enterprise Application Integration) : 여러 개의 서비스를 연계하기 위하여 중앙관리 방식으로 연결 루트를 최적화하는 애플리케이션 통합 서비스
KMS(Knowledge Management System) : 지식 경영 시스템을 의미, 기업이 보유할 수 있는 지식을 통합하여 관리하는 것으로 문제해결능력 향상 목적 기업이 보유할 수 있는 지식 예시 1) 프로젝트 경험 2) 직원 역량(직원의 경험) 3) 과거 사례 4) 와부 사례
SCM(Supply Chain Management) : 유통 부문의 SCM 은 공급망 관리를 의미한다. 원자재 -> 기업 -> ... -> 고객까지의 유통단계를 최적화 하는 것이 목적
ERP(Enterprise Resource Planning) : 제조 부문의 ERP 는 경영자원통합관리를 의미한다. 부서별 업무에 필요한 자원을 직접 또는 간접적으로 지원하여 업무 효율성 을 높이는 것이 목적
CRM(Custom Relationship Management) : 제조 부문의 CRM 은 고객 관계 관리로 분석을 통한 신규 고객 창출, 기존 고객 이탈 방지을 목적
BI(Business Intelligence) : 기업의 의사결정 프로세스로 기업데이터 가공 및 분석 - 비지니스 이슈에 답하기 의해 신속한 보고서를 작성하는 도구로는 "ad hoc report" 가 있다.
RTE(Real Time Enterprise) : 프로세스에서 발생하는 정보를 실시간으로 통합 및 전달하는 스피드 경영

2024년 ADSP 학습 자료(학습문제 100문)

Wed, 03 Jul 2024 17:22:49 GMT

'엘라스틱넷(Elastic Net)' 회귀의 특징은? a) L1 정규화만 사용 b) L2 정규화만 사용 c) L1과 L2 정규화를 모두 사용 d) 정규화를 사용하지 않음

정답: c) L1과 L2 정규화를 모두 사용
'쿨백-라이블러 발산(Kullback-Leibler Divergence)'이 측정하는 것은? a) 두 확률 분포 간의 차이 b) 데이터의 분산 c) 모델의 정확도 d) 변수 간의 상관관계

정답: a) 두 확률 분포 간의 차이
'멀티암드 밴딧(Multi-armed Bandit)' 문제가 주로 다루는 분야는? a) 이미지 인식 b) 자연어 처리 c) 강화 학습 d) 클러스터링

정답: c) 강화 학습
'가우시안 프로세스(Gaussian Process)'의 주요 응용 분야는? a) 분류 b) 회귀 c) 클러스터링 d) 차원 축소

정답: b) 회귀
'소프트맥스 함수(Softmax Function)'가 주로 사용되는 상황은? a) 이진 분류 b) 다중 클래스 분류 c) 회귀 분석 d) 클러스터링

정답: b) 다중 클래스 분류
'변분 오토인코더(Variational Autoencoder, VAE)'의 주요 목적은? a) 이미지 분류 b) 생성 모델링 c) 시계열 예측 d) 텍스트 분류

정답: b) 생성 모델링
'워드2벡(Word2Vec)' 알고리즘의 주요 용도는? a) 문장 생성 b) 단어 임베딩 c) 문서 요약 d) 감성 분석

정답: b) 단어 임베딩
'그래디언트 클리핑(Gradient Clipping)'의 주요 목적은? a) 과적합 방지 b) 학습 속도 향상 c) 기울기 폭발 문제 해결 d) 모델 복잡도 증가

정답: c) 기울기 폭발 문제 해결
'LSTM(Long Short-Term Memory)' 네트워크가 해결하고자 하는 주요 문제는? a) 공간적 특징 추출 b) 장기 의존성 문제 c) 과적합 d) 차원의 저주

정답: b) 장기 의존성 문제
'앙상블 학습(Ensemble Learning)'에서 '배깅(Bagging)'과 '부스팅(Boosting)'의 주요 차이점은? a) 사용하는 기본 모델의 종류 b) 모델 학습의 병렬성 vs 순차성 c) 적용 가능한 문제의 유형 d) 최종 예측값 계산 방식

정답: b) 모델 학습의 병렬성 vs 순차성
'주성분 분석(PCA)'과 '독립 성분 분석(ICA)'의 주요 차이점은? a) 차원 축소 가능 여부 b) 선형성 가정 c) 직교성 vs 독립성 추구 d) 계산 복잡도

정답: c) 직교성 vs 독립성 추구
'트랜스포머(Transformer)' 모델의 핵심 구성 요소는? a) 순환 층(Recurrent Layer) b) 합성곱 층(Convolutional Layer) c) 어텐션 메커니즘(Attention Mechanism) d) 풀링 층(Pooling Layer)

정답: c) 어텐션 메커니즘(Attention Mechanism)
'베이지안 네트워크(Bayesian Network)'의 주요 특징은? a) 순환 구조를 허용함 b) 확률적 추론이 가능함 c) 항상 완전 연결 그래프 형태임 d) 시계열 데이터에만 적용 가능함

정답: b) 확률적 추론이 가능함
'쿼드트리(Quadtree)'가 주로 사용되는 분야는? a) 자연어 처리 b) 시계열 분석 c) 공간 데이터 인덱싱 d) 음성 인식

정답: c) 공간 데이터 인덱싱
'커널 밀도 추정(Kernel Density Estimation)'의 주요 목적은? a) 분류 b) 회귀 c) 확률 밀도 함수 추정 d) 특징 선택

정답: c) 확률 밀도 함수 추정
'데이터 마트(Data Mart)'의 주요 특징은 무엇인가? a) 전사적 데이터를 통합하여 저장 b) 특정 부서나 기능에 최적화된 소규모 데이터 웨어하우스 c) 실시간 트랜잭션 처리에 최적화 d) 비정형 데이터 저장에 특화

정답: b) 특정 부서나 기능에 최적화된 소규모 데이터 웨어하우스
'ETL 프로세스'에서 'T'는 무엇을 의미하는가? a) Transfer b) Transport c) Transform d) Translate

정답: c) Transform
'데이터 품질(Data Quality)'의 주요 차원이 아닌 것은? a) 정확성 b) 일관성 c) 완전성 d) 가변성

정답: d) 가변성
'빅데이터의 3V' 중 'Variety'가 의미하는 것은? a) 데이터의 규모 b) 데이터의 다양성 c) 데이터의 속도 d) 데이터의 가치

정답: b) 데이터의 다양성
'데이터 거버넌스(Data Governance)'의 주요 목적이 아닌 것은? a) 데이터 품질 향상 b) 데이터 보안 강화 c) 데이터 활용 촉진 d) 데이터 생성량 증가

정답: d) 데이터 생성량 증가
'데이터 웨어하우스(Data Warehouse)'와 '운영 데이터베이스(Operational Database)'의 주요 차이점은? a) 데이터 갱신 빈도 b) 데이터 저장 용량 c) 사용하는 DBMS 종류 d) 데이터 보안 수준

정답: a) 데이터 갱신 빈도
'데이터 마이닝(Data Mining)'에서 사용되는 '연관 규칙(Association Rule)' 분석의 주요 지표가 아닌 것은? a) 지지도(Support) b) 신뢰도(Confidence) c) 향상도(Lift) d) 정확도(Accuracy)

정답: d) 정확도(Accuracy)
'빅데이터 분석'에서 말하는 '3V+1C' 중 '1C'가 의미하는 것은? a) Cost b) Complexity c) Consistency d) Complexity

정답: d) Complexity
'데이터 레이크(Data Lake)'의 특징으로 올바르지 않은 것은? a) 구조화, 반구조화, 비구조화된 데이터를 모두 저장할 수 있다 b) 스키마-온-라이트(Schema-on-Write) 방식을 사용한다 c) 데이터의 원본을 그대로 저장한다 d) 다양한 분석 목적에 활용될 수 있다

정답: b) 스키마-온-라이트(Schema-on-Write) 방식을 사용한다
'데이터 분석 프로세스'에서 'CRISP-DM' 방법론의 단계가 아닌 것은? a) 비즈니스 이해 b) 데이터 이해 c) 데이터 준비 d) 데이터 시각화

정답: d) 데이터 시각화
'텍스트 마이닝(Text Mining)'에서 사용되는 '불용어(Stop Words)' 처리의 주요 목적은? a) 텍스트의 길이를 늘리기 위해 b) 분석에 불필요한 단어를 제거하여 효율성을 높이기 위해 c) 문법적 오류를 수정하기 위해 d) 텍스트의 감성을 분석하기 위해

정답: b) 분석에 불필요한 단어를 제거하여 효율성을 높이기 위해
'데이터 분석'에서 '과적합(Overfitting)' 문제를 해결하기 위한 방법이 아닌 것은? a) 교차 검증(Cross Validation) 사용 b) 정규화(Regularization) 적용 c) 데이터 양 줄이기 d) 앙상블(Ensemble) 기법 사용

정답: c) 데이터 양 줄이기
'데이터 시각화(Data Visualization)'에서 연속형 변수의 분포를 표현하기에 적합한 그래프는? a) 원 그래프 b) 막대 그래프 c) 히스토그램 d) 산점도

정답: c) 히스토그램
'데이터 분석에서 사용되는 '로그 변환(Log Transformation)'의 주요 목적은? a) 데이터의 스케일을 줄이고 정규성을 향상시키기 위해 b) 데이터의 분산을 증가시키기 위해 c) 데이터의 선형성을 감소시키기 위해 d) 데이터의 이상치를 제거하기 위해

정답: a) 데이터의 스케일을 줄이고 정규성을 향상시키기 위해
'데이터 마이닝에서 '의사결정 트리(Decision Tree)' 알고리즘의 장점이 아닌 것은? a) 결과 해석이 용이하다 b) 수치형과 범주형 변수를 모두 처리할 수 있다 c) 비선형 관계도 모델링할 수 있다 d) 항상 전역 최적해를 찾는다

정답: d) 항상 전역 최적해를 찾는다
'OLAP(Online Analytical Processing)'의 주요 연산이 아닌 것은? a) Roll-up b) Drill-down c) Slice and Dice d) Normalize

정답: d) Normalize
'데이터 분석에서 '상관 분석(Correlation Analysis)'과 '인과 분석(Causal Analysis)'의 차이점으로 올바른 것은? a) 상관 분석은 두 변수 간의 관계만을, 인과 분석은 여러 변수 간의 관계를 분석한다 b) 상관 분석은 선형 관계만을, 인과 분석은 비선형 관계도 분석할 수 있다 c) 상관 분석은 관계의 강도를, 인과 분석은 영향의 방향성을 파악한다 d) 상관 분석은 범주형 변수에, 인과 분석은 연속형 변수에만 적용 가능하다

정답: c) 상관 분석은 관계의 강도를, 인과 분석은 영향의 방향성을 파악한다
'빅데이터 처리를 위한 '하둡(Hadoop)' 프레임워크의 핵심 구성 요소가 아닌 것은? a) HDFS (Hadoop Distributed File System) b) MapReduce c) YARN (Yet Another Resource Negotiator) d) SQL

정답: d) SQL
'데이터 분석에서 '주성분 분석(PCA)'의 주요 목적은? a) 데이터의 분류 b) 데이터의 군집화 c) 차원 축소 d) 이상치 탐지

정답: c) 차원 축소
'데이터 마이닝에서 '서포트 벡터 머신(SVM)'의 핵심 아이디어는? a) 결정 경계의 마진을 최대화하는 것 b) 트리 구조를 이용해 데이터를 분류하는 것 c) 뉴런의 활성화 함수를 모방하는 것 d) 확률적 생성 모델을 만드는 것

정답: a) 결정 경계의 마진을 최대화하는 것
'데이터 분석 프로젝트에서 '탐색적 데이터 분석(EDA)'의 역할로 적절하지 않은 것은? a) 데이터의 기본적인 특성 파악 b) 이상치나 결측치 발견 c) 변수 간 관계 탐색 d) 최종 모델 선택

정답: d) 최종 모델 선택
'시계열 데이터 분석에서 'ARIMA' 모델의 'I'가 의미하는 것은? a) Independent b) Integrated c) Iterative d) Inverse

정답: b) Integrated
'데이터 분석에서 '교차 검증(Cross-validation)'을 사용하는 주요 목적은? a) 모델의 과적합 방지 b) 데이터의 정규화 c) 특징 선택 d) 결측치 처리

정답: a) 모델의 과적합 방지
'데이터 분석에서 '로지스틱 회귀(Logistic Regression)'의 주요 특징으로 올바르지 않은 것은? a) 이진 분류 문제에 주로 사용된다 b) 종속 변수의 로그 오즈(log odds)를 모델링한다 c) 최대 우도 추정법을 사용하여 파라미터를 추정한다 d) 항상 선형 결정 경계를 만든다

정답: d) 항상 선형 결정 경계를 만든다
'텍스트 마이닝에서 'TF-IDF(Term Frequency-Inverse Document Frequency)'가 측정하는 것은? a) 문서 내 단어의 빈도 b) 전체 문서 집합에서 특정 단어의 중요도 c) 문장의 길이 d) 문서의 주제

정답: b) 전체 문서 집합에서 특정 단어의 중요도
'데이터 분석에서 '앙상블 학습(Ensemble Learning)' 방법 중 '랜덤 포레스트(Random Forest)'의 특징으로 올바르지 않은 것은? a) 여러 개의 의사결정 트리를 사용한다 b) 배깅(Bagging) 방식을 활용한다 c) 특징 선택 시 무작위성을 도입한다 d) 항상 선형 모델보다 성능이 우수하다

정답: d) 항상 선형 모델보다 성능이 우수하다
'데이터 마이닝에서 '클러스터링(Clustering)' 알고리즘의 평가 지표로 적절하지 않은 것은? a) 실루엣 계수(Silhouette Coefficient) b) 데이비스-볼딘 지수(Davies-Bouldin Index) c) 칼린스키-하라바스 지수(Calinski-Harabasz Index) d) F1 점수(F1 Score)

정답: d) F1 점수(F1 Score)
'빅데이터 처리를 위한 '스파크(Spark)'의 주요 특징으로 올바르지 않은 것은? a) 인메모리 처리를 지원한다 b) 배치 처리와 실시간 처리를 모두 지원한다 c) 다양한 프로그래밍 언어 인터페이스를 제공한다 d) 관계형 데이터베이스 관리에 최적화되어 있다

정답: d) 관계형 데이터베이스 관리에 최적화되어 있다
'데이터 분석에서 '교차 엔트로피(Cross-Entropy)'가 주로 사용되는 상황은? a) 회귀 문제의 손실 함수로 b) 분류 문제의 손실 함수로 c) 클러스터링의 평가 지표로 d) 차원 축소의 목적 함수로

정답: b) 분류 문제의 손실 함수로
'데이터 웨어하우스 설계에서 '스타 스키마(Star Schema)'의 특징으로 올바르지 않은 것은? a) 중앙에 사실 테이블(Fact Table)이 위치한다 b) 차원 테이블(Dimension Table)들이 사실 테이블을 둘러싼다 c) 높은 수준의 정규화를 유지한다 d) 쿼리 성능이 일반적으로 우수하다

정답: c) 높은 수준의 정규화를 유지한다
'데이터 분석에서 '그래디언트 부스팅(Gradient Boosting)' 알고리즘의 특징으로 올바르지 않은 것은? a) 약한 학습기를 순차적으로 학습시킨다 b) 이전 모델의 오차를 보완하는 방식으로 학습한다 c) 일반적으로 의사결정 트리를 기본 학습기로 사용한다 d) 항상 랜덤 포레스트보다 빠른 학습 속도를 보인다

정답: d) 항상 랜덤 포레스트보다 빠른 학습 속도를 보인다
'데이터 마이닝에서 '연관 규칙 분석(Association Rule Analysis)'의 지표 중 '신뢰도(Confidence)'가 의미하는 것은? a) 전체 거래 중 특정 항목 조합이 포함된 비율 b) 항목 A를 포함한 거래 중 항목 B도 포함된 비율 c) 규칙이 우연히 발생할 가능성 대비 실제 발생 비율 d) 두 항목 간의 독립성 정도

정답: b) 항목 A를 포함한 거래 중 항목 B도 포함된 비율
'시계열 데이터 분석에서 '계절성(Seasonality)'이란? a) 시간에 따라 일정한 주기로 반복되는 패턴 b) 시간에 따른 전반적인 증가 또는 감소 추세 c) 예측할 수 없는 불규칙한 변동 d) 특정 사건으로 인한 일시적인 변화

정답: a) 시간에 따라 일정한 주기로 반복되는 패턴
'데이터 분석에서 'Ridge 회귀'와 'Lasso 회귀'의 주요 차이점은? a) Ridge는 L2 정규화를, Lasso는 L1 정규화를 사용한다 b) Ridge는 변수 선택이 가능하고, Lasso는 불가능하다 c) Ridge는 선형 모델에만 적용 가능하고, Lasso는 비선형 모델에도 적용 가능하다 d) Ridge는 과적합 방지에 효과적이고, Lasso는 그렇지 않다

정답: a) Ridge는 L2 정규화를, Lasso는 L1 정규화를 사용한다
'텍스트 마이닝에서 '토픽 모델링(Topic Modeling)'의 대표적인 알고리즘인 'LDA(Latent Dirichlet Allocation)'의 특징으로 올바르지 않은 것은? a) 문서를 토픽들의 확률적 혼합으로 표현한다 b) 비지도 학습 방법이다 c) 각 단어가 하나의 토픽에만 속한다고 가정한다 d) 문서 집합에서 잠재적인 주제를 발견하는 데 사용된다

정답: c) 각 단어가 하나의 토픽에만 속한다고 가정한다
'데이터 분석에서 '주성분 분석(PCA)'과 '요인 분석(Factor Analysis)'의 주요 차이점은? a) PCA는 차원 축소가 목적이고, 요인 분석은 잠재 변수 발견이 목적이다 b) PCA는 비지도 학습이고, 요인 분석은 지도 학습이다 c) PCA는 선형 변환만 가능하고, 요인 분석은 비선형 변환도 가능하다 d) PCA는 정규화된 데이터에만 적용 가능하고, 요인 분석은 그렇지 않다

정답: a) PCA는 차원 축소가 목적이고, 요인 분석은 잠재 변수 발견이 목적이다
'데이터 마이닝에서 'K-평균 군집화(K-means Clustering)' 알고리즘의 한계점으로 올바르지 않은 것은? a) 초기 중심점 선택에 따라 결과가 달라질 수 있다 b) 군집의 개수(K)를 사전에 지정해야 한다 c) 이상치에 민감하다 d) 범주형 변수를 직접 처리할 수 있다

정답: d) 범주형 변수를 직접 처리할 수 있다
'빅데이터 분석에서 '맵리듀스(MapReduce)' 프로그래밍 모델의 주요 단계가 아닌 것은? a) Map b) Shuffle c) Reduce d) Normalize

정답: d) Normalize
'데이터 분석에서 'ROC 곡선(Receiver Operating Characteristic curve)'이 나타내는 것은? a) 모델의 학습 속도 b) 특징의 중요도 c) 분류 모델의 성능 d) 클러스터의 품질

정답: c) 분류 모델의 성능
'데이터 웨어하우스에서 'ETL' 프로세스의 'Transform' 단계에서 수행되는 작업이 아닌 것은? a) 데이터 정제 b) 데이터 통합 c) 데이터 변환 d) 데이터 백업

정답: d) 데이터 백업
'데이터 분석에서 '교차 검증(Cross-validation)'의 한 방법인 'k-fold 교차 검증'의 특징으로 올바르지 않은 것은? a) 데이터를 k개의 부분집합으로 나눈다 b) k-1개의 부분집합으로 학습하고 나머지 1개로 검증한다 c) 이 과정을 k번 반복한다 d) k값이 클수록 항상 더 정확한 결과를 얻는다

정답: d) k값이 클수록 항상 더 정확한 결과를 얻는다
'텍스트 마이닝에서 '워드 임베딩(Word Embedding)'의 목적으로 가장 적절한 것은? a) 문서의 주제 분류 b) 단어의 빈도 계산 c) 단어를 벡터 공간에 표현 d) 문장의 감성 분석

정답: c) 단어를 벡터 공간에 표현
'데이터 분석에서 '앙상블 학습(Ensemble Learning)' 방법 중 '스태킹(Stacking)'의 특징으로 올바른 것은? a) 여러 모델의 예측 결과를 새로운 학습 데이터로 사용한다 b) 가중치를 무작위로 부여하여 여러 모델을 결합한다 c) 항상 동일한 종류의 모델만을 사용한다 d) 오차가 큰 샘플에 더 큰 가중치를 부여한다

정답: a) 여러 모델의 예측 결과를 새로운 학습 데이터로 사용한다
'데이터베이스에서 'ACID' 속성 중 'Isolation'이 의미하는 것은? a) 트랜잭션의 부분적 실행을 방지 b) 동시에 실행되는 트랜잭션 간의 독립성 보장 c) 시스템 장애 발생 시 일관성 있는 상태로 복구 d) 트랜잭션 실행 전후의 데이터베이스 일관성 유지

정답: b) 동시에 실행되는 트랜잭션 간의 독립성 보장
'데이터 분석에서 '편향-분산 트레이드오프(Bias-Variance Tradeoff)'와 관련하여 올바르지 않은 것은? a) 모델의 복잡도가 증가할수록 일반적으로 편향은 감소하고 분산은 증가한다 b) 과적합된 모델은 높은 편향과 낮은 분산을 보인다 c) 과소적합된 모델은 높은 편향과 낮은 분산을 보인다 d) 최적의 모델은 편향과 분산 사이의 균형을 찾는 것이다

정답: b) 과적합된 모델은 높은 편향과 낮은 분산을 보인다
'데이터 마이닝에서 '의사결정 트리(Decision Tree)' 알고리즘의 분할 기준으로 사용되지 않는 것은? a) 지니 불순도(Gini Impurity) b) 정보 이득(Information Gain) c) 카이제곱 통계량(Chi-square Statistic) d) 피어슨 상관계수(Pearson Correlation Coefficient)

정답: d) 피어슨 상관계수(Pearson Correlation Coefficient)
'시계열 데이터 분석에서 'SARIMA' 모델의 'S'가 나타내는 것은? a) Seasonal (계절성) b) Standard (표준) c) Smooth (평활) d) Stochastic (확률적)

정답: a) Seasonal (계절성)
'데이터 분석에서 '정규화(Normalization)'와 '표준화(Standardization)'의 차이점으로 올바른 것은? a) 정규화는 데이터를 특정 범위로 변환하고, 표준화는 평균 0, 분산 1로 변환한다 b) 정규화는 이상치에 민감하지 않고, 표준화는 이상치에 민감하다 c) 정규화는 선형 변환이고, 표준화는 비선형 변환이다 d) 정규화는 범주형 변수에만 적용 가능하고, 표준화는 연속형 변수에만 적용 가능하다

정답: a) 정규화는 데이터를 특정 범위로 변환하고, 표준화는 평균 0, 분산 1로 변환한다
'빅데이터 처리를 위한 '하둡(Hadoop)' 생태계의 구성 요소가 아닌 것은? a) Hive b) Pig c) Spark d) jQuery

정답: d) jQuery
'데이터 분석에서 '혼동 행렬(Confusion Matrix)'을 통해 계산할 수 없는 지표는? a) 정확도(Accuracy) b) 정밀도(Precision) c) 재현율(Recall) d) R-제곱(R-squared)

정답: d) R-제곱(R-squared)
'데이터 마이닝에서 '서포트 벡터 머신(SVM)'의 특징으로 올바르지 않은 것은? a) 커널 트릭을 이용해 비선형 분류가 가능하다 b) 마진을 최대화하는 결정 경계를 찾는다 c) 이상치에 상대적으로 덜 민감하다 d) 항상 다른 분류 알고리즘보다 높은 성능을 보인다

정답: d) 항상 다른 분류 알고리즘보다 높은 성능을 보인다
'데이터 분석에서 '엘보우 방법(Elbow Method)'이 주로 사용되는 목적은? a) 주성분 분석의 차원 수 결정 b) K-평균 군집화의 최적 군집 수 결정 c) 회귀 분석의 유의 변수 선택 d) 신경망의 은닉층 개수 결정

정답: b) K-평균 군집화의 최적 군집 수 결정
'텍스트 마이닝에서 'n-gram' 기법이 의미하는 것은? a) n개의 연속된 단어 시퀀스 b) 문서 내 상위 n개의 중요 단어 c) n차원 벡터로 표현된 단어 d) n개의 주제로 문서를 분류하는 방법

정답: a) n개의 연속된 단어 시퀀스
'데이터 분석에서 '오버샘플링(Oversampling)'과 '언더샘플링(Undersampling)'이 주로 해결하고자 하는 문제는? a) 차원의 저주 b) 클래스 불균형 c) 다중공선성 d) 과적합

정답: b) 클래스 불균형
'데이터 웨어하우스의 특징으로 올바르지 않은 것은? a) 주제 중심적(Subject-oriented) b) 통합된(Integrated) c) 시간 가변적(Time-variant) d) 실시간 업데이트(Real-time updated)

정답: d) 실시간 업데이트(Real-time updated)
'데이터 분석에서 '배깅(Bagging)'과 '부스팅(Boosting)'의 차이점으로 올바른 것은? a) 배깅은 병렬 학습, 부스팅은 순차 학습을 수행한다 b) 배깅은 분류 문제에만, 부스팅은 회귀 문제에만 사용된다 c) 배깅은 오차에 가중치를 부여하고, 부스팅은 그렇지 않다 d) 배깅은 과적합에 취약하고, 부스팅은 과소적합에 취약하다

정답: a) 배깅은 병렬 학습, 부스팅은 순차 학습을 수행한다
'시계열 데이터 분석에서 '자기상관함수(ACF)'와 '편자기상관함수(PACF)'의 주요 용도는? a) 시계열의 정상성 판단 b) ARIMA 모델의 차수(p, q) 결정 c) 시계열의 계절성 탐지 d) 시계열 데이터의 결측치 보간

정답: b) ARIMA 모델의 차수(p, q) 결정
'데이터 마이닝에서 '연관 규칙 분석'의 '향상도(Lift)' 지표가 1보다 큰 경우의 의미는? a) 두 아이템이 독립적으로 구매된다 b) 두 아이템이 음의 상관관계를 가진다 c) 두 아이템이 양의 상관관계를 가진다 d) 두 아이템 사이에 인과관계가 있다

정답: c) 두 아이템이 양의 상관관계를 가진다
'데이터 분석에서 '차원의 저주(Curse of Dimensionality)'와 관련하여 올바르지 않은 것은? a) 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가한다 b) 고차원 공간에서는 모든 점들이 서로 가까워지는 경향이 있다 c) 차원이 증가할수록 모델의 복잡도가 항상 감소한다 d) 차원 축소 기법을 통해 이 문제를 완화할 수 있다

정답: c) 차원이 증가할수록 모델의 복잡도가 항상 감소한다
'데이터베이스에서 'ACID' 속성 중 'Durability'가 의미하는 것은? a) 트랜잭션의 부분적 실행 방지 b) 트랜잭션 실행 전후의 데이터베이스 일관성 유지 c) 동시 실행되는 트랜잭션 간의 독립성 보장 d) 완료된 트랜잭션의 결과가 영구적으로 반영됨

정답: d) 완료된 트랜잭션의 결과가 영구적으로 반영됨
'데이터 마이닝에서 '나이브 베이즈(Naive Bayes)' 분류기의 '나이브(Naive)'가 의미하는 가정은? a) 모든 특성이 동등하게 중요하다 b) 특성들 간에 독립성이 있다 c) 데이터가 정규 분포를 따른다 d) 클래스 간 분포가 균형을 이룬다

정답: b) 특성들 간에 독립성이 있다
'데이터 분석에서 'AUC-ROC' 곡선이 나타내는 것은? a) 모델의 학습 속도 b) 특성의 중요도 c) 분류 모델의 성능 d) 군집화의 품질

정답: c) 분류 모델의 성능
'빅데이터 처리에서 'CAP 이론'의 세 가지 요소가 아닌 것은? a) Consistency (일관성) b) Availability (가용성) c) Partition Tolerance (분할 내성) d) Performance (성능)

정답: d) Performance (성능)
'데이터 분석에서 '릿지 회귀(Ridge Regression)'가 주로 해결하고자 하는 문제는? a) 과적합 b) 결측치 c) 이상치 d) 클래스 불균형

정답: a) 과적합
'텍스트 마이닝에서 'LDA(Latent Dirichlet Allocation)' 모델의 주요 목적은? a) 감성 분석 b) 개체명 인식 c) 토픽 모델링 d) 기계 번역

정답: c) 토픽 모델링
'데이터 분석에서 '교차 검증(Cross-validation)'의 주요 목적은? a) 모델의 일반화 성능 평가 b) 특성 선택 c) 이상치 탐지 d) 데이터 정규화

정답: a) 모델의 일반화 성능 평가
'시계열 데이터 분석에서 '정상성(Stationarity)'의 의미로 가장 적절한 것은? a) 데이터에 결측치가 없는 상태 b) 시간에 따라 통계적 특성이 일정한 상태 c) 데이터가 선형 추세를 보이는 상태 d) 계절성이 제거된 상태

정답: b) 시간에 따라 통계적 특성이 일정한 상태
'데이터 마이닝에서 '랜덤 포레스트(Random Forest)' 알고리즘의 특징이 아닌 것은? a) 배깅(Bagging)을 사용한다 b) 여러 개의 의사결정 트리로 구성된다 c) 특성 선택 시 무작위성을 도입한다 d) 가중치 업데이트를 통해 순차적으로 학습한다

정답: d) 가중치 업데이트를 통해 순차적으로 학습한다
'데이터 분석에서 '과적합(Overfitting)'을 방지하기 위한 방법이 아닌 것은? a) 정규화(Regularization) 적용 b) 교차 검증(Cross-validation) 사용 c) 데이터 증강(Data augmentation) d) 특성의 수 최대화

정답: d) 특성의 수 최대화
'데이터 웨어하우스의 '스타 스키마(Star Schema)'에 대한 설명으로 올바르지 않은 것은? a) 중앙에 사실 테이블(Fact table)이 위치한다 b) 차원 테이블(Dimension table)이 사실 테이블을 둘러싼다 c) 정규화 수준이 높다 d) 쿼리 성능이 일반적으로 우수하다

정답: c) 정규화 수준이 높다
'데이터 분석에서 '주성분 분석(PCA)'의 주요 목적은? a) 데이터의 분류 b) 차원 축소 c) 이상치 탐지 d) 시계열 예측

정답: b) 차원 축소
'빅데이터 처리 기술 중 '하둡(Hadoop)'의 주요 구성요소가 아닌 것은? a) HDFS (Hadoop Distributed File System) b) MapReduce c) YARN (Yet Another Resource Negotiator) d) SQL

정답: d) SQL
'데이터 마이닝에서 '서포트 벡터 머신(SVM)'의 핵심 아이디어는? a) 결정 경계의 마진을 최대화하는 것 b) 트리 구조를 이용해 데이터를 분류하는 것 c) 확률적 생성 모델을 만드는 것 d) 뉴런의 활성화 함수를 모방하는 것

정답: a) 결정 경계의 마진을 최대화하는 것
'텍스트 마이닝에서 'TF-IDF'가 측정하는 것은? a) 문서 내 단어의 빈도 b) 전체 문서 집합에서 특정 단어의 중요도 c) 문장의 길이 d) 문서의 주제

정답: b) 전체 문서 집합에서 특정 단어의 중요도
'데이터 분석에서 '로지스틱 회귀(Logistic Regression)'가 주로 사용되는 문제 유형은? a) 연속형 변수 예측 b) 이진 분류 c) 다중 회귀 d) 군집화

정답: b) 이진 분류
'데이터 분석에서 '앙상블 학습(Ensemble Learning)'의 방법이 아닌 것은? a) 배깅(Bagging) b) 부스팅(Boosting) c) 스태킹(Stacking) d) 정규화(Regularization)

정답: d) 정규화(Regularization)
'시계열 데이터 분석에서 'ARIMA' 모델의 'MA'가 의미하는 것은? a) Moving Average b) Maximum Amplitude c) Median Analysis d) Multiple Alignment

정답: a) Moving Average
'데이터 마이닝에서 '연관 규칙 분석'의 '지지도(Support)' 지표가 의미하는 것은? a) 항목 A를 포함한 거래 중 항목 B도 포함된 비율 b) 전체 거래 중 항목 A와 B를 동시에 포함한 거래의 비율 c) 항목 A와 B가 동시에 발생할 확률과 개별적으로 발생할 확률의 비 d) 항목 A를 구매한 고객이 항목 B도 구매할 확률

정답: b) 전체 거래 중 항목 A와 B를 동시에 포함한 거래의 비율
'데이터베이스에서 'OLAP(Online Analytical Processing)'의 주요 특징이 아닌 것은? a) 다차원 데이터 분석 b) 실시간 트랜잭션 처리 c) 대규모 데이터 요약 d) 의사 결정 지원

정답: b) 실시간 트랜잭션 처리
'데이터 분석에서 '편향-분산 트레이드오프(Bias-Variance Tradeoff)'와 관련하여 올바른 것은? a) 모델의 복잡도가 증가할수록 편향은 감소하고 분산은 증가하는 경향이 있다 b) 편향과 분산은 항상 반비례 관계에 있다 c) 과적합된 모델은 높은 편향과 낮은 분산을 보인다 d) 과소적합된 모델은 낮은 편향과 높은 분산을 보인다

정답: a) 모델의 복잡도가 증가할수록 편향은 감소하고 분산은 증가하는 경향이 있다
'데이터 마이닝에서 '의사결정 트리(Decision Tree)' 알고리즘의 장점이 아닌 것은? a) 결과 해석이 용이하다 b) 수치형과 범주형 변수를 모두 처리할 수 있다 c) 비선형 관계도 모델링할 수 있다 d) 항상 전역 최적해를 찾는다

정답: d) 항상 전역 최적해를 찾는다
'텍스트 마이닝에서 '워드 임베딩(Word Embedding)'의 대표적인 알고리즘은? a) K-means b) Word2Vec c) Apriori d) DBSCAN

정답: b) Word2Vec
'데이터 분석에서 '교차 엔트로피(Cross-Entropy)'가 주로 사용되는 상황은? a) 회귀 문제의 손실 함수 b) 분류 문제의 손실 함수 c) 클러스터링의 평가 지표 d) 특성 선택의 기준

정답: b) 분류 문제의 손실 함수
'빅데이터 분석에서 '스파크(Spark)'의 주요 특징이 아닌 것은? a) 인메모리 처리 b) 배치 처리와 실시간 처리 지원 c) 다양한 프로그래밍 언어 인터페이스 제공 d) 관계형 데이터베이스 관리 시스템

정답: d) 관계형 데이터베이스 관리 시스템
'데이터 분석에서 '혼동 행렬(Confusion Matrix)'을 통해 계산할 수 있는 지표가 아닌 것은? a) 정밀도(Precision) b) 재현율(Recall) c) F1 점수 d) R-제곱(R-squared)

정답: d) R-제곱(R-squared)

2024년 ADSP 학습 자료

Sat, 29 Jun 2024 19:11:29 GMT

ADSP (데이터 분석 준전문가) 학습자료

1. 데이터의 이해

1.1 데이터와 정보

1.1.1 데이터의 정의

데이터는 현실 세계에서 관찰이나 측정을 통해 수집된 사실이나 값을 의미합니다. 데이터는 가공되지 않은 상태의 순수한 숫자나 기호를 말합니다.

1.1.2 정보의 정의

정보는 데이터를 의미 있는 형태로 가공하여 유용한 상태로 만든 것을 말합니다. 정보는 의사결정에 직접적으로 활용될 수 있는 형태입니다.

1.1.3 데이터와 정보의 관계

데이터 → 처리 → 정보
정보 = 데이터 + 의미

1.2 빅데이터의 이해

1.2.1 빅데이터의 정의

빅데이터는 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합을 의미합니다.

1.2.2 빅데이터의 특성 (3V)

Volume (규모) : 데이터의 양
Velocity (속도) : 데이터 처리 속도
Variety (다양성) : 데이터 종류의 다양성

1.2.3 빅데이터의 가치와 영향

비즈니스 모델 혁신
의사결정 최적화
고객 경험 개선
운영 효율성 향상

1.3 데이터베이스의 이해

1.3.1 데이터베이스의 정의

데이터베이스는 체계적으로 구조화되어 저장된 데이터의 집합을 의미합니다.

1.3.2 DBMS (Database Management System)

DBMS는 데이터베이스를 관리하고 운영하는 소프트웨어 시스템입니다.

1.3.3 데이터베이스의 특징

실시간 접근성
계속적인 변화
동시 공유
내용에 의한 참조

1.4 데이터 웨어하우스

1.4.1 데이터 웨어하우스의 정의

데이터 웨어하우스는 기업의 의사결정을 지원하기 위해 데이터를 체계적으로 통합하여 저장한 데이터베이스입니다.

1.4.2 데이터 웨어하우스의 특징

주제 지향적
통합된 데이터
시계열적 데이터
비휘발성

1.4.3 데이터 마트

데이터 마트는 데이터 웨어하우스의 부분집합으로, 특정 부서나 업무를 위한 소규모 데이터 웨어하우스입니다.

2. 데이터 분석 기획

2.1 분석 방법론

2.1.1 CRISP-DM (Cross-Industry Standard Process for Data Mining)

비즈니스 이해
데이터 이해
데이터 준비
모델링
평가
전개

2.1.2 KDD (Knowledge Discovery in Databases)

선택 (Selection)
전처리 (Preprocessing)
변환 (Transformation)
데이터 마이닝 (Data Mining)
해석/평가 (Interpretation/Evaluation)

2.2 분석 과제 정의

2.2.1 분석 과제 도출 프로세스

비즈니스 이해
데이터 이해
분석 과제 정의
프로젝트 계획 수립

2.2.2 분석 과제 정의서 작성

과제명
배경 및 목적
기대효과
분석 방법
필요 데이터
수행 일정

2.3 분석 프로젝트 관리

2.3.1 프로젝트 관리 영역

범위 관리
일정 관리
원가 관리
품질 관리
인적 자원 관리
의사소통 관리
리스크 관리
조달 관리

2.3.2 분석 프로젝트 위험 관리

위험 식별
위험 평가
위험 대응 계획 수립
위험 모니터링 및 통제

2.4 데이터 분석 거버넌스

2.4.1 데이터 거버넌스의 정의

데이터 거버넌스는 조직 내 데이터의 가용성, 유용성, 무결성, 보안성을 관리하기 위한 정책, 절차, 표준을 수립하고 실행하는 체계입니다.

2.4.2 데이터 거버넌스의 주요 영역

데이터 아키텍처 관리
데이터 품질 관리
메타데이터 관리
데이터 보안 및 프라이버시 관리

3. 데이터 분석

3.1 통계 분석 기초

3.1.1 기술통계

중심경향치 (평균, 중앙값, 최빈값)
산포도 (분산, 표준편차, 범위)
분포 (정규분포, 이항분포, 포아송분포)

3.1.2 추론통계

가설검정
신뢰구간
회귀분석
분산분석 (ANOVA)

3.2 데이터 마이닝

3.2.1 분류 (Classification)

의사결정나무
로지스틱 회귀
서포트 벡터 머신 (SVM)
나이브 베이즈

3.2.2 군집 (Clustering)

K-평균 군집화
계층적 군집화
DBSCAN

3.2.3 연관규칙 (Association Rules)

Apriori 알고리즘
FP-Growth 알고리즘

3.3 텍스트 마이닝

3.3.1 자연어 처리 (NLP)

형태소 분석
품사 태깅
개체명 인식

3.3.2 감성 분석

긍정/부정 분류
감성 사전 구축

3.3.3 토픽 모델링

LDA (Latent Dirichlet Allocation)
LSA (Latent Semantic Analysis)

3.4 소셜 네트워크 분석

3.4.1 중심성 분석

연결 중심성
근접 중심성
매개 중심성
아이겐벡터 중심성

3.4.2 커뮤니티 탐지

모듈성 기반 알고리즘
클릭 탐지 알고리즘

3.5 시계열 분석

3.5.1 시계열 구성요소

추세 (Trend)
계절성 (Seasonality)
주기성 (Cyclical)
불규칙성 (Irregular)

3.5.2 시계열 모델

ARIMA (Autoregressive Integrated Moving Average)
지수평활법
프로펫 (Prophet)

3.6 머신러닝과 딥러닝

3.6.1 지도학습

선형 회귀
로지스틱 회귀
결정 트리
랜덤 포레스트
그래디언트 부스팅

3.6.2 비지도학습

주성분 분석 (PCA)
K-평균 군집화
DBSCAN

3.6.3 딥러닝

인공신경망 (ANN)
합성곱 신경망 (CNN)
순환 신경망 (RNN)
LSTM (Long Short-Term Memory)

4. AI 예상문제 200문제

빅데이터의 3V 중 'Volume'이 의미하는 바는 무엇인가? a) 데이터의 다양성 b) 데이터의 속도 c) 데이터의 양 d) 데이터의 가치

정답: c) 데이터의 양
다음 중 CRISP-DM 방법론의 단계가 아닌 것은? a) 비즈니스 이해 b) 데이터 이해 c) 데이터 시각화 d) 모델링

정답: c) 데이터 시각화
데이터 웨어하우스의 특징이 아닌 것은? a) 주제 지향적 b) 통합된 데이터 c) 휘발성 d) 시계열적 데이터

정답: c) 휘발성
다음 중 비지도 학습 방법은? a) 로지스틱 회귀 b) K-평균 군집화 c) 서포트 벡터 머신 d) 의사결정나무

정답: b) K-평균 군집화
텍스트 마이닝에서 문서의 주제를 추출하는 기법은? a) 감성 분석 b) 개체명 인식 c) 토픽 모델링 d) 형태소 분석

정답: c) 토픽 모델링
소셜 네트워크 분석에서 노드 간 최단 경로의 수에 기반한 중심성 지표는? a) 연결 중심성 b) 근접 중심성 c) 매개 중심성 d) 아이겐벡터 중심성

정답: c) 매개 중심성
시계열 데이터의 구성요소가 아닌 것은? a) 추세 b) 계절성 c) 주기성 d) 선형성

정답: d) 선형성
다음 중 데이터 마이닝의 분류(Classification) 기법이 아닌 것은? a) 의사결정나무 b) 로지스틱 회귀 c) K-평균 군집화 d) 나이브 베이즈

정답: c) K-평균 군집화
데이터 거버넌스의 주요 영역에 해당하지 않는 것은? a) 데이터 아키텍처 관리 b) 데이터 품질 관리 c) 메타데이터 관리 d) 데이터 마케팅 관리

정답: d) 데이터 마케팅 관리
다음 중 딥러닝 모델이 아닌 것은? a) CNN b) RNN c) LSTM d) SVM

정답: d) SVM
데이터의 분산을 최대화하는 방향으로 차원을 축소하는 기법은? a) LDA b) PCA c) SVD d) t-SNE

정답: b) PCA
다음 중 연관규칙 분석의 평가 지표가 아닌 것은? a) 지지도 b) 신뢰도 c) 향상도 d) 정확도

정답: d) 정확도
시계열 분석에서 사용되는 ARIMA 모델에서 'I'가 의미하는 것은? a) Integrated b) Independent c) Iterative d) Inverse

정답: a) Integrated
다음 중 데이터 전처리 과정에 해당하지 않는 것은? a) 결측치 처리 b) 이상치 처리 c) 정규화 d) 회귀분석

정답: d) 회귀분석
머신러닝 모델의 과적합(Overfitting)을 방지하기 위한 방법이 아닌 것은? a) 규제화 (Regularization) b) 교차 검증 (Cross-validation) c) 드롭아웃 (Dropout) d) 데이터 증강 (Data augmentation)

정답: d) 데이터 증강 (Data augmentation)
다음 중 비정형 데이터에 해당하는 것은? a) 고객의 나이 b) 제품의 가격 c) 고객 리뷰 텍스트 d) 거래 날짜

정답: c) 고객 리뷰 텍스트
데이터 분석 프로젝트에서 '스코프 크리프(Scope Creep)'란 무엇인가? a) 프로젝트 범위가 불명확하게 확장되는 현상 b) 데이터의 품질이 저하되는 현상 c) 분석 모델의 성능이 떨어지는 현상 d) 프로젝트 일정이 지연되는 현상

정답: a) 프로젝트 범위가 불명확하게 확장되는 현상
다음 중 데이터 품질의 차원이 아닌 것은? a) 정확성 b) 완전성 c) 일관성 d) 복잡성

정답: d) 복잡성
머신러닝에서 '앙상블(Ensemble)' 기법이란? a) 여러 개의 약한 학습기를 결합하여 강한 학습기를 만드는 방법 b) 데이터를 여러 부분집합으로 나누어 분석하는 방법 c) 하나의 모델을 반복적으로 학습시키는 방법 d) 데이터의 차원을 축소하는 방법

정답: a) 여러 개의 약한 학습기를 결합하여 강한 학습기를 만드는 방법
다음 중 데이터 분석가의 역량으로 가장 적절하지 않은 것은? a) 통계적 사고능력 b) 프로그래밍 능력 c) 비즈니스 이해능력 d) 마케팅 실행능력

정답: d) 마케팅 실행능력
다음 중 데이터 마이닝의 군집화(Clustering) 알고리즘이 아닌 것은? a) K-means b) DBSCAN c) 계층적 군집화 d) 로지스틱 회귀

정답: d) 로지스틱 회귀
빅데이터 분석에서 'Hadoop'의 주요 구성요소가 아닌 것은? a) HDFS b) MapReduce c) YARN d) SQL

정답: d) SQL
다음 중 데이터 시각화 도구가 아닌 것은? a) Tableau b) Power BI c) MongoDB d) Qlik

정답: c) MongoDB
텍스트 마이닝에서 '불용어(Stop words)'란? a) 분석에 중요한 의미를 갖는 단어 b) 분석에서 제외되는 의미 없는 단어 c) 문장의 주제를 나타내는 단어 d) 문장의 감성을 나타내는 단어

정답: b) 분석에서 제외되는 의미 없는 단어
다음 중 시계열 데이터 분석 기법이 아닌 것은? a) 이동평균법 b) 지수평활법 c) ARIMA d) K-Nearest Neighbors

정답: d) K-Nearest Neighbors
데이터 분석에서 '차원의 저주(Curse of Dimensionality)'란? a) 데이터의 차원이 증가할수록 분석의 정확도가 높아지는 현상 b) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상 c) 데이터의 차원이 감소할수록 정보의 손실이 커지는 현상 d) 데이터의 차원이 변경될 때마다 모델을 재학습해야 하는 현상

정답: b) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
다음 중 비즈니스 인텔리전스(BI)의 구성요소가 아닌 것은? a) 데이터 웨어하우스 b) OLAP c) 데이터 마이닝 d) 트랜잭션 처리

정답: d) 트랜잭션 처리
데이터 분석에서 '교차 검증(Cross-validation)'의 목적은? a) 모델의 과적합을 방지하기 위해 b) 데이터의 품질을 향상시키기 위해 c) 분석 속도를 높이기 위해 d) 데이터의 차원을 축소하기 위해

정답: a) 모델의 과적합을 방지하기 위해
다음 중 데이터 마이닝의 '연관규칙(Association Rule)' 분석에서 사용되는 알고리즘은? a) K-means b) Apriori c) SVM d) Naive Bayes

정답: b) Apriori
데이터 분석에서 'ETL'은 무엇의 약자인가? a) Extract, Transform, Load b) Evaluate, Test, Learn c) Explore, Train, Label d) Estimate, Track, Locate

정답: a) Extract, Transform, Load
다음 중 기계학습 모델의 성능 평가 지표가 아닌 것은? a) 정확도 (Accuracy) b) 재현율 (Recall) c) F1 점수 d) 표준편차 (Standard Deviation)

정답: d) 표준편차 (Standard Deviation)
데이터 마이닝에서 '오버샘플링(Oversampling)'과 '언더샘플링(Undersampling)'은 어떤 문제를 해결하기 위한 기법인가? a) 데이터의 차원 축소 b) 클래스 불균형 c) 과적합 d) 결측치 처리

정답: b) 클래스 불균형
다음 중 비정형 데이터 분석 기법이 아닌 것은? a) 텍스트 마이닝 b) 음성 인식 c) 이미지 처리 d) 선형 회귀

정답: d) 선형 회귀
데이터 분석에서 '특이값(Outlier)'을 처리하는 방법으로 적절하지 않은 것은? a) 제거 b) 대체 c) 변환 d) 증폭

정답: d) 증폭
다음 중 데이터 분석 프로젝트의 위험 요인이 아닌 것은? a) 데이터 품질 문제 b) 기술적 한계 c) 자원 부족 d) 분석 결과의 정확성

정답: d) 분석 결과의 정확성
데이터 마이닝에서 '가지치기(Pruning)'의 목적은? a) 데이터의 양을 줄이기 위해 b) 모델의 복잡도를 줄이고 과적합을 방지하기 위해 c) 분석 속도를 높이기 위해 d) 데이터의 품질을 향상시키기 위해

정답: b) 모델의 복잡도를 줄이고 과적합을 방지하기 위해
다음 중 데이터 분석의 CRISP-DM 방법론에서 가장 마지막 단계는? a) 평가 b) 전개 c) 모델링 d) 데이터 준비

정답: b) 전개
텍스트 마이닝에서 '어간 추출(Stemming)'과 '표제어 추출(Lemmatization)'의 주요 목적은? a) 문장의 구조를 분석하기 위해 b) 단어의 기본형을 찾아 단어의 변형을 통일하기 위해 c) 문장의 감성을 분석하기 위해 d) 문장에서 중요한 키워드를 추출하기 위해

정답: b) 단어의 기본형을 찾아 단어의 변형을 통일하기 위해
데이터 분석에서 '앙상블 학습(Ensemble Learning)'의 대표적인 알고리즘이 아닌 것은? a) 랜덤 포레스트 (Random Forest) b) 그래디언트 부스팅 (Gradient Boosting) c) 배깅 (Bagging) d) K-평균 군집화 (K-means Clustering)

정답: d) K-평균 군집화 (K-means Clustering)
다음 중 데이터 분석 결과의 시각화 방법으로 가장 적절하지 않은 것은? a) 막대 그래프 b) 산점도 c) 히트맵 d) 결정 트리

정답: d) 결정 트리
데이터 분석에서 '교차 검증(Cross-validation)'의 주요 목적은? a) 데이터의 품질 향상 b) 모델의 일반화 성능 평가 c) 데이터의 차원 축소 d) 분석 속도 개선

정답: b) 모델의 일반화 성능 평가
다음 중 비지도 학습(Unsupervised Learning) 알고리즘이 아닌 것은? a) K-means 군집화 b) 주성분 분석(PCA) c) 로지스틱 회귀 d) DBSCAN

정답: c) 로지스틱 회귀
데이터 분석에서 'ROC 곡선'이 나타내는 것은? a) 모델의 학습 속도 b) 데이터의 분포 c) 모델의 분류 성능 d) 변수 간의 상관관계

정답: c) 모델의 분류 성능
다음 중 시계열 데이터 분석에 사용되는 기법이 아닌 것은? a) 자기회귀(AR) 모델 b) 이동평균(MA) 모델 c) ARIMA 모델 d) K-최근접 이웃(K-NN) 알고리즘

정답: d) K-최근접 이웃(K-NN) 알고리즘
데이터 마이닝에서 '과적합(Overfitting)'이란? a) 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 현상 b) 모델이 훈련 데이터의 특성을 제대로 학습하지 못한 현상 c) 데이터의 양이 너무 많아 모델의 학습이 불가능한 현상 d) 모델의 복잡도가 너무 낮아 데이터의 특성을 표현하지 못하는 현상

정답: a) 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 현상
다음 중 텍스트 마이닝에서 사용되는 기법이 아닌 것은? a) 감성 분석 b) 토픽 모델링 c) 개체명 인식 d) 주성분 분석(PCA)

정답: d) 주성분 분석(PCA)
데이터 분석에서 '특징 선택(Feature Selection)'의 주요 목적은? a) 데이터의 양을 증가시키기 위해 b) 모델의 복잡도를 높이기 위해 c) 중요한 변수만을 선택하여 모델의 성능을 향상시키기 위해 d) 데이터의 분포를 변경하기 위해

정답: c) 중요한 변수만을 선택하여 모델의 성능을 향상시키기 위해
다음 중 데이터 전처리 과정에 해당하지 않는 것은? a) 결측치 처리 b) 이상치 제거 c) 정규화 d) 모델 평가

정답: d) 모델 평가
데이터 마이닝에서 '연관 규칙(Association Rule)'의 주요 응용 분야는? a) 이미지 분류 b) 장바구니 분석 c) 음성 인식 d) 시계열 예측

정답: b) 장바구니 분석
다음 중 딥러닝(Deep Learning)의 특징이 아닌 것은? a) 다층 신경망 구조 b) 대량의 데이터 필요 c) 특징 추출의 자동화 d) 적은 계산 리소스로 빠른 학습

정답: d) 적은 계산 리소스로 빠른 학습
데이터 분석에서 '차원의 저주(Curse of Dimensionality)'란? a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상 b) 데이터의 차원이 감소할수록 정보의 손실이 증가하는 현상 c) 데이터의 차원이 증가할수록 분석 속도가 빨라지는 현상 d) 데이터의 차원이 감소할수록 모델의 복잡도가 증가하는 현상

정답: a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
다음 중 앙상블 학습(Ensemble Learning) 방법이 아닌 것은? a) 배깅(Bagging) b) 부스팅(Boosting) c) 스태킹(Stacking) d) 클러스터링(Clustering)

정답: d) 클러스터링(Clustering)
데이터 분석에서 'A/B 테스트'의 주요 목적은? a) 데이터의 품질 향상 b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택 c) 모델의 과적합 방지 d) 데이터의 차원 축소

정답: b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택
다음 중 비정형 데이터에 해당하지 않는 것은? a) 텍스트 문서 b) 이미지 파일 c) 음성 녹음 d) 스프레드시트

정답: d) 스프레드시트
데이터 분석에서 '혼동 행렬(Confusion Matrix)'이 제공하는 정보가 아닌 것은? a) 참 양성(True Positive) b) 거짓 음성(False Negative) c) 정밀도(Precision) d) 평균 제곱 오차(Mean Squared Error)

정답: d) 평균 제곱 오차(Mean Squared Error)
다음 중 데이터 분석 프로젝트의 성공 요인이 아닌 것은? a) 명확한 비즈니스 목표 설정 b) 고품질의 데이터 확보 c) 적절한 분석 기법의 선택 d) 최신 하드웨어의 사용

정답: d) 최신 하드웨어의 사용
데이터 마이닝에서 '부트스트래핑(Bootstrapping)'의 주요 목적은? a) 데이터의 양을 증가시키기 위해 b) 모델의 신뢰성을 평가하기 위해 c) 데이터의 차원을 축소하기 위해 d) 모델의 학습 속도를 높이기 위해

정답: b) 모델의 신뢰성을 평가하기 위해
다음 중 데이터 분석에서 '정규화(Normalization)'의 목적이 아닌 것은? a) 변수의 스케일을 통일 b) 모델의 수렴 속도 향상 c) 특정 변수의 영향력 증대 d) 변수 간 비교 가능성 증대

정답: c) 특정 변수의 영향력 증대
데이터 분석에서 '시각화(Visualization)'의 주요 목적이 아닌 것은? a) 데이터의 패턴 발견 b) 복잡한 정보의 간단한 전달 c) 이상치 탐지 d) 데이터의 품질 향상

정답: d) 데이터의 품질 향상
다음 중 데이터 마이닝의 '분류(Classification)' 알고리즘이 아닌 것은? a) 로지스틱 회귀 b) 의사결정 트리 c) K-평균 군집화 d) 서포트 벡터 머신

정답: c) K-평균 군집화
데이터 분석에서 '과소적합(Underfitting)'이란? a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태 b) 모델이 훈련 데이터에 지나치게 맞춰진 상태 c) 데이터의 양이 너무 많아 모델 학습이 불가능한 상태 d) 모델의 복잡도가 너무 높아 일반화가 어려운 상태

정답: a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태
다음 중 '비지도 학습(Unsupervised Learning)'의 예가 아닌 것은? a) K-평균 군집화 b) 주성분 분석(PCA) c) 랜덤 포레스트 d) 자기조직화 지도(SOM)

정답: c) 랜덤 포레스트
데이터 분석에서 'SQL'의 주요 용도는? a) 이미지 처리 b) 자연어 처리 c) 데이터베이스 쿼리 d) 딥러닝 모델 구축

정답: c) 데이터베이스 쿼리
다음 중 데이터 마이닝의 '연관 규칙(Association Rule)' 분석에서 사용되는 지표가 아닌 것은? a) 지지도(Support) b) 신뢰도(Confidence) c) 향상도(Lift) d) 정확도(Accuracy)

정답: d) 정확도(Accuracy)
데이터 분석에서 '특이값(Outlier)' 처리 방법으로 적절하지 않은 것은? a) 제거 b) 대체 c) 변환 d) 증폭

정답: d) 증폭
다음 중 시계열 데이터 분석 기법이 아닌 것은? a) ARIMA b) 지수평활법 c) K-최근접 이웃(K-NN) d) 홀트-윈터스(Holt-Winters) 방법

정답: c) K-최근접 이웃(K-NN)
데이터 마이닝에서 '가지치기(Pruning)'의 주요 목적은? a) 데이터의 양을 증가시키기 위해 b) 모델의 과적합을 방지하기 위해 c) 데이터의 차원을 증가시키기 위해 d) 모델의 학습 속도를 높이기 위해

정답: b) 모델의 과적합을 방지하기 위해
다음 중 텍스트 마이닝 과정에 포함되지 않는 것은? a) 토큰화(Tokenization) b) 불용어 제거(Stop words removal) c) 어간 추출(Stemming) d) 주성분 분석(PCA)

정답: d) 주성분 분석(PCA)
데이터 분석에서 '교차 검증(Cross-validation)'의 주요 목적은? a) 데이터의 품질 향상 b) 모델의 일반화 성능 평가 c) 데이터의 차원 축소 d) 특이값 탐지

정답: b) 모델의 일반화 성능 평가
다음 중 딥러닝(Deep Learning) 모델이 아닌 것은? a) CNN (Convolutional Neural Network) b) RNN (Recurrent Neural Network) c) GAN (Generative Adversarial Network) d) SVM (Support Vector Machine)

정답: d) SVM (Support Vector Machine)
데이터 분석에서 '차원 축소(Dimensionality Reduction)'의 주요 목적이 아닌 것은? a) 데이터 시각화 용이성 증대 b) 모델의 복잡도 감소 c) 과적합 위험 감소 d) 데이터의 양 증가

정답: d) 데이터의 양 증가
다음 중 분류(Classification) 모델의 성능 평가 지표가 아닌 것은? a) 정밀도(Precision) b) 재현율(Recall) c) F1 점수 d) R-제곱(R-squared)

정답: d) R-제곱(R-squared)
데이터 마이닝에서 '서포트 벡터 머신(SVM)'의 주요 목적은? a) 데이터 군집화 b) 이상치 탐지 c) 분류 및 회귀 d) 차원 축소

정답: c) 분류 및 회귀
다음 중 비지도 학습(Unsupervised Learning) 알고리즘이 아닌 것은? a) K-평균 군집화 b) DBSCAN c) 계층적 군집화 d) 나이브 베이즈

정답: d) 나이브 베이즈
데이터 분석에서 '앙상블 학습(Ensemble Learning)'의 주요 목적은? a) 데이터의 양을 증가시키기 위해 b) 여러 모델을 결합하여 성능을 향상시키기 위해 c) 데이터의 차원을 축소하기 위해 d) 모델의 학습 속도를 높이기 위해

정답: b) 여러 모델을 결합하여 성능을 향상시키기 위해
다음 중 데이터 전처리 과정에 해당하지 않는 것은? a) 결측치 처리 b) 이상치 제거 c) 특징 선택 d) 모델 평가

정답: d) 모델 평가
데이터 분석에서 'ROC 곡선'이 나타내는 것은? a) 모델의 학습 속도 b) 데이터의 분포 c) 모델의 분류 성능 d) 변수 간의 상관관계

정답: c) 모델의 분류 성능
다음 중 시계열 데이터 분석에 사용되는 기법이 아닌 것은? a) 자기회귀(AR) 모델 b) 이동평균(MA) 모델 c) ARIMA 모델 d) 로지스틱 회귀

정답: d) 로지스틱 회귀
데이터 마이닝에서 '과적합(Overfitting)'을 방지하는 방법이 아닌 것은? a) 정규화(Regularization) b) 교차 검증(Cross-validation) c) 데이터 증강(Data augmentation) d) 데이터 삭제(Data deletion)

정답: d) 데이터 삭제(Data deletion)
다음 중 텍스트 마이닝에서 사용되는 기법이 아닌 것은? a) 감성 분석 b) 토픽 모델링 c) 개체명 인식 d) K-평균 군집화

정답: d) K-평균 군집화
데이터 분석에서 '특징 공학(Feature Engineering)'의 주요 목적은? a) 데이터의 양을 줄이기 위해 b) 모델의 성능을 향상시키기 위해 c) 데이터의 보안을 강화하기 위해 d) 분석 속도를 높이기 위해

정답: b) 모델의 성능을 향상시키기 위해
다음 중 데이터 정규화(Normalization) 방법이 아닌 것은? a) Min-Max 정규화 b) Z-점수 정규화 c) 로그 변환 d) 주성분 분석(PCA)

정답: d) 주성분 분석(PCA)
데이터 마이닝에서 '부스팅(Boosting)' 기법의 특징은? a) 여러 모델을 병렬로 학습시킨다 b) 이전 모델의 오류에 가중치를 두어 순차적으로 학습한다 c) 데이터를 무작위로 추출하여 여러 모델을 만든다 d) 하나의 강력한 모델만을 사용한다

정답: b) 이전 모델의 오류에 가중치를 두어 순차적으로 학습한다
다음 중 비정형 데이터 분석 기법이 아닌 것은? a) 자연어 처리 b) 이미지 인식 c) 음성 인식 d) 선형 회귀

정답: d) 선형 회귀
데이터 분석에서 'ETL'은 무엇의 약자인가? a) Extract, Transform, Load b) Evaluate, Test, Learn c) Explore, Train, Label d) Estimate, Track, Locate

정답: a) Extract, Transform, Load
다음 중 데이터 분석 프로젝트의 성공 요인이 아닌 것은? a) 명확한 비즈니스 목표 설정 b) 데이터의 품질 관리 c) 적절한 분석 기법의 선택 d) 가장 최신의 기술만 사용

정답: d) 가장 최신의 기술만 사용
데이터 마이닝에서 '교차 검증(Cross-validation)'의 주요 목적은? a) 데이터의 품질 향상 b) 모델의 일반화 성능 평가 c) 데이터의 차원 축소 d) 특이값 탐지

정답: b) 모델의 일반화 성능 평가
다음 중 시계열 데이터 분석 기법이 아닌 것은? a) ARIMA b) 지수 평활법 c) 홀트-윈터스 방법 d) K-최근접 이웃(K-NN)

정답: d) K-최근접 이웃(K-NN)
데이터 분석에서 '혼동 행렬(Confusion Matrix)'이 제공하는 정보가 아닌 것은? a) 참 양성(True Positive) b) 거짓 음성(False Negative) c) 정밀도(Precision) d) 평균 제곱 오차(Mean Squared Error)

정답: d) 평균 제곱 오차(Mean Squared Error)
다음 중 데이터 마이닝의 '분류(Classification)' 알고리즘이 아닌 것은? a) 로지스틱 회귀 b) 의사결정 트리 c) K-평균 군집화 d) 서포트 벡터 머신

정답: c) K-평균 군집화
데이터 분석에서 '차원의 저주(Curse of Dimensionality)'란? a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상 b) 데이터의 차원이 감소할수록 정보의 손실이 증가하는 현상 c) 데이터의 차원이 증가할수록 분석 속도가 빨라지는 현상 d) 데이터의 차원이 감소할수록 모델의 복잡도가 증가하는 현상

정답: a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
다음 중 앙상블 학습(Ensemble Learning) 방법이 아닌 것은? a) 배깅(Bagging) b) 부스팅(Boosting) c) 스태킹(Stacking) d) 주성분 분석(PCA)

정답: d) 주성분 분석(PCA)
데이터 분석에서 'A/B 테스트'의 주요 목적은? a) 데이터의 품질 향상 b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택 c) 모델의 과적합 방지 d) 데이터의 차원 축소

정답: b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택
다음 중 비정형 데이터에 해당하지 않는 것은? a) 텍스트 문서 b) 이미지 파일 c) 음성 녹음 d) CSV 파일

정답: d) CSV 파일
데이터 마이닝에서 '부트스트래핑(Bootstrapping)'의 주요 목적은? a) 데이터의 양을 증가시키기 위해 b) 모델의 신뢰성을 평가하기 위해 c) 데이터의 차원을 축소하기 위해 d) 모델의 학습 속도를 높이기 위해

정답: b) 모델의 신뢰성을 평가하기 위해
다음 중 데이터 분석에서 '정규화(Normalization)'의 목적이 아닌 것은? a) 변수의 스케일을 통일 b) 모델의 수렴 속도 향상 c) 특정 변수의 영향력 증대 d) 변수 간 비교 가능성 증대

정답: c) 특정 변수의 영향력 증대
데이터 분석에서 '시각화(Visualization)'의 주요 목적이 아닌 것은? a) 데이터의 패턴 발견 b) 복잡한 정보의 간단한 전달 c) 이상치 탐지 d) 데이터의 품질 향상

정답: d) 데이터의 품질 향상
다음 중 텍스트 마이닝 과정에 포함되지 않는 것은? a) 토큰화(Tokenization) b) 불용어 제거(Stop words removal) c) 어간 추출(Stemming) d) 주성분 분석(PCA)

정답: d) 주성분 분석(PCA)
데이터 분석에서 '과소적합(Underfitting)'이란? a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태 b) 모델이 훈련 데이터에 지나치게 맞춰진 상태 c) 데이터의 양이 너무 많아 모델 학습이 불가능한 상태 d) 모델의 복잡도가 너무 높아 일반화가 어려운 상태

정답: a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태
다음 중 '비지도 학습(Unsupervised Learning)'의 예가 아닌 것은? a) K-평균 군집화 b) 주성분 분석(PCA) c) 랜덤 포레스트 d) 자기조직화 지도(SOM)

정답: c) 랜덤 포레스트
데이터 분석에서 '특이값(Outlier)' 처리 방법으로 적절하지 않은 것은? a) 제거 b) 대체 c) 변환 d) 증폭

정답: d) 증폭
다음 중 시계열 데이터 분석 기법이 아닌 것은? a) ARIMA b) 지수평활법 c) K-최근접 이웃(K-NN) d) 홀트-윈터스(Holt-Winters) 방법

정답: c) K-최근접 이웃(K-NN)
데이터 마이닝에서 '가지치기(Pruning)'의 주요 목적은? a) 데이터의 양을 증가시키기 위해 b) 모델의 과적합을 방지하기 위해 c) 데이터의 차원을 증가시키기 위해 d) 모델의 학습 속도를 높이기 위해

정답: b) 모델의 과적합을 방지하기 위해
다음 중 텍스트 마이닝 과정에 포함되지 않는 것은? a) 토큰화(Tokenization) b) 불용어 제거(Stop words removal) c) 어간 추출(Stemming) d) 주성분 분석(PCA)

정답: d) 주성분 분석(PCA)
데이터 분석에서 '교차 검증(Cross-validation)'의 주요 목적은? a) 데이터의 품질 향상 b) 모델의 일반화 성능 평가 c) 데이터의 차원 축소 d) 특이값 탐지

정답: b) 모델의 일반화 성능 평가
다음 중 딥러닝(Deep Learning) 모델이 아닌 것은? a) CNN (Convolutional Neural Network) b) RNN (Recurrent Neural Network) c) GAN (Generative Adversarial Network) d) SVM (Support Vector Machine)

정답: d) SVM (Support Vector Machine)
데이터 분석에서 '차원 축소(Dimensionality Reduction)'의 주요 목적이 아닌 것은? a) 데이터 시각화 용이성 증대 b) 모델의 복잡도 감소 c) 과적합 위험 감소 d) 데이터의 양 증가

정답: d) 데이터의 양 증가
다음 중 분류(Classification) 모델의 성능 평가 지표가 아닌 것은? a) 정밀도(Precision) b) 재현율(Recall) c) F1 점수 d) R-제곱(R-squared)

정답: d) R-제곱(R-squared)
데이터 마이닝에서 '서포트 벡터 머신(SVM)'의 주요 목적은? a) 데이터 군집화 b) 이상치 탐지 c) 분류 및 회귀 d) 차원 축소

정답: c) 분류 및 회귀
다음 중 비지도 학습(Unsupervised Learning) 알고리즘이 아닌 것은? a) K-평균 군집화 b) DBSCAN c) 계층적 군집화 d) 나이브 베이즈

정답: d) 나이브 베이즈
데이터 분석에서 '앙상블 학습(Ensemble Learning)'의 주요 목적은? a) 데이터의 양을 증가시키기 위해 b) 여러 모델을 결합하여 성능을 향상시키기 위해 c) 데이터의 차원을 축소하기 위해 d) 모델의 학습 속도를 높이기 위해

정답: b) 여러 모델을 결합하여 성능을 향상시키기 위해
다음 중 데이터 전처리 과정에 해당하지 않는 것은? a) 결측치 처리 b) 이상치 제거 c) 특징 선택 d) 모델 평가

정답: d) 모델 평가
데이터 분석에서 'ROC 곡선'이 나타내는 것은? a) 모델의 학습 속도 b) 데이터의 분포 c) 모델의 분류 성능 d) 변수 간의 상관관계

정답: c) 모델의 분류 성능
다음 중 시계열 데이터 분석에 사용되는 기법이 아닌 것은? a) 자기회귀(AR) 모델 b) 이동평균(MA) 모델 c) ARIMA 모델 d) 로지스틱 회귀

정답: d) 로지스틱 회귀
데이터 마이닝에서 '과적합(Overfitting)'을 방지하는 방법이 아닌 것은? a) 정규화(Regularization) b) 교차 검증(Cross-validation) c) 데이터 증강(Data augmentation) d) 데이터 삭제(Data deletion)

정답: d) 데이터 삭제(Data deletion)
다음 중 텍스트 마이닝에서 사용되는 기법이 아닌 것은? a) 감성 분석 b) 토픽 모델링 c) 개체명 인식 d) K-평균 군집화

정답: d) K-평균 군집화
데이터 분석에서 '특징 공학(Feature Engineering)'의 주요 목적은? a) 데이터의 양을 줄이기 위해 b) 모델의 성능을 향상시키기 위해 c) 데이터의 보안을 강화하기 위해 d) 분석 속도를 높이기 위해

정답: b) 모델의 성능을 향상시키기 위해
다음 중 데이터 정규화(Normalization) 방법이 아닌 것은? a) Min-Max 정규화 b) Z-점수 정규화 c) 로그 변환 d) 주성분 분석(PCA)

정답: d) 주성분 분석(PCA)
데이터 마이닝에서 '부스팅(Boosting)' 기법의 특징은? a) 여러 모델을 병렬로 학습시킨다 b) 이전 모델의 오류에 가중치를 두어 순차적으로 학습한다 c) 데이터를 무작위로 추출하여 여러 모델을 만든다 d) 하나의 강력한 모델만을 사용한다

정답: b) 이전 모델의 오류에 가중치를 두어 순차적으로 학습한다
다음 중 비정형 데이터 분석 기법이 아닌 것은? a) 자연어 처리 b) 이미지 인식 c) 음성 인식 d) 선형 회귀

정답: d) 선형 회귀
데이터 분석에서 'ETL'은 무엇의 약자인가? a) Extract, Transform, Load b) Evaluate, Test, Learn c) Explore, Train, Label d) Estimate, Track, Locate

정답: a) Extract, Transform, Load
다음 중 데이터 분석 프로젝트의 성공 요인이 아닌 것은? a) 명확한 비즈니스 목표 설정 b) 데이터의 품질 관리 c) 적절한 분석 기법의 선택 d) 가장 최신의 기술만 사용

정답: d) 가장 최신의 기술만 사용
데이터 마이닝에서 '교차 검증(Cross-validation)'의 주요 목적은? a) 데이터의 품질 향상 b) 모델의 일반화 성능 평가 c) 데이터의 차원 축소 d) 특이값 탐지

정답: b) 모델의 일반화 성능 평가
다음 중 시계열 데이터 분석 기법이 아닌 것은? a) ARIMA b) 지수 평활법 c) 홀트-윈터스 방법 d) K-최근접 이웃(K-NN)

정답: d) K-최근접 이웃(K-NN)
데이터 분석에서 '혼동 행렬(Confusion Matrix)'이 제공하는 정보가 아닌 것은? a) 참 양성(True Positive) b) 거짓 음성(False Negative) c) 정밀도(Precision) d) 평균 제곱 오차(Mean Squared Error)

정답: d) 평균 제곱 오차(Mean Squared Error)
다음 중 데이터 마이닝의 '분류(Classification)' 알고리즘이 아닌 것은? a) 로지스틱 회귀 b) 의사결정 트리 c) K-평균 군집화 d) 서포트 벡터 머신

정답: c) K-평균 군집화
데이터 분석에서 '차원의 저주(Curse of Dimensionality)'란? a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상 b) 데이터의 차원이 감소할수록 정보의 손실이 증가하는 현상 c) 데이터의 차원이 증가할수록 분석 속도가 빨라지는 현상 d) 데이터의 차원이 감소할수록 모델의 복잡도가 증가하는 현상

정답: a) 데이터의 차원이 증가할수록 필요한 샘플의 수가 기하급수적으로 증가하는 현상
다음 중 앙상블 학습(Ensemble Learning) 방법이 아닌 것은? a) 배깅(Bagging) b) 부스팅(Boosting) c) 스태킹(Stacking) d) 주성분 분석(PCA)

정답: d) 주성분 분석(PCA)
데이터 분석에서 'A/B 테스트'의 주요 목적은? a) 데이터의 품질 향상 b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택 c) 모델의 과적합 방지 d) 데이터의 차원 축소

정답: b) 두 가지 버전 중 더 나은 성능을 보이는 것을 선택
다음 중 비정형 데이터에 해당하지 않는 것은? a) 텍스트 문서 b) 이미지 파일 c) 음성 녹음 d) CSV 파일

정답: d) CSV 파일
데이터 마이닝에서 '부트스트래핑(Bootstrapping)'의 주요 목적은? a) 데이터의 양을 증가시키기 위해 b) 모델의 신뢰성을 평가하기 위해 c) 데이터의 차원을 축소하기 위해 d) 모델의 학습 속도를 높이기 위해

정답: b) 모델의 신뢰성을 평가하기 위해
다음 중 데이터 분석에서 '정규화(Normalization)'의 목적이 아닌 것은? a) 변수의 스케일을 통일 b) 모델의 수렴 속도 향상 c) 특정 변수의 영향력 증대 d) 변수 간 비교 가능성 증대

정답: c) 특정 변수의 영향력 증대
데이터 분석에서 '시각화(Visualization)'의 주요 목적이 아닌 것은? a) 데이터의 패턴 발견 b) 복잡한 정보의 간단한 전달 c) 이상치 탐지 d) 데이터의 품질 향상

정답: d) 데이터의 품질 향상
다음 중 텍스트 마이닝 과정에 포함되지 않는 것은? a) 토큰화(Tokenization) b) 불용어 제거(Stop words removal) c) 어간 추출(Stemming) d) 주성분 분석(PCA)

정답: d) 주성분 분석(PCA)
데이터 분석에서 '과소적합(Underfitting)'이란? a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태 b) 모델이 훈련 데이터에 지나치게 맞춰진 상태 c) 데이터의 양이 너무 많아 모델 학습이 불가능한 상태 d) 모델의 복잡도가 너무 높아 일반화가 어려운 상태

정답: a) 모델이 훈련 데이터의 패턴을 제대로 학습하지 못한 상태
다음 중 '비지도 학습(Unsupervised Learning)'의 예가 아닌 것은? a) K-평균 군집화 b) 주성분 분석(PCA) c) 랜덤 포레스트 d) 자기조직화 지도(SOM)

정답: c) 랜덤 포레스트
데이터 분석에서 'SQL'의 주요 용도는? a) 이미지 처리 b) 자연어 처리 c) 데이터베이스 쿼리 d) 딥러닝 모델 구축

정답: c) 데이터베이스 쿼리
다음 중 데이터 마이닝의 '연관 규칙(Association Rule)' 분석에서 사용되는 지표가 아닌 것은? a) 지지도(Support) b) 신뢰도(Confidence) c) 향상도(Lift) d) 정확도(Accuracy)

정답: d) 정확도(Accuracy)
데이터 분석에서 '특이값(Outlier)' 처리 방법으로 적절하지 않은 것은? a) 제거 b) 대체 c) 변환 d) 증폭

정답: d) 증폭
다음 중 시계열 데이터 분석 기법이 아닌 것은? a) ARIMA b) 지수평활법 c) K-최근접 이웃(K-NN) d) 홀트-윈터스(Holt-Winters) 방법

정답: c) K-최근접 이웃(K-NN)
데이터 분석에서 '피어슨 상관계수'가 측정하는 것은? a) 변수 간의 선형 관계 b) 변수 간의 비선형 관계 c) 변수의 인과관계 d) 변수의 분산

정답: a) 변수 간의 선형 관계
다음 중 '강화학습(Reinforcement Learning)'의 주요 구성요소가 아닌 것은? a) 에이전트(Agent) b) 환경(Environment) c) 행동(Action) d) 레이블(Label)

정답: d) 레이블(Label)
데이터 마이닝에서 '엔트로피(Entropy)'의 개념이 주로 사용되는 알고리즘은? a) K-평균 군집화 b) 의사결정 트리 c) 서포트 벡터 머신 d) 주성분 분석

정답: b) 의사결정 트리
다음 중 '준지도 학습(Semi-supervised Learning)'의 특징은? a) 레이블이 있는 데이터만 사용 b) 레이블이 없는 데이터만 사용 c) 레이블이 있는 데이터와 없는 데이터를 모두 사용 d) 보상 신호를 사용하여 학습

정답: c) 레이블이 있는 데이터와 없는 데이터를 모두 사용
데이터 분석에서 '멀티콜리니어리티(Multicollinearity)'가 의미하는 것은? a) 종속변수 간의 높은 상관관계 b) 독립변수 간의 높은 상관관계 c) 독립변수와 종속변수 간의 낮은 상관관계 d) 데이터의 높은 분산

정답: b) 독립변수 간의 높은 상관관계
다음 중 '커널 트릭(Kernel Trick)'이 주로 사용되는 알고리즘은? a) 선형 회귀 b) 로지스틱 회귀 c) 서포트 벡터 머신 d) K-평균 군집화

정답: c) 서포트 벡터 머신
데이터 분석에서 '스무딩(Smoothing)'의 주요 목적은? a) 데이터의 노이즈 제거 b) 데이터의 차원 증가 c) 데이터의 분산 증가 d) 데이터의 비선형성 증가

정답: a) 데이터의 노이즈 제거
다음 중 '전이 학습(Transfer Learning)'의 장점이 아닌 것은? a) 적은 데이터로도 학습 가능 b) 학습 시간 단축 c) 새로운 도메인에 빠르게 적용 가능 d) 모든 경우에 항상 더 좋은 성능 보장

정답: d) 모든 경우에 항상 더 좋은 성능 보장
데이터 분석에서 '편향-분산 트레이드오프(Bias-Variance Tradeoff)'가 의미하는 것은? a) 모델의 복잡도와 일반화 능력 간의 균형 b) 학습 속도와 정확도 간의 균형 c) 데이터의 양과 질 간의 균형 d) 특징의 수와 모델의 성능 간의 균형

정답: a) 모델의 복잡도와 일반화 능력 간의 균형
다음 중 '그래디언트 부스팅(Gradient Boosting)'의 특징이 아닌 것은? a) 순차적으로 약한 학습기를 생성 b) 이전 모델의 오차를 보완 c) 높은 편향을 가진 모델에 효과적 d) 항상 선형 모델을 사용

정답: d) 항상 선형 모델을 사용
데이터 분석에서 '카이제곱 검정(Chi-square test)'의 주요 용도는? a) 연속형 변수 간의 상관관계 분석 b) 범주형 변수 간의 독립성 검정 c) 시계열 데이터의 추세 분석 d) 회귀 모델의 적합도 평가

정답: b) 범주형 변수 간의 독립성 검정
다음 중 '순환 신경망(Recurrent Neural Network)'이 주로 사용되는 분야는? a) 이미지 분류 b) 시계열 데이터 분석 c) 연관 규칙 마이닝 d) 주성분 분석

정답: b) 시계열 데이터 분석
데이터 마이닝에서 '서포트(Support)'가 의미하는 것은? a) 모델의 예측 정확도 b) 규칙이 데이터셋에서 나타나는 빈도 c) 변수 간의 상관관계 강도 d) 모델의 복잡도

정답: b) 규칙이 데이터셋에서 나타나는 빈도
다음 중 '차원 축소(Dimensionality Reduction)' 기법이 아닌 것은? a) 주성분 분석(PCA) b) t-SNE c) 랜덤 포레스트 d) 자기 조직화 지도(SOM)

정답: c) 랜덤 포레스트
데이터 분석에서 '콜드 스타트(Cold Start)' 문제가 주로 발생하는 분야는? a) 이미지 인식 b) 추천 시스템 c) 자연어 처리 d) 시계열 예측

정답: b) 추천 시스템
다음 중 '의사결정 트리(Decision Tree)'의 장점이 아닌 것은? a) 해석이 쉽다 b) 비선형 관계를 모델링할 수 있다 c) 전처리가 거의 필요 없다 d) 과적합에 강하다

정답: d) 과적합에 강하다
데이터 분석에서 '실루엣 점수(Silhouette Score)'가 측정하는 것은? a) 분류 모델의 정확도 b) 군집화의 품질 c) 회귀 모델의 적합도 d) 시계열 모델의 예측 성능

정답: b) 군집화의 품질
다음 중 '강화학습(Reinforcement Learning)'에서 사용되는 개념이 아닌 것은? a) 정책(Policy) b) 보상(Reward) c) 상태(State) d) 레이블(Label)

정답: d) 레이블(Label)
데이터 마이닝에서 '프루닝(Pruning)'이 주로 적용되는 알고리즘은? a) K-평균 군집화 b) 의사결정 트리 c) 로지스틱 회귀 d) 주성분 분석

정답: b) 의사결정 트리
다음 중 '앙상블 학습(Ensemble Learning)'의 방법이 아닌 것은? a) 배깅(Bagging) b) 부스팅(Boosting) c) 스태킹(Stacking) d) 정규화(Regularization)

정답: d) 정규화(Regularization)
데이터 분석에서 '피처 해싱(Feature Hashing)'의 주요 목적은 무엇인가? a) 데이터 암호화 b) 차원 축소 c) 데이터 정규화 d) 이상치 탐지

정답: b) 차원 축소
다음 중 '준지도 학습(Semi-supervised Learning)'의 특징으로 가장 적절한 것은? a) 레이블이 없는 데이터만 사용한다 b) 레이블이 있는 데이터와 없는 데이터를 모두 활용한다 c) 강화학습의 한 종류이다 d) 항상 딥러닝 모델을 사용한다

정답: b) 레이블이 있는 데이터와 없는 데이터를 모두 활용한다
데이터 마이닝에서 '연관성 분석(Association Analysis)'의 주요 응용 분야는? a) 이미지 분류 b) 시계열 예측 c) 장바구니 분석 d) 자연어 처리

정답: c) 장바구니 분석
다음 중 '앙상블 학습(Ensemble Learning)'의 방법이 아닌 것은? a) 배깅(Bagging) b) 부스팅(Boosting) c) 스태킹(Stacking) d) 클러스터링(Clustering)

정답: d) 클러스터링(Clustering)
데이터 분석에서 '정보 이득(Information Gain)'이 주로 사용되는 알고리즘은? a) K-평균 군집화 b) 의사결정 트리 c) 서포트 벡터 머신 d) 선형 회귀

정답: b) 의사결정 트리
'깁스 샘플링(Gibbs Sampling)'은 어떤 통계적 추론 방법의 일종인가? a) 최대 우도 추정 b) 마르코프 체인 몬테카를로 (MCMC) c) 기대값 최대화 (EM) 알고리즘 d) 그래디언트 부스팅

정답: b) 마르코프 체인 몬테카를로 (MCMC)
데이터 분석에서 '허프만 코딩(Huffman Coding)'의 주요 용도는? a) 데이터 압축 b) 특징 선택 c) 이상치 탐지 d) 모델 평가

정답: a) 데이터 압축
'포아송 분포(Poisson Distribution)'가 주로 모델링하는 데이터 유형은? a) 연속형 데이터 b) 이진 데이터 c) 계수 데이터 d) 순서형 데이터

정답: c) 계수 데이터
다음 중 '자연어 처리(NLP)'에서 사용되는 기법이 아닌 것은? a) 워드 임베딩 b) 토큰화 c) 레마타이제이션 d) 주성분 분석

정답: d) 주성분 분석
'큐러닝(Q-Learning)'은 어떤 유형의 기계학습 방법인가? a) 지도학습 b) 비지도학습 c) 강화학습 d) 준지도학습

정답: c) 강화학습
'오토인코더(Autoencoder)'의 주요 목적은 무엇인가? a) 분류 b) 차원 축소 c) 시계열 예측 d) 연관 규칙 발견

정답: b) 차원 축소
데이터 분석에서 '콜드 스타트(Cold Start)' 문제가 주로 발생하는 분야는? a) 이미지 인식 b) 추천 시스템 c) 시계열 분석 d) 텍스트 마이닝

정답: b) 추천 시스템
'라플라스 스무딩(Laplace Smoothing)'이 주로 사용되는 알고리즘은? a) 선형 회귀 b) 나이브 베이즈 c) K-평균 군집화 d) 서포트 벡터 머신

정답: b) 나이브 베이즈
다음 중 '비모수적 방법(Non-parametric Method)'이 아닌 것은? a) K-최근접 이웃 b) 결정 트리 c) 커널 밀도 추정 d) 로지스틱 회귀

정답: d) 로지스틱 회귀
'엘보우 방법(Elbow Method)'이 주로 사용되는 분석 기법은? a) 주성분 분석 b) 선형 회귀 c) K-평균 군집화 d) 로지스틱 회귀

정답: c) K-평균 군집화
'편향-분산 트레이드오프(Bias-Variance Tradeoff)'에서 모델의 복잡도가 증가할 때 일반적으로 어떤 현상이 발생하는가? a) 편향과 분산 모두 증가 b) 편향은 감소하고 분산은 증가 c) 편향과 분산 모두 감소 d) 편향은 증가하고 분산은 감소

정답: b) 편향은 감소하고 분산은 증가
'맥니마 검정(McNemar's Test)'의 주요 용도는? a) 연속형 변수의 상관관계 분석 b) 범주형 변수의 독립성 검정 c) 대응표본의 전후 비교 d) 시계열 데이터의 정상성 검정

정답: c) 대응표본의 전후 비교
데이터 마이닝에서 '리프트(Lift)'가 측정하는 것은? a) 모델의 예측 정확도 b) 규칙의 유용성 c) 변수 간의 상관관계 d) 클러스터의 품질

정답: b) 규칙의 유용성
'그리드 서치(Grid Search)'의 주요 목적은 무엇인가? a) 데이터 전처리 b) 특징 선택 c) 하이퍼파라미터 최적화 d) 모델 평가

정답: c) 하이퍼파라미터 최적화
'효과 코딩(Effect Coding)'이 주로 사용되는 분석 방법은? a) 클러스터 분석 b) 주성분 분석 c) 회귀 분석 d) 연관 규칙 마이닝

정답: c) 회귀 분석
'랜덤 워크(Random Walk)'가 주로 모델링하는 데이터 유형은? a) 범주형 데이터 b) 시계열 데이터 c) 이진 데이터 d) 공간 데이터

정답: b) 시계열 데이터
'커널 트릭(Kernel Trick)'이 주로 사용되는 알고리즘은? a) 선형 회귀 b) 로지스틱 회귀 c) 서포트 벡터 머신 d) 의사결정 트리

정답: c) 서포트 벡터 머신
데이터 분석에서 '섀넌 엔트로피(Shannon Entropy)'가 측정하는 것은? a) 데이터의 복잡성 b) 모델의 정확도 c) 변수 간의 상관관계 d) 클러스터의 품질

정답: a) 데이터의 복잡성
'마할라노비스 거리(Mahalanobis Distance)'의 주요 용도는? a) 클러스터 간 거리 측정 b) 이상치 탐지 c) 변수 선택 d) 모델 평가

정답: b) 이상치 탐지
'마르코프 체인(Markov Chain)'의 핵심 가정은? a) 데이터의 정규성 b) 변수 간 독립성 c) 현재 상태의 미래 상태 독립성 d) 샘플의 무작위성

정답: c) 현재 상태의 미래 상태 독립성
'붓스트랩 집계(Bootstrap Aggregating, Bagging)'의 주요 목적은? a) 모델의 분산 감소 b) 모델의 편향 감소 c) 학습 속도 향상 d) 특징 선택

정답: a) 모델의 분산 감소
'지니 불순도(Gini Impurity)'가 주로 사용되는 알고리즘은? a) K-평균 군집화 b) 의사결정 트리 c) 로지스틱 회귀 d) 주성분 분석

정답: b) 의사결정 트리
'스태킹(Stacking)' 앙상블 방법의 특징은? a) 약한 학습기를 순차적으로 학습 b) 여러 모델의 예측을 새로운 특징으로 사용 c) 데이터를 무작위로 재추출하여 여러 모델 학습 d) 항상 같은 종류의 모델만 사용

정답: b) 여러 모델의 예측을 새로운 특징으로 사용
'파이프라인(Pipeline)'의 주요 목적은? a) 데이터 시각화 b) 모델 평가 c) 데이터 전처리와 모델링 과정의 자동화 d) 하이퍼파라미터 최적화

정답: c) 데이터 전처리와 모델링 과정의 자동화
'퍼셉트론(Perceptron)'은 어떤 유형의 신경망인가? a) 다층 신경망 b) 합성곱 신경망 c) 단층 신경망 d) 순환 신경망

정답: c) 단층 신경망
'가우시안 혼합 모델(Gaussian Mixture Model)'의 주요 용도는? a) 분류 b) 회귀 c) 밀도 추정 d) 특징 선택

정답: c) 밀도 추정
'드롭아웃(Dropout)'이 주로 사용되는 목적은? a) 학습 속도 향상 b) 과적합 방지 c) 모델 복잡도 증가 d) 데이터 증강

정답: b) 과적합 방지
'콘볼루션(Convolution)' 연산이 주로 사용되는 신경망 구조는? a) 순환 신경망 (RNN) b) 합성곱 신경망 (CNN) c) 심층 신경망 (DNN) d) 오토인코더 (Autoencoder)

정답: b) 합성곱 신경망 (CNN)
'교차 엔트로피(Cross-Entropy)'가 주로 사용되는 상황은? a) 회귀 문제의 손실 함수 b) 분류 문제의 손실 함수 c) 클러스터링의 평가 지표 d) 특징 선택의 기준

정답: b) 분류 문제의 손실 함수
'DBSCAN' 알고리즘의 주요 특징은? a) 클러스터 수를 사전에 지정해야 함 b) 밀도 기반 클러스터링 c) 항상 구형의 클러스터만 생성 d) 계층적 클러스터링 방법

정답: b) 밀도 기반 클러스터링
'라그랑주 승수법(Lagrange Multiplier Method)'이 최적화 문제에서 주로 사용되는 목적은? a) 목적 함수의 최솟값 찾기 b) 제약 조건이 있는 최적화 문제 해결 c) 경사 하강법의 학습률 조정 d) 오버피팅 방지

정답: b) 제약 조건이 있는 최적화 문제 해결
'힌지 손실 함수(Hinge Loss Function)'가 주로 사용되는 알고리즘은? a) 로지스틱 회귀 b) 서포트 벡터 머신 c) 의사결정 트리 d) K-평균 군집화

정답: b) 서포트 벡터 머신
'잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)'의 주요 용도는? a) 이미지 분류 b) 토픽 모델링 c) 시계열 예측 d) 이상치 탐지

정답: b) 토픽 모델링
'베이지안 최적화(Bayesian Optimization)'의 주요 목적은? a) 모델 학습 b) 특징 선택 c) 하이퍼파라미터 튜닝 d) 데이터 전처리

정답: c) 하이퍼파라미터 튜닝
'맥스 풀링(Max Pooling)'이 주로 사용되는 신경망 구조는? a) 순환 신경망 (RNN) b) 합성곱 신경망 (CNN) c) 심층 신경망 (DNN) d) 오토인코더 (Autoencoder)

정답: b) 합성곱 신경망 (CNN)

[MySQL]효율적인 Sub Query 활용

Fri, 12 Apr 2024 08:59:41 GMT

* 참고자료

위 문제를 진행하며 겪은 쿼리의 개선과정을 공유합니다.

1. 문제의 요구사항: 10진수로 표현된 형질을 비트 연산으로 추출

1.1 문제 설명

실험실에서 배양된 대장균 개체들의 정보를 담은 ECOLI_DATA 테이블에서 "2번 형질(0010)을 보유하지 않으면서 1번(0001) 또는 3번(0100) 형질을 보유"하고 있는 대장균 개체의 수를 계산하는 SQL 쿼리를 작성해야 합니다.

1.2 형질 표현 방식

각 대장균 개체는 1, 2, 3, 4의 4가지 형질을 0 또는 1로 나타낸 2진수 형태로 표현됩니다.

예시:

ID 1: 1000 (2진수) - 1번 형질만 보유
ID 2: 1111 (2진수) - 1, 2, 3, 4번 형질 모두 보유
ID 3: 0001 (2진수) - 1번 형질만 보유
ID 4: 1101 (2진수) - 1, 3, 4번 형질만 보유

1.3 쿼리 요구사항

2번 형질을 보유하지 않으면서 1번 또는 3번 형질을 보유하는 대장균 개체의 수를 계산
1, 3번 형질을 모두 보유하는 경우도 포함

2. 초기 쿼리: SUBQUERY 사용 전 쿼리

SELECT
    COUNT(ID) AS "COUNT"
FROM
    ECOLI_DATA
WHERE
    (((GENOTYPE & 1) > 0 OR (GENOTYPE & 4) > 0) AND (GENOTYPE & 2) = 0)

2.1 쿼리 설명

GENOTYPE 속성에 저장된 형질 정보를 비트 연산을 사용하여 분석합니다.
AND 연산과 OR 연산을 사용하여 2번 형질을 보유하지 않으면서 1번 또는 3번 형질을 보유하는 조건을 만족하는 레코드를 필터링합니다.
COUNT 함수를 사용하여 필터링된 레코드의 개수를 계산합니다.

3. 개선 쿼리: SUBQUERY 사용해 리팩토링된 쿼리

SELECT
    COUNT(*) AS "COUNT"
FROM
    (
        SELECT
            ID
        FROM
            ECOLI_DATA
        WHERE
            (((GENOTYPE & 1) > 0 OR (GENOTYPE & 4) > 0) AND (GENOTYPE & 2) = 0)
    ) AS SUBQUERY

3.1 개선 내용

SUBQUERY를 사용하여 2번 형질을 보유하지 않으면서 1번 또는 3번 형질을 보유하는 대장균 개체의 ID만 추출합니다.
추출된 ID만 사용하여 COUNT 함수를 통해 개체 수를 계산합니다.

3.2 개선 효과

SUBQUERY를 사용하여 쿼리 실행 계획을 최적화하여 성능 향상을 기대할 수 있습니다.
특히, 데이터 레코드 수가 많을 때 효과가 더욱 두드러집니다.

4. 쿼리 경제성 개선: 성능 비교

4.1 테스트 환경

데이터베이스 엔진: MySQL 8.0.27
테이블 데이터:
- 1만 개 레코드: ECOLI_DATA 테이블
- 1억 개 레코드: 1만 개 레코드 테이블을 10배 확장

4.2 실행 시간 비교

레코드 수	쿼리	실행 시간 (초)	감소율
1만	기존 쿼리	0.24	-
	SUBQUERY 쿼리	0.24	0%
1억	기존 쿼리	145.00	-
	SUBQUERY 쿼리	85.00	41%

4.3 실행 계획 비교( 10억개의 레코드 일 때 )

단계	기존 쿼리	SUBQUERY 사용 쿼리	비교
1. 전체 데이터 스캔	10억 레코드 스캔 (2000.00 단위 비용)	10억 레코드 스캔 (200.00 단위 비용)	10배 감소
2. 조건 필터링	조건에 맞는 레코드 필터링 (2000.00 단위 비용)	조건에 맞는 레코드 필터링 후 ID 추출 (200.00 단위 비용)	10배 감소
3. 결과 집계	ID와 개수 계산 (2000.00 단위 비용)	ID 기반 개수 계산 (1.00 단위 비용)	2000배 감소

4.4 경제성 분석( 10억개의 레코드 일 때 )

쿼리	총 비용	주요 비용 절감 요인
기존 쿼리	4000.00 단위	-
SUBQUERY 사용 쿼리	421.00 단위	* 조건 필터링 비용 10배 감소 * 결과 집계 비용 2000배 감소

4.5 분석

1만 개 레코드의 경우 두 쿼리의 실행 시간은 동일합니다.
1억 개 레코드의 경우 SUBQUERY 쿼리가 기존 쿼리보다 약 ⚡41% 빠릅니다.
레코드 수가 증가할수록 SUBQUERY 쿼리의 성능 향상 효과가 더욱 두드러집니다.

4.6 추가 고려 사항

데이터베이스 엔진 버전, 테이블 데이터 분포, 인덱스 사용 여부 등에 따라 성능 차이가 발생할 수 있습니다.
쿼리 성능 최적화를 위해서는 데이터베이스 엔진 최적화, 쿼리 리팩토링, 인덱스 활용 등 다양한 방법을 고려해야 합니다.

5. SUBQUERY의 특징 및 사용하기 좋은 환경

5.1 SUBQUERY 특징

다른 쿼리의 결과를 활용하여 계산하거나 필터링하는 데 사용됩니다.
중첩된 쿼리 구조를 만들 수 있지만, 복잡성이 증가 할 수 있습니다.
적절하게 사용하면 쿼리 성능을 향상시키고 코드 가독성을 높일 수 있습니다.

5.2 SUBQUERY 사용하기 좋은 상황

특정 조건에 맞는 데이터를 추출하여 다른 쿼리에 활용해야 하는 경우
데이터를 그룹화하거나 집계해야 하는 경우
복잡한 조건을 처리해야 하는 경우

5.3 SUBQUERY 사용 시 주의 사항

과도하게 사용하면 쿼리 성능 저하를 초래할 수 있습니다.
중첩된 쿼리 구조는 코드 가독성을 저하시킬 수 있습니다.
다른 방법으로 동일한 기능을 구현할 수 있는지 고려해야 합니다.

SUBQUERY는 적절하게 사용하면 쿼리 성능을 향상시키고 코드 가독성을 높일 수 있는 유용한 도구이지만, 과도한 사용은 오히려 역효과를 초래할 수 있으므로 주의해야 합니다.

[MYSQL]CTE:Common Table Expression

Fri, 29 Mar 2024 07:59:51 GMT

* 참고자료

위 문제를 진행하며 겪은 쿼리의 개선과정을 공유합니다.

1. 쿼리 설계 방식에 따른 경제성 비교

문제:

실험실에서 배양한 대장균들의 정보를 담은 ECOLI_DATA 테이블에서 대장균 개체의 ID(ID)와 자식 개체 수(CHILD_COUNT)를 출력하는 SQL 쿼리를 작성하는 문제입니다. 문제를 진행하며 생성형AI인 Gemini 의 쿼리 개선 방식을 참고했습니다.

1. A 쿼리:

SELECT
    ID,
    (SELECT COUNT(ID) FROM ECOLI_DATA WHERE PARENT_ID = ED.ID) AS CHILD_COUNT
FROM
    ECOLI_DATA ED
ORDER BY
    ID ASC;

2. B 쿼리(+ Gemini):

WITH CTE AS(
    SELECT  PARENT_ID AS ID,
            COUNT(*) AS CHILD_COUNT
    FROM    ECOLI_DATA
    GROUP BY PARENT_ID
)
SELECT  ED.ID,
        COALESCE(CTE.CHILD_COUNT,0) AS CHILD_COUNT
FROM    CTE
RIGHT JOIN ECOLI_DATA ED ON CTE.ID = ED.ID
ORDER BY ED.ID ASC;

성능 비교:

테이블 레코드	A 쿼리	B 쿼리
적은 레코드 (10만 개)	⏱️ 빠름	⏱️ 빠름
대량의 레코드 (1억 개)	느림	⚡️ 빠름

분석:

적은 레코드:
- 두 쿼리의 성능이 비슷합니다.
- A 쿼리가 조금 더 간단하여 간편하게 사용할 수 있습니다.
대량의 레코드:
- B 쿼리가 A 쿼리보다 훨씬 빠릅니다.
- B 쿼리는 GROUP BY 연산을 사용하여 자식 개체 수를 미리 계산하여 테이블 스캔을 줄입니다.

결론:

적은 레코드: 두 쿼리 모두 사용 가능, A 쿼리는 간헐적 조회가 발생할 때 추천. 단, 대량의 레코드가 담긴 테이블에 주기적인 조회가 발생하는 경우 A 쿼리는 부적합
대량의 레코드: B 쿼리가 효과적임. 비지니스 측면에서 봤을 때 미생물 연구실 등에서 지속적으로 생성되는 데이터를 분석할 때 사용하기 좋음.

2. CTE (Common Table Expression) 에 간략한 대한 설명

CTE는 SQL에서 반복적으로 사용되는 서브쿼리를 저장하고 재사용할 수 있도록 하는 기능입니다. CTE를 사용하면 쿼리를 명확하고 간결하게 작성할 수 있습니다.

CTE 종류:

비재귀 CTE: 자기 자신을 참조하지 않는 CTE입니다. 재사용성이 적을 때 권장합니다.

예시:

WITH
    TEMP_TABLE AS (
        SELECT
            PARENT_ID AS ID,
            COUNT(*) AS CHILD_COUNT
        FROM
            ECOLI_DATA
        GROUP BY
            PARENT_ID
    )
SELECT
    ID,
    COALESCE(CHILD_COUNT, 0) AS CHILD_COUNT
FROM
    TEMP_TABLE
ORDER BY
    ID ASC;

재귀 CTE: 자기 자신을 참조하는 CTE입니다. Depth, Level 등을 표현할 때 권장합니다.

예시:

WITH RECURSIVE
    CHILD_COUNT_TREE (ID, PARENT_ID, CHILD_COUNT) AS (
        SELECT
            ID,
            PARENT_ID,
            1 AS CHILD_COUNT
        FROM
            ECOLI_DATA
        WHERE
            PARENT_ID IS NULL
        UNION ALL
        SELECT
            EC.ID,
            EC.PARENT_ID,
            CHILD_COUNT_TREE.CHILD_COUNT + 1
        FROM
            ECOLI_DATA EC
        INNER JOIN
            CHILD_COUNT_TREE
        ON
            EC.PARENT_ID = CHILD_COUNT_TREE.ID
    )
SELECT
    ID,
    CHILD_COUNT
FROM
    CHILD_COUNT_TREE
ORDER BY
    ID ASC;

3. 재귀 CTE와 비재귀 CTE 성능 비교 및 발전 방안

성능 차이:

데이터 규모:
- 적은 데이터: 비재귀 CTE가 더 빠릅니다.
- 대량 데이터: 재귀 CTE가 더 빠를 수 있습니다.
쿼리 패턴:
- 단순한 계산: 비재귀 CTE가 더 효율적입니다.
- 복잡한 계산: 재귀 CTE가 더 간결하고 효율적입니다.

비교 요약:

기준	비재귀 CTE	재귀 CTE
데이터 규모	적은 데이터: ⏱️ 빠름	대량 데이터: ⚡️ 빠를 수 있음
쿼리 패턴	단순 계산: 효율적	복잡 계산: 간결하고 효율적

발전 방안:

인덱스 활용: 적절한 인덱스를 사용하면 쿼리 성능을 크게 향상시킬 수 있습니다.
쿼리 캐싱: 자주 실행되는 쿼리는 캐싱하여 실행 속도를 높일 수 있습니다.
데이터베이스 엔진 최적화: 최신 버전의 데이터베이스 엔진은 성능 향상 기능을 제공합니다.
쿼리 리팩토링: 쿼리를 간소화하고 불필요한 연산을 제거하여 성능을 개선할 수 있습니다.
알고리즘 변경: 더 효율적인 알고리즘을 사용하여 쿼리 성능을 향상시킬 수 있습니다.

추가 고려 사항:

CTE는 주어진 모든 상황에서 성능을 개선시켜주는 기능은 아닙니다.
- CTE는 쿼리 계획에 영향을 미칠 수 있습니다.
- CTE를 사용하기 전에 성능을 꼼꼼하게 테스트해야 합니다.

참고:

MySQL 8.0부터 CTE를 지원합니다.

[MYSQL] JOIN

Fri, 29 Mar 2024 05:59:15 GMT

1. JOIN 개요

JOIN은 두 개 이상의 테이블을 연결하여 데이터를 결합하는 SQL 연산입니다. 테이블 간의 연결은 공통 컬럼을 기준으로 이루어집니다. JOIN을 사용하면 여러 테이블에 분산된 데이터를 하나의 테이블처럼 조회할 수 있습니다.

2. JOIN 종류

JOIN에는 다양한 종류가 있으며, 각각 조금씩 다른 방식으로 테이블을 연결합니다.

2.1 INNER JOIN (내부 조인)

INNER JOIN은 두 테이블의 조인 조건을 만족하는 레코드만을 반환합니다. 즉, 두 테이블 모두에서 일치하는 레코드만 출력됩니다.

예시:

# 직원 테이블과 부서 테이블을 부서 ID를 기준으로 INNER JOIN

SELECT *
FROM 직원
INNER JOIN 부서 ON 직원.부서_ID = 부서.ID;

결과:

직원 이름	부서 이름
홍길동	개발부
김철수	영업부

2.2 LEFT JOIN (왼쪽 조인)

LEFT JOIN은 왼쪽 테이블의 모든 레코드를 반환하며, 오른쪽 테이블에서 조인 조건을 만족하는 레코드만 결합합니다. 즉, 왼쪽 테이블에만 존재하는 레코드도 출력됩니다.

예시:

# 직원 테이블과 부서 테이블을 부서 ID를 기준으로 LEFT JOIN

SELECT *
FROM 직원
LEFT JOIN 부서 ON 직원.부서_ID = 부서.ID;

결과:

직원 이름	부서 이름
홍길동	개발부
김철수	영업부
박지영	(null)

2.3 RIGHT JOIN (오른쪽 조인)

RIGHT JOIN은 오른쪽 테이블의 모든 레코드를 반환하며, 왼쪽 테이블에서 조인 조건을 만족하는 레코드만 결합합니다. 즉, 오른쪽 테이블에만 존재하는 레코드도 출력됩니다.

예시:

# 직원 테이블과 부서 테이블을 부서 ID를 기준으로 RIGHT JOIN

SELECT *
FROM 직원
RIGHT JOIN 부서 ON 직원.부서_ID = 부서.ID;

결과:

직원 이름	부서 이름
홍길동	개발부
김철수	영업부
(null)	인사부

2.4 FULL JOIN (외부 조인)

FULL JOIN은 왼쪽 테이블과 오른쪽 테이블의 모든 레코드를 반환합니다. 즉, 두 테이블 중 하나라도 조인 조건을 만족하는 레코드는 모두 출력됩니다.

예시:

# 직원 테이블과 부서 테이블을 부서 ID를 기준으로 FULL JOIN

SELECT *
FROM 직원
FULL JOIN 부서 ON 직원.부서_ID = 부서.ID;

결과:

직원 이름	부서 이름
홍길동	개발부
김철수	영업부
박지영	(null)
(null)	인사부

3. JOIN 조건

JOIN은 ON 절을 사용하여 조인 조건을 지정합니다. ON 절에는 두 테이블의 공통 컬럼을 비교하는 식을 작성합니다.

예시:

# 직원 테이블과 부서 테이블을 부서 ID와 부서 이름을 기준으로 JOIN

SELECT *
FROM 직원
JOIN 부서 ON 직원.부서_ID = 부서.ID AND 직원.부서_name = 부서.name;

**4. JOIN 활용

JOIN은 다양한 데이터 분석 작업에 활용될 수 있습니다.

다중 테이블 데이터 조회: 여러 테이블에 분산된 데이터를 하나의 테이블처럼 조회할 수 있습니다.
데이터 집합 간 관계 분석: 테이블 간의 관계를 분석하여 데이터에 대한 통찰력을 얻을 수 있습니다.

null_point.log

2025년 IT와 AI의 최신 동향: 기술의 변화와 혁신을 읽다

1. 초경량 AI 모델: 경량화가 가져온 효율성

2. 생성형 AI의 현실적 활용

주요 사례

3. Web3와 AI: 탈중앙화와 인공지능의 만남

4. 클라우드 기술의 진화와 서버리스 아키텍처

결론

2025년 IT와 AI의 최신 동향: AI의 미래와 기술 혁신

1. 초경량 AI 모델: 더 작고 강력하게

2. 생성형 AI의 실질적 활용

활용 사례:

3. Web3와 AI의 융합

4. 서버리스 및 클라우드 기술

결론

최신 IT와 AI 동향: 2025년을 선도하는 기술들

1. AI 모델의 경량화와 효율성 증대

주요 기술:

2. 생성형 AI의 산업별 활용

활용 사례:

3. Web3.0과 AI의 융합

주요 기술:

4. IT 인프라의 재구성: 서버리스와 컨테이너

주요 기술:

결론

AI와 인간의 경계: 기억, 창의성, 그리고 협력의 가능성

서론: AI가 인간과 기계의 경계를 재정의하다

기억과 창의성: AI가 인간처럼 느껴지는 이유

기억과 창의성의 관계

예시:

AI의 의사결정 과정: 인간과 무엇이 다른가?

의사결정의 세 가지 단계

AI와 인간의 협력: 더 나은 미래를 위한 공존

AI의 주요 활용 사례

결론: 인간과 AI, 협력으로 만들어갈 미래

ChatGPT 언어모델:새로운 자연어 처리 기술의 탄생

1. 자연어 처리 분야의 혁신, ChatGPT 언어모델의 역할

2. OpenAl의 비전: 사람과 함께 살아가는 인공지능

3. ChatGPT 자연어 처리 기술을 기반으로 한 새로운 비즈니스 모델의 가능성

ADSP_1_데이터의 이해(...ing)

1.데이터와 정보

데이터의 정의

데이터의 정의와 특성

데이터의 유형

데이터와 정보

DIKW 피라미드 ⭐️⭐️⭐️

※ 데 이터 이 ㄴ포메이선 노 ㄹ로지 위 스덤

데이터에 관한 상식

데이터의 단위 ⭐️

2. 데이터베이스

데이터베이스 개요

데이터베이스 정의 _ 연혁

데이터베이스의 특징

데이터베이스의 다양한 측면에서의 특성 ⭐️⭐️

데이터베이스 활용

활용방안

2024년 ADSP 학습 자료(학습문제 100문)

2024년 ADSP 학습 자료

ADSP (데이터 분석 준전문가) 학습자료

목차

1. 데이터의 이해

1.1 데이터와 정보

1.1.1 데이터의 정의

1.1.2 정보의 정의

1.1.3 데이터와 정보의 관계

1.2 빅데이터의 이해

1.2.1 빅데이터의 정의

1.2.2 빅데이터의 특성 (3V)

1.2.3 빅데이터의 가치와 영향

1.3 데이터베이스의 이해

1.3.1 데이터베이스의 정의

1.3.2 DBMS (Database Management System)

1.3.3 데이터베이스의 특징

1.4 데이터 웨어하우스

1.4.1 데이터 웨어하우스의 정의

1.4.2 데이터 웨어하우스의 특징

1.4.3 데이터 마트

2. 데이터 분석 기획

2.1 분석 방법론

2.1.1 CRISP-DM (Cross-Industry Standard Process for Data Mining)