<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>harry_potter.log</title>
        <link>https://velog.io/</link>
        <description>쿵!!</description>
        <lastBuildDate>Tue, 20 Aug 2024 14:33:57 GMT</lastBuildDate>
        <docs>https://validator.w3.org/feed/docs/rss2.html</docs>
        <generator>https://github.com/jpmonette/feed</generator>
        <copyright>Copyright (C) 2019. harry_potter.log. All rights reserved.</copyright>
        <atom:link href="https://v2.velog.io/rss/harry_potter" rel="self" type="application/rss+xml"/>
        <item>
            <title><![CDATA[1. 빅데이터 분석 기획 - 빅데이터의 이해 (2)]]></title>
            <link>https://velog.io/@harry_potter/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EA%B8%B0%ED%9A%8D-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%98-%EC%9D%B4%ED%95%B4-2</link>
            <guid>https://velog.io/@harry_potter/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EA%B8%B0%ED%9A%8D-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%98-%EC%9D%B4%ED%95%B4-2</guid>
            <pubDate>Tue, 20 Aug 2024 14:33:57 GMT</pubDate>
            <description><![CDATA[<h3 id="8빅데이터의-조직인력">8.빅데이터의 조직&amp;인력</h3>
<ul>
<li><p><strong>조직의 구조</strong></p>
<ul>
<li><p><strong>집중 구조 - 부서 별로 분석</strong></p>
<ul>
<li>전사 분석 업무를 <strong>별도의 분석 전담 조직에서 담당</strong></li>
<li>전략적 중요도에 따라 분석 조직이 우선 순위를 정해서 진행 가능</li>
<li>현업 업무 부서의 분석 업무와 <strong>이중화/이원화</strong> 가능성 높음</li>
</ul>
</li>
<li><p><strong>기능 구조 - 부서 별로 분석</strong></p>
<ul>
<li>일반적인 분석 수행 구조</li>
<li>별도 분석 조직이 없고 해당 업무 부서에서 분석 수행</li>
<li>전사적 핵심 분석이 어려우며, 부서 현황 및 실적 통계 등 과거 실적에 국한된 분석 수행 가능성 높음</li>
</ul>
</li>
<li><p><strong>분산 구조</strong></p>
<ul>
<li><strong>분석 조직 인력들을 현업 부서로 배치</strong>하여 분석 업무 수행</li>
<li>분석 결과에 따른 신속한 action 가능</li>
<li>전사 차원의 우선 순위 수행</li>
<li>부서 분석 업무와 역할 분담 명확히 해야 함 (→ <strong>업무 과다 이원화 가능성</strong>)</li>
</ul>
</li>
</ul>
</li>
</ul>
<p>DSCoE(Data Science Center of Excellence): 데이터 사이언스 전문가 조직</p>
<ul>
<li>조직 평가를 위한 성숙도 단계<ul>
<li>기업의 분석 수준은 성숙도 수준에 따라 달라진다.</li>
<li>도입 단계 </li>
<li>활용 단계 </li>
<li>확산 단계 </li>
<li>최적화 단계</li>
</ul>
</li>
</ul>
<hr>
<h3 id="9클라우드-컴퓨팅">9.클라우드 컴퓨팅</h3>
<p><img src="https://velog.velcdn.com/images/harry_potter/post/f021e74f-7f22-497f-8123-cec549d9d6b8/image.png" alt=""></p>
<ul>
<li><strong>IaaS (Infrastructure as a Service)</strong><ul>
<li>서버, 네트워크, 스토리지를 가상화 환경으로 만들어 필요에 따라 인프라 자원을 사용할 수 있게 제공하는 서비스</li>
</ul>
</li>
<li><strong>PaaS</strong><ul>
<li>SaaS 개념을 개발 플랫폼으로 확장한 것으로, 웹에서 개발 플랫폼을 쉽게 빌려 쓸 수 있는 서비스</li>
</ul>
</li>
<li><strong>SaaS</strong><ul>
<li>IaaS와 PaaS 위에 올라가는 소프트웨어를 말하며, 온디맨드 소프트웨어라고 얘기함</li>
<li>중앙에서 호스팅되는 소프트웨어를 웹 브라우저 등 클라이언트로 이용하는 서비스</li>
</ul>
</li>
</ul>
<hr>
<h3 id="10빅데이터-플랫폼">10.빅데이터 플랫폼</h3>
<ul>
<li><p>다양한 데이터 소스로부터 수집한 데이터를 처리하고, 분석하여 지식을 추출하고 이를 기반으로 지능화된 서비스를 제공하는데 필요한 IT 환경을 의미</p>
</li>
<li><p>다양한 소스 (컴퓨터, 모바일 등) 로부터 생성되는 대량의 데이터를 처리하기 위하여 데이터의 수집, 저장 , 처리, 분석, 시각화를 제공</p>
</li>
<li><p><strong>빅데이터 분석 프로세스</strong></p>
<ul>
<li>데이터 수집 → 데이터 저장&amp;관리 (전처리/후처리) → 데이터 처리 (가공) → 데이터 분석 (계획 수립/시스템 구축) → 시각화 및 활용 → 데이터 폐기</li>
</ul>
</li>
<li><p><strong>하둡 에코 시스템</strong></p>
<ul>
<li>프레임워크를 이루고 있는 다양한 서브 프로젝트들의 집합으로 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분
<img src="https://velog.velcdn.com/images/harry_potter/post/6fd37691-de04-4b0c-888c-898c2e11c2d9/image.png" alt=""></li>
</ul>
</li>
<li><p><strong>비정형 데이터 수집</strong></p>
<ul>
<li><strong>척와 (Chuckwa)</strong><ul>
<li>에이전트와 컬렉터로 구성됨</li>
<li>분산된 각 서버에서 에이전트를 실행하고, 컬렉터는 에이전트로부터 데이터를 받아 HDFS에 저장</li>
<li><strong>데이터 수집, 하둡 파일 시스템에 저장, 실시간 분석기능 제공</strong></li>
</ul>
</li>
<li><strong>플럼 (Flume)</strong><ul>
<li>많은 양의 <strong>로그 데이터</strong>를 효율적으로 수집, 집계, 이동하기 위해 <strong>이벤트와 에이전트를 활용</strong>하는 기술</li>
</ul>
</li>
<li><strong>스크라이브 (Scribe)</strong><ul>
<li>다수의 서버로부터 <strong>실시간으로 스트리밍되는 로그 데이터를 수집</strong>하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술, 최종 데이터는 HDFS 외에 다양한 저장소를 사용</li>
<li>HDFS에 저장하기 위해서는 JNI(Java Native Interface) 이용해야함</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li><p><strong>정형 데이터 수집</strong></p>
<ul>
<li><p><strong>스쿱 (Sqoop)</strong></p>
<ul>
<li>대용량 데이터 전송 솔루션</li>
<li>커넥터를 이용해 RDBMS에서 HDFS로 데이터를 수집</li>
<li>HDFS에서 RDBMS로 데이터를 전송</li>
</ul>
</li>
<li><p><strong>히호 (Hiho)</strong></p>
<ul>
<li>스쿱과 같은 대용량 데이터 전송 솔루션</li>
<li>하둡에서 데이터를 가져오기 위한 SQL 지정 가능하며, JDBC 인터페이스를 지원한다.</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li><p><strong>HDFS</strong></p>
<ul>
<li><p>대용량 파일을 분산된 서버에 저장하고 , 그 저장된 데이터를 빠르게 처리할 수 있게하는 하둡 분산 파일 시스템</p>
</li>
<li><p><strong>구성 요소</strong></p>
<ul>
<li>네임 노드 → 마스터 역할 + 모든 메타데이터 관리</li>
<li>보조 네임 노드 → 상태 모니터링을 보조</li>
<li>데이터 노드 → 슬레이브 역할 + 데이터 입출력 요청</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li>분산 데이터베이스<ul>
<li><strong>HBase</strong><ul>
<li>HDFS 를 기반으로 구현된 컬럼 기반의 데이터베이스</li>
<li>실시간 랜덤 조회 및 업데이트 가능</li>
<li>구글의 BigTable 논문을 기반으로 개발된 것으로 각각의 프로세스는 개인의 데이터를 비동기적으로 업데이트 할 수 있다.</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li>분산 데이터 처리<ul>
<li><strong>맵리듀스 (Mapreduce)</strong><ul>
<li>구글 검색을 위해 개발된 분산환경 병렬 데이터 처리 기법</li>
<li>대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크</li>
<li>모든 데이터를 키 - 값 쌍으로 구성</li>
<li><strong>구성요소</strong><ul>
<li>Map → key - value 형태로 데이터를 취합</li>
<li>셔플 → 데이터를 통합하여 처리</li>
<li>리듀스 → 맵 처리된 데이터를 정리</li>
</ul>
</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li>리소스 관리<ul>
<li><strong>얀 (YARN)</strong><ul>
<li>하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼</li>
<li><strong>구성요소</strong><ul>
<li>리소스 매니저<ul>
<li>스케줄러 역할을 수행하고, 클러스터 이용률 최적화를 수행</li>
</ul>
</li>
<li>노드 매니저<ul>
<li>노드 내의 자원을 관리하고, 리소스 매니저에게 전달 수행 및 컨테이너를 관리</li>
</ul>
</li>
</ul>
</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li>인메모리 처리<ul>
<li><strong>아파치 스파크</strong><ul>
<li>하둡 기반 대규모 데이터 분산 처리 시스템으로 스트리밍 데이터, 온라인 머신러닝 등 실시간으로 데이터를 처리</li>
<li>필요한 데이터를 메모리에 캐시로 저장하는 인-메모리 방식 채택</li>
<li>OLTP 보다 OLAP 에 더 적합</li>
<li><strong>특징 : 불변성, 복원성, 분산성</strong></li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li><p>데이터 가공</p>
<ul>
<li><p><strong>피그 (Pig)</strong></p>
<ul>
<li>복잡한 맵리듀스 프로그래밍을 대체할 Pig Latin이라는 자체 언어를 제공</li>
<li>Mapreduce API를 매우 단순화시키고, SQL과 유사한 형태로 설계</li>
</ul>
</li>
<li><p><strong>Hive</strong></p>
<ul>
<li><strong>하둡 기반 DW (Data Warehouse) 솔루션</strong>으로 SQL과 유사한 HiveQL이라는 쿼리 제공 → 페이스북 제작</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li>데이터 마이닝<ul>
<li><strong>Mahout (머하웃)</strong><ul>
<li>하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈소스로 분류</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li><p>실시간 SQL 질의</p>
<ul>
<li><p><strong>임팔라 (Impala)</strong></p>
<ul>
<li>하둡 기반의 실시간 SQL 질의 시스템</li>
<li>데이터 조회를 위한 인터페이스로 HiveQL을 사용</li>
<li>수초 내에 SQL 질의 결과를 확인할 수 있으며, Hbase에 연동 가능</li>
</ul>
</li>
<li><p>Tajo (타조)</p>
<ul>
<li>다양한 데이터 소스를 위한 하둡 기반의 ETL 기술을 이용해서 데이터 웨어하우스에 적재하는 시스템</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li>워크플로우 관리<ul>
<li><strong>우지 (Oozie)</strong><ul>
<li>하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템</li>
<li>자바 서블릿 컨테이너에서 실행되는 자바 웹 어플리케이션 서버</li>
<li>맵리듀스, 피그와 같은 특화된 액션들로 구성된 워크플로우 제어</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li>분산 코디네이션<ul>
<li>주키퍼 (Zookeeper)<ul>
<li>분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공하는 기술</li>
<li><strong>하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리</strong></li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<h3 id="11빅데이터--인공지능">11.빅데이터 &amp; 인공지능</h3>
<p><img src="https://velog.velcdn.com/images/harry_potter/post/1b0df1e3-98a2-4a27-a8f1-a52337a21a1d/image.png" alt=""></p>
<h6 id="출처-httpsblogsnvidiacomblogwhats-difference-artificial-intelligence-machine-learning-deep-learning-ai">출처: <a href="https://blogs.nvidia.com/blog/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/">https://blogs.nvidia.com/blog/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/</a></h6>
<ul>
<li><p><strong>인공지능</strong></p>
<ul>
<li>인간의 지적능력을 인공적으로 구현한 기술</li>
<li>약인공지능 → 특정한 작업에 특화된 인공지능</li>
<li>강인공지능 → 인간과 동등한 지능 수준을 가지는 인공지능</li>
</ul>
</li>
<li><p><strong>머신러닝</strong></p>
<ul>
<li>사람이 수행하기에 복잡하거나 어려운 작업을 사람의 프로그래밍 없이 대량의 데이터를 접했을 때 스스로 수정하여 원하는 결과를 얻기 위한 기술</li>
<li>데이터 마이닝 ⇒ 현재의 특징 분석 / 머신러닝 ⇒ 데이터 예측</li>
</ul>
</li>
<li><p><strong>딥러닝</strong></p>
<ul>
<li>인간의 뇌와 흡사하게 구현한 신경망 알고리즘을 적용하여 보다 빠르고 효율적으로 학습하는 인공지능 → 사람의 개입 없이 인공 신경망 방식으로 스스로 학습하는 기술</li>
<li>딥러닝은 은닉층을 사용한 결과에 대한 해석이 어렵다</li>
<li>지도학습<ul>
<li>정답인 레이블이 포함되어 있는 훈련 데이터를 통해 학습시키는 방법</li>
</ul>
</li>
<li>비지도 학습<ul>
<li>입력 데이터에 대한 정답인 레이블이 없는 상태에서 훈련 데이터를 통해 학습 시키는 방법</li>
</ul>
</li>
<li>준지도 학습<ul>
<li>정답인 레이블이 포함되어 있는 훈련 데이터와 레이블이 없는 훈련 데이터를 통해 모두 훈련에 사용하는 학습 방법</li>
</ul>
</li>
<li>강화 학습<ul>
<li>어떤 환경 안에서 정의된 에이전트의 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법</li>
</ul>
</li>
</ul>
</li>
<li><p><strong>인공지능 경쟁력의 3요소</strong> (중요)</p>
<ul>
<li>알고리즘 → 기존 신경망 한계 극복</li>
<li>HW 발달 → GPU 능력 향상</li>
<li>Big Data → 풍부한 학습데이터</li>
</ul>
</li>
</ul>
<hr>
<h3 id="12-개인정보법제도">12. 개인정보법&amp;제도</h3>
<ul>
<li><p><strong>위기 요인</strong></p>
<ul>
<li><p>사생활 침해</p>
<ul>
<li>통제 방안 → 동의에서 책임으로</li>
</ul>
</li>
<li><p>책임 원칙 훼손</p>
<ul>
<li>통제 방안 → 결과 기반 책임 원칙 고수</li>
<li>분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성 증가</li>
</ul>
</li>
<li><p>데이터 오용</p>
<ul>
<li>통제 방안 → 알고리즘 접근 허용 (알고리즈미스트)</li>
<li>언제나 맞을 수는 없다</li>
</ul>
</li>
</ul>
<ul>
<li><strong>알고리즈미스트</strong><ul>
<li>데이터 오용의 대응책으로 알고리즘에 대한 접근권을 제공하여 예측 알고리즘에 불이익을 당한 사람들을 대변할 전문가가 필요하게 됨</li>
<li>알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제하는 전문인력</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li><strong>개인 정보 보호법</strong> (중요)<ul>
<li><strong>개인 정보 수집 시 동의를 얻지 않아도 되는 경우</strong><ul>
<li>법률에 특별한 규정이 있거나 법령상 의무 준수를 위해 불가피한 경우</li>
<li>공공 기관이 법령 등에서 정하는 소관 업무 수행을 위해 불가피한 경우</li>
<li>정보 주체와의 계약의 체결 및 이행을 위해 불가피하게 필요한 경우</li>
<li>사전 동의를 받을 수 없는 경우로 명백히 정보 주체 또는 제 3자의 급박한 생명, 신체, 재산의 이익을 위하여 필요하다고 인정되는 경우</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li><strong>빅데이터 3법</strong>
추가 정보의 결합 없이는 개인을 식별할 수 없도록 안전하게 처리된 가명 정보의 개념을 도입하는 것이 핵심<ul>
<li>개인정보보호법</li>
<li>정보통신망법</li>
<li>신용정보법</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li><strong>프라이버시모델 추론 방지 기술</strong><ul>
<li>K-익명성<ul>
<li>일정 확률 수준 이상 비식별 조치</li>
</ul>
</li>
<li>I-다양성<ul>
<li>민감한 정보의 다양성을 높임</li>
</ul>
</li>
<li>t-근접성<ul>
<li>민감한 정보의 분포를 낮춤</li>
</ul>
</li>
<li>m-유일성<ul>
<li>재식별 가능성 위험을 낮춤</li>
</ul>
</li>
</ul>
</li>
</ul>
<hr>
<ul>
<li>가명 처리<ul>
<li>개인 정보를 안전하게 활용하기 위해 특정 개인에 대한 정보들이 노출되지 않도록 가명처리를 수행</li>
<li><strong>가명 처리의 절차</strong><ul>
<li>1단계 (사전 준비)</li>
<li>2단계 (가명 처리)<ul>
<li>대상 선정<ul>
<li>목적 달성에 필요한 최소 항목을 처리하는 것이 원칙</li>
</ul>
</li>
<li>위험도 측정<ul>
<li>처리 환경 검토<ul>
<li>내부 활용</li>
<li>내부 제공</li>
<li>제 3자 제공</li>
</ul>
</li>
<li>항목 별 위험도 분석<ul>
<li>식별 정보 + 식별 가능 정보</li>
<li>처리 환경과 정보의 규모, 구체성 등을 고려한 다음 판단</li>
</ul>
</li>
</ul>
</li>
<li>가명 처리 수준 정의</li>
<li>가명 처리</li>
</ul>
</li>
<li>3단계 (검토 및 추가 처리)</li>
<li>4단계 (활용 및 사후 관리)</li>
</ul>
</li>
</ul>
</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[1. 빅데이터 분석 기획- 빅데이터의 이해 (1)]]></title>
            <link>https://velog.io/@harry_potter/1.-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EA%B8%B0%ED%9A%8D-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%98-%EC%9D%B4%ED%95%B4-1</link>
            <guid>https://velog.io/@harry_potter/1.-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EA%B8%B0%ED%9A%8D-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%98-%EC%9D%B4%ED%95%B4-1</guid>
            <pubDate>Fri, 16 Aug 2024 14:12:38 GMT</pubDate>
            <description><![CDATA[<h4 id="1-데이터의-특성">1. 데이터의 특성</h4>
<ul>
<li>정성적 데이터 (qualitative data)<ul>
<li>언어, 문자 등 비정형 데이터</li>
<li>주관적 내용</li>
<li>저장, 검색, 분석에 많은 비용이 소모됨</li>
<li>통계 분석이 어려움</li>
</ul>
</li>
</ul>
<ul>
<li>정량적 데이터 (quantitative data)<ul>
<li>수치, 도형, 기호 등 정형 데이터</li>
<li>객관적 내용</li>
<li>정형화된 데이터로 비용 소모가 적음</li>
<li>통계 분석이 용이함</li>
</ul>
</li>
</ul>
<hr>
<h4 id="2-지식의-구분">2. 지식의 구분</h4>
<ul>
<li>암묵지 (tacit knowledge)<ul>
<li>학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 (자전거 타기 등)</li>
<li>사회적으로 중요하지만 다른 사람에게 공유되기 어려움</li>
</ul>
</li>
</ul>
<ul>
<li>형식지 (explicit knowledge)<ul>
<li>문서나 매뉴얼처럼 형상화된 지식 (교과서, db 등)</li>
<li>전달과 공유가 용이함</li>
</ul>
</li>
</ul>
<p><img src="https://velog.velcdn.com/images/harry_potter/post/3026adb2-c24c-4125-bafe-52f7bea67fa2/image.PNG" alt=""></p>
<hr>
<h4 id="3-dikw">3. DIKW</h4>
<p><img src="https://velog.velcdn.com/images/harry_potter/post/9b594b6c-27b7-47df-9673-8879dc9fcdbf/image.webp" alt=""><center>[출처]:(<a href="https://www.slideegg.com/dikw-model">https://www.slideegg.com/dikw-model</a>) </center></p>
<ul>
<li><p><strong>Data</strong></p>
<ul>
<li>개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실</li>
</ul>
</li>
<li><p><strong>Information</strong></p>
<ul>
<li>데이터의 가공, 처리와 데이터 간 연관 관계 속에서 의미가 도출된 것</li>
</ul>
</li>
<li><p><strong>Knowledge</strong></p>
<ul>
<li>데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것</li>
</ul>
</li>
<li><p><strong>Wisdom</strong></p>
<ul>
<li>지식의 축적과 아이디어가 결합된 창의적인 산물</li>
</ul>
</li>
</ul>
<hr>
<h4 id="4-데이터베이스의-특징">4. 데이터베이스의 특징</h4>
<ul>
<li><p><strong>통합된 데이터 - 동일한 내용의 데이터가 중복되지 않다는 것을 의미</strong></p>
</li>
<li><p><strong>저장된 데이터 - 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미</strong></p>
</li>
<li><p><strong>공용 데이터 - 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미</strong></p>
</li>
<li><p><strong>변화되는 데이터 - 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 정확한 현재의 데이터를 유지해야 함</strong></p>
</li>
</ul>
<hr>
<h4 id="5-빅데이터의-정의">5. 빅데이터의 정의</h4>
<p>다양한 형태의 데이터를 목적에 맞게 분석함으로써 해당 분야의 필요 지식을 추출하여 전략적 의사 결정에 활용하거나 문제 해결에 이용하는 행위</p>
<h5 id="데이터의-양을-측정하기-위한-바이트의-크기">데이터의 양을 측정하기 위한 바이트의 크기</h5>
<p><img src="https://velog.velcdn.com/images/harry_potter/post/90ee78d9-2f7f-488b-bf37-4c829e3fcdfc/image.jpg" alt=""></p>
<h4 id="빅데이터의-주요-특징">빅데이터의 주요 특징</h4>
<ul>
<li><p><strong>가트너 3V</strong></p>
<ul>
<li><p><strong>Volume  (규모)</strong></p>
<ul>
<li>빅데이터의 가장 기본적인 특징으로 저장되는 물리적 데이터의 양이 매우 많음을 의미</li>
</ul>
</li>
<li><p><strong>Variety (다양성)</strong></p>
<ul>
<li>틀에 짜인 듯 형식이 정해져 있는 정형 데이터 뿐만 아니라 사진, 오디오, 영상, sns, 위치, 문서 등과 같이 구조와 형태를 정할 수 없거나 또는 짜여진 틀에 넣기 어려운 비정형 데이터도 포함</li>
</ul>
</li>
<li><p><strong>Velocity (속도)</strong></p>
<ul>
<li>데이터가 새로 생성되는 속도가 매우 빠르며, 연속적으로 생성되는 센서 데이터들이 실시간으로 전송되어 이를 처리하고 저장하거나 분석하는 속도 또한 매우 빠르게 이루어짐</li>
</ul>
</li>
</ul>
</li>
<li><p><strong>그 이외 4V</strong></p>
<ul>
<li>Veracity (진실성)</li>
<li><strong>Value (가치)</strong></li>
<li>Validity (정확성)</li>
<li>Volatility (휘발성)</li>
</ul>
</li>
</ul>
<hr>
<h4 id="6-빅데이터가-만들어내는-본질적인-변화">6. 빅데이터가 만들어내는 본질적인 변화</h4>
<ul>
<li><p><strong>사전 처리 → 사후 처리</strong></p>
</li>
<li><p><strong>표본 조사 → 전수 조사</strong></p>
<ul>
<li>표본 조사 : 관심 대상인 집단에서 부분 집단을 추출 후 부분 집단을 분석하여 이를 통해 모수를 추정하는 방식<ul>
<li>모집단 : 통계학에서 관심의 대상이 되는 또는 조사의 대상이 되는 모든 개체 값의 집합</li>
<li>모수 : 모집단의 특성치</li>
</ul>
</li>
<li>전수 조사 : 관심 대상인 집단 안의 모든 단위들을 전부 조사하여 모수를 추정하는 방식</li>
</ul>
</li>
<li><p><strong>질 → 양</strong></p>
</li>
<li><p><strong>인과관계 → 상관 관계</strong></p>
</li>
</ul>
<hr>
<h4 id="7-빅데이터의-가치">7. 빅데이터의 가치</h4>
<p><img src="https://velog.velcdn.com/images/harry_potter/post/8dbe72a7-f6c6-44fb-916e-2f3fb04699df/image.png" alt=""></p>
<ul>
<li>가트너가 빅데이터의 가치를 묘사 분석, 진단 분석, 예측 분석, 처방 분석의 4단계로 정의한 기법</li>
<li>분석 가치 에스컬레이터에서는 높은 난도를 수반하는 데이터 분석이 더 많은 가치를 창출</li>
<li><strong>묘사 분석</strong> : 과거에는 어떤 일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인</li>
<li><strong>진단 분석</strong> : 묘사 분석단계의 데이터를 기반으로 왜 발생했는지 이유를 확인</li>
<li><strong>예측 분석</strong> : 데이터를 통해 기업의 미래, 고객의 행동을 예측</li>
<li><strong>처방 분석</strong> : 예측을 바탕으로 최적화하여 무엇을 해야 할 것 인지를 확인하는 과정</li>
</ul>
]]></description>
        </item>
        <item>
            <title><![CDATA[첫 시작]]></title>
            <link>https://velog.io/@harry_potter/%EC%B2%AB-%EC%8B%9C%EC%9E%91</link>
            <guid>https://velog.io/@harry_potter/%EC%B2%AB-%EC%8B%9C%EC%9E%91</guid>
            <pubDate>Wed, 07 Aug 2024 08:05:33 GMT</pubDate>
            <description><![CDATA[<h2 id="ve-log를-시작하며">ve-log를 시작하며</h2>
<h5 id="나는-컴퓨터-공학과를-다니면서-이제-4학년-1학기를-마치고-2학기를-들어갈-취준생이다">나는 컴퓨터 공학과를 다니면서 이제 4학년 1학기를 마치고 2학기를 들어갈 취준생이다.</h5>
<h5 id="이미-늦었다면-많이-늦은-것일-수도-있지만-내가-공부-한-것과-생각한-것에-대하여-정리를-하는-시간을-가져보고-싶어서-동아리원들과-함께-블로그를-시작한다">이미 늦었다면 많이 늦은 것일 수도 있지만, 내가 공부 한 것과 생각한 것에 대하여 정리를 하는 시간을 가져보고 싶어서 동아리원들과 함께 블로그를 시작한다.</h5>
<p><img src="https://velog.velcdn.com/images/harry_potter/post/f27e47f3-67c8-4a88-995c-69fdbfdefad6/image.png" alt=""></p>
<hr>
<h5 id="현재는-정보처리기사-실기와-빅데이터-분석기사-필기를-준비하고-있고-이-둘과-병행해서-토익-준비도-함께-하고있다">현재는 정보처리기사 실기와 빅데이터 분석기사 필기를 준비하고 있고, 이 둘과 병행해서 토익 준비도 함께 하고있다.</h5>
<h5 id="빅데이터-분석기사는-이번-년도-9월-7일날-보는-필기-시험을-접수해-두었고-혼자서-공부하는게-서툴러서-주변-선배들에게-물어보고-구입한-데이터에듀-책으로-공부를-하려고-한다">빅데이터 분석기사는 이번 년도 9월 7일날 보는 필기 시험을 접수해 두었고, 혼자서 공부하는게 서툴러서 주변 선배들에게 물어보고 구입한 데이터에듀 책으로 공부를 하려고 한다.</h5>
<h5 id="노션에-정리하면서-공부하는-걸-좋아하기-때문에-정리본이-완성되면-벨로그에-공유하는-것도-목표이다">노션에 정리하면서 공부하는 걸 좋아하기 때문에 정리본이 완성되면 벨로그에 공유하는 것도 목표이다.</h5>
<p align="center"><img src="https://velog.velcdn.com/images/harry_potter/post/d4d6c288-5056-482c-b03a-34ff02c2d5c4/image.jpg" width="50%" height="50%"></p>

<hr>
<h5 id="올해가-가기-전까지-정보처리기사와-빅데이터-분석기사를-따고-토익-점수-850을-넘기는-것이-목표인데-나름-최선을-다해보고-싶다">올해가 가기 전까지 정보처리기사와 빅데이터 분석기사를 따고, 토익 점수 850을 넘기는 것이 목표인데, 나름 최선을 다해보고 싶다.</h5>
<h6 id="화이팅">화이팅!!!!</h6>
]]></description>
        </item>
    </channel>
</rss>