isitcake_yes.log

[자료구조/알고리즘] 해시(Hash), 해시테이블(Hash Table), 해시함수 (Hash Function) 개념 및 예제

Fri, 12 May 2023 10:05:28 GMT

해시(Hash)?

1. 개념

Hash(Hash Table) : Key : Value의 형태를 가진 하나의 자료구조 (python에서는 dictionary 구조) 모든 데이터 타입으로 접근이 가능하다.
- Hash function: 임의 길이 데이터(input)를 암호화된 고정 길이(output)의 int데이터로 매핑(전환)하는 함수

왼쪽 그림: Hash Function의 역할. 임의 길이 데이터를 고정길이 데이터로 전환. 오른쪽 그림 : buckets라고 하는 칸에는 key인 사람의 전화번호(value)가 있다. -> 즉, key값을 hash function에 넣어 얻은 hashes를 배열의 인덱스로 쓰는 테이블을 hash table이라고 한다.

[key] -> [hash func] -> [hash(==h(key))] - [value(in bucket)] 라는 네 단계를 거친다.

2. 충돌 Hash collision

충돌 : 서로 다른 key에 대해 동일한 hash값(index)이 부여된 상황

충돌 해결 1.개별체이닝 (Seperate Chaining)

: 충돌 발생 시 동일한 key에 다른 value를 연결리스트로 연결해 충돌을 해결하는 방법

충돌 해결 2.오픈 어드레싱 (Open Addressing)

: 충돌 발생 시 테이블 공간을 탐사해 빈 공간을 찾아나서는 방식

3. 시간복잡도 O(n) 속도 비교

일반적인 경우(Collision이 없음) -> O(1)
최악의 경우(Collision이 모두 발생) -> O(n)
해시 테이블의 평균(충돌이 일어나지 않았을 경우) 시간복잡도는 O(1)로, 매우 빠르게 탐색, 삽입 삭제할 수 있다.

ex) 배열과 해시 테이블 비교 : 10개의 배열에 데이터를 저장하고, 검색할 때 O(10) : 10개의 데이터 저장공간을 가진 해시 테이블에 데이터를 저장하고, 검색할 때 O(1)

4. 어떤 문제에서 해시를 사용해야 할까?

String을 기반으로 정보를 기록하고 관리해야 할 때 !
데이터를 빠르게 넣거나 가져와야 할 때 !
매우 긴 리스트, 리스트로 풀 경우 효율성 떨어지는 경우!
ex) 문제예시 (프로그래머스)
1. 완주하지 못한 선수 : 선수이름 (String key) -> 완주여부(Bool value)
2. 신고결과 받기 : 게시판 사용자 (String key) -> 신고자들의 목록 (Array value)
3. 위장 : 옷의 종류(String key) -> 옵션 개수 (integer value)

예제 - 완주하지 못한 선수

문제설명

수많은 마라톤 선수들이 마라톤에 참여하였습니다. 단 한 명의 선수를 제외하고는 모든 선수가 마라톤을 완주하였습니다. 마라톤에 참여한 선수들의 이름이 담긴 배열 participant와 완주한 선수들의 이름이 담긴 배열 completion이 주어질 때, 완주하지 못한 선수의 이름을 return 하도록 solution 함수를 작성해주세요.

제한사항

마라톤 경기에 참여한 선수의 수는 1명 이상 100,000명 이하입니다.
completion의 길이는 participant의 길이보다 1 작습니다.
참가자의 이름은 1개 이상 20개 이하의 알파벳 소문자로 이루어져 있습니다.
참가자 중에는 동명이인이 있을 수 있습니다.
입출력 예
participant, completion > return ["leo", "kiki", "eden"] ["eden", "kiki"] > "leo" ["marina", "josipa", "nikola", "vinko", "filipa"] ["josipa", "filipa", "marina", "nikola"] > "vinko" ["mislav", "stanko", "mislav", "ana"] ["stanko", "ana", "mislav"] > "mislav"
입출력 예 설명
예제 #1 "leo"는 참여자 명단에는 있지만, 완주자 명단에는 없기 때문에 완주하지 못했습니다. 예제 #2 "vinko"는 참여자 명단에는 있지만, 완주자 명단에는 없기 때문에 완주하지 못했습니다. 예제 #3 "mislav"는 참여자 명단에는 두 명이 있지만, 완주자 명단에는 한 명밖에 없기 때문에 한명은 완주하지 못했습니다.

BEST CODE (해쉬사용)

def solution(participant, completion):
    answer = ''
    temp = 0
    dic = {}
    # participant의 hash구조 만들기, hash sum구하기
    for part in participant:
        dic[hash(part)] = part
        temp += int(hash(part))
    # completion의 hash값 빼기        
    for com in completion:
        temp -= hash(com)
    answer = dic[temp]
>
    return answer

참고

노마드코더, Hash Table https://youtu.be/HraOg7W3VAM
해시(Hash) 개념 정리(Feat. 파이썬 알고리즘 인터뷰)
프로그래머스 코딩 테스트 연습, https://school.programmers.co.kr/learn/challenges

[ML/NLP] 텍스트 마이닝 (Text Mining) 용어정리 및 TDM (Term Document Matrix)

Tue, 09 May 2023 08:03:02 GMT

✏️ 텍스트 마이닝(Text Mining)이란?

Text Mining = Data Mining + NLP(Natural Language Processing)

정의 : 구조화되지 않은 대규모의 텍스트 집합으로부터 새로운 지식을 발견하는 과정
목적 : 정형화되지 않은 데이터를 정형화된 데이터로 바꾸는 것
과정 : Text > Parse > Weight > Transform > Classification or Cluster

👉 관련 용어 정리

토큰 Token : 가장 작은 단위. 분리자(띄어쓰기, 특수문자 등)를 포함하지 않는 연속적인 문자열.

용어 Term : 특정한 의미를 갖는 토큰.
문서 Document : 토큰으로 이루어진 집합.
코퍼스, 말뭉치 Corpus : 문서의 집합. 대량의 텍스트 데이터.
토큰화 Tokenize : 문장을 토큰들의 연속으로 분석하는 과정.
토크나이저 Tokenizer : 토큰화를 수행하는 프로그램 (ex. 은전한잎, 꼬꼬마 등)
형태소분석 Morphological Analysis : 토큰화(tokenize) + 품사판별 (Part of Speech Tagging)
어휘집합 Vacabulary : 말뭉치에 있는 모든 문서를 문장으로 나누고 토큰화를 실시한 후, 중복을 제거한 토큰들의 집합.
자연어 처리 Natural Language Processing : 인간이 사용하는 언어를 컴퓨터에게 이해시키기 위한 기술
임베딩 Embedding : 자연어를 기계가 이해할 수 있는 벡터(숫자의 나열)로 바꾼 결과 혹은 그 일련의 과정.
불용어 Stopwords(common words) : 자주 쓰이거나 의미를 갖지 않아 변별력이 없는 단어.
스테밍 Stemming : 단어의 뿌리/줄기를 찾는 방법. 다양한 접미사를 제거하고 단어의 수를 감소시키기 위해 사용.
태깅 Tagging : 단어에 품사를 붙이는 과정.
단어-문서 행렬 Term-Document Matrix, TDM : 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것

✏️ TDM (Term Document Matrix, 단어-문서 행렬)

데이터 정형화 : TDM 생성

비정형의 텍스트들(Document)로부터 형태소 분석을 통해 토큰(명사/형태소/Term 등)을 추출한 후 각각의 Document에서 해당 Term이 몇 번 나타나는지를 숫자로 표시하는 행렬 형태로 나타낸다.

가중치 적용 : TF-IDF가중치

Weighting : 문서를 더 잘 나타내는 용어(term)에 가중치 부여
- ex1. 문서 내 빈도가 높은 용어 -> 문서를 잘 설명하기 때문에, 높은 가중치 부여
- ex2. 코퍼스 내 빈도가 낮은 용어 -> 코퍼스 내 문서를 더 잘 식별하기 때문에, 높은 가중치 부여
TF(Term Frequency) 가중치
- TF_ij = log(1+f_ij) (여기에서, f_ij는 빈도수) -> 모든 문서에 나타나는 단어(ex. "a", "the")는 문서의 특징을 나타내는데 변별력이 없음(단점) -> TF-IDF가중치로 보완!
TF-IDF(Inverse Document Frequency) 가중치
- TF_ij * IDF_i (여기에서, i는 단어, j는 문서)
- IDF_i = log( N / df_i) (여기에서, N은 총 문서 수, df_i는 단어i를 포함하는 문서 수) -> TF-IDF 값은 전체 문서들(N) 중에서 단어 i가 적은 수의 문서에서 발생할수록, 발생횟수가 많을수록 큰 값을 가진다. -> IDF값이 클 수록 중요도가 커진다.

앞으로 임베딩, NLP 기법 등에 대해 공부해보자!! !! 위키독스 참고해서 꾸준히 실습도 해보자~!

[Software Engineering] 애자일(Agile) 소프트웨어 개발

Thu, 20 Apr 2023 06:01:17 GMT

📍 Agile Methods 애자일 방법론

* 애자일 소프트웨어 개발을 위한 4가지 원칙

Individuals and interactions over processes and tools 개인과 상호작용에 집중
Working software over comprehensive documentation 작동하는 소프트웨어에 집중
Customer collaboration over contract negotiation 고객 협력
Responding to change over following a plan 변화에 대응

* 변화에 드는 비용 Graph

기존 방법론에서는 프로세스가 진행될수록 변경사항에 대한 개발 비용이 굉장히 많이 든다.
애자일 방법으로 잘 구현하면 초기에는 비용이 더 들 수 있을지라도, 프로세스 전반에 걸친 변화에 잘 대응할 수 있다. 비용이 적게 든다.
요구사항이 계속 바뀔 수 밖에 없음을 인정. 변경에 잘 대응하는 체계로 변경.

* Plan-driven Development

전통적인 방법임.
정의되고 표준화되고 점진적으로 개선되는 프로세스
문서화 강조, 잘 정의된 중간산출물.
반복가능성, 예측가능성에 집중
미리 정의된 소프트웨어 시스템 아키텍처
상세한 계획, 워크플로, 역할, 책임 및 작업 제품 정의

* 애자일 선언의 12가지 원칙

당사의 최우선 과제는 가치있는 소프트웨어를 조기에 지속적으로 제공함으로써 고객을 만족시키는 것이다.
개발 후반부에도 변화하는 요구사항을 환영한다. 애자일 프로세스는 고객의 경쟁우위를 위해 변화를 이용한다.
작동하는 소프트웨어를 2주에서 2개월까지 자주 배포하고, 더 짧은 기간을 선호한다.
비지니스 담당자와 개발자는 프로젝트 기간 내내 매일 함께 작업해야 한다.
동기부여받은 개인을 중심으로 프로젝트를 구축하라. 그들에게 필요한 환경과 지원을 제공하고 일을 완수할 수 있도록 믿어준다.
가장 효율적이고 효과적으로 정보를 전달하는 방법은 직접 대면하는 대화이다.
작동 중인 소프트웨어는 진행 상황의 주요 척도이다.
지속가능한 개발을 촉진한다. 후원자, 개발자, 사용자는 일정한 속도를 유지할 수 있어야 한다. 개발 패이스를 균일화 한다.
기술적 우수성과 우수한 디자인에 대한 지속적인 관심은 애자일을 향상시킨다.
단순화, 즉 하지 않아도 되는 일을 줄이는 기술은 필수적이다.
최고의 아키텍처, 요구사항 및 디자인은 스스로 조직화하는 팀에서 나온다.
팀은 주기적으로 어떻게 하면 더 효과적으로 일할 수 있을지 회고한 다음 그에 따라 행동을 조정하고 조정한다.

* 애자일 프로젝트 관리

Timebox management technique 타임박스 기법
- 결과물 제작 마감일(상수)은 정해져있으며 변경해서는 안된다.
- 해당 시간 안에 결과물이 나와야 함.
- 타임박스는 잘 알려진 정의된 결과물은 주어진 리소스로 제작해야 한다.
- 결과물의 범위는 프로젝트 관리의 변수 중 하나이다. 하지만 품질(상수)은 결코 변수가 될 수 없다.
Rolling wave planning
- 파도치는 모형, 물결이 점점 커지는 plan
- 가까운 것은 상세하게 planning, 뒷 일정은 대략적인 planning
Pull system, Not Push system
- 팀 멤버들이 본인의 일을 끌어가는 방식

📍 eXtreme Programming (XP)

: 1990년대 후반에 개발된 매우 영향력 있는 애자일 방법론. 소프트웨어를 개발하는 중소규모 팀을 위한 경량 방법론. 요구사항이 자주 바뀌거나 모호한 소프트웨어 개발시 사용.

XP의 소프트웨어 개발 문제 해결법

일정 지연 Schedule slips -> 릴리즈를 자주 함(1-4주기), 우선순위가 높은 기능을 우선적으로 개발.
프로젝트가 취소됨 Project Canceled -> 고객이 기능 우선순위를 선택하게 해서 개발.
시스템을 다시 개발해야하는 상황 System goes sour (needs replace) -> 지속적인 통합, 자동 테스트로 해결
운영중인 S/W의 높은 결함률 High Defect Rate of S/W in production -> 개발자와 고객에 의한 테스트 강화
비지니스에 대한 잘못된 이해 Business misunderstood -> 고객을 팀의 필수로 포함.
비지니스가 변경됨 Business change -> 짧은 릴리즈 주기로 인해 변경사항을 적게 유지하며, 신규/변경된 기능을 환영한다.
엄한 feature가 많음 False feature rich -> 우선순위가 가장 높은 작업에 집중
이직률 Staff turnover -> 개발자가 자신의 작업을 추정하고 완료할 수 있도록 책임과 권리 부여.(Pull방식)

XP Practices

*XP의 practice들은 잘 엮여있다.

The Planning Game
- 심플하게 게임처럼 계획 세움.
- 요구사항은 스토리카드(명세서X)에 기록되고, 릴리즈에 포함될 스토리는 소요시간과 우선순위에 의해 결정된다.
- 비지니스 담당자는 범위scope, 우선순위, 릴리즈 구성, 날짜, 릴리즈 등의 사항을 결정.
- 기술 담당자는 규모, 결과, 프로세스, 세부일정 결정
Small releases 소규모 릴리즈
- 간단한 시스템을 신속하게 프로덕션에 적용한 다음, 매우 짧은 주기로 새버전을 릴리즈한다.
Metaphor
- 전체 시스템에 대한 간단한 공유 스토리로 전체 개발을 안내한다.
Simple design 단순한 디자인
- 현재 요구사항을 충족할 만큼만 설계.
- 올바른 디자인 - 1.모든 테스트 실행. 2.중복된 로직이 없음. 3.개발자에게 중요한 코드 명시. 4.가능한 클래스와 메서드는 적게.
Testing 테스트
- XP의 핵심이며, 모든 변경이 이루어진 후 프로그램을 테스트하는 접근방식 개발
- XP 테스트 특징
  - 테스트 우선 개발
  - 시나리오부터 점진적 테스트 개발
  - 테스트 개발 및 검증에 사용자가 참여
  - 테스트 자동화
- 테스트 중심 개발(TDD, Test-Driven-Development)
  - 코딩 전에 테스트를 작성하면 구현해야 할 요구사항이 명확해짐.
  - 테스트 자동화 - Junit과 같은 테스트 프레임워크 사용. 새 기능이 추가되면 모든 이전 테스트와 새 테스트가 자동으로 실행.
Pair programming
- 프로그래머가 짝을 이루어 같은 컴퓨터에 앉아 함께 코드를 개발함.
- 모든 팀원이 개발 과정에서 서로 협력할 수 있다.
- 코드에 대한 공동의 소유권을 개발하고 팀 전체의 코드에 대한 이해도 상승.
- 리팩토링 시 많은 도움이 됨.
Refactoring
- 기능은 유지하고 내부 코드 구조는 더욱 좋게 개선한다.
- 소프트웨어 개선이 가능한 부분을 찾아서 당장 개선이 필요하지 않은 부분까지 개선한다.
- 이렇게 하면 소프트웨어의 이해도가 향상되어 문서화할 필요성이 줄어든다.
- 코드가 체계적이고 명확하기 때문에 변경하기가 더 쉽다.
Collective ownership 공동 소유권
- 모든 사람이 전체 시스템에 대한 책임을 진다.
- 코드의 어떤 부분에 가치를 더할 수 있는지 발견한 사람은 누구나 언제든지 그렇게 할 수 있다.
Continuous integration(CI) 지속적인 통합
- 개발자 코드 변경 > 변경사항 Build > Test > 결과 노티스
- 코드통합 및 테스트는 몇시간 후 혹은 최대 하루 이내에 완료.
- 테스트를 빠르게 실행.
40 hour week - 지속적인 개발을 위함
On-site customer 현장고객
- 실제 고객(시스템 사용자)이 팀에 참여하여 질문에 답변하고, 기능 테스트에 대한 테스트케이스 작성, 우선순위 결정 등을 할 수 있어야 한다.
- 고객이 프로젝트의 가치를 창출할 수 있다.
Coding standards - 표준을 지켜 개발한다.

📍 Scrum 스크럼

반복적인 개발을 관리하는 데 중점을 두는 애자일 방법.

Relay race VS. Rugby approach

릴레이 (Waterfall 방식)
- 프로젝트는 순차적으로 진행, 단계에서 단계로
- 기능이 전문화되고 세분화
- 부서들이 명확함
- 럭비 접근 방식
  - 다분야 팀의 지속적인 상호작용을 통해 이루어진다.
  - 멤버들은 처음부터 끝까지 함께 일한다.
  - 팀 전체가 최종적인 목표를 이룬다.

속도와 유연성을 제공하는 6개 특징 (스크럼 철학)

1. Built-in instability 불안정성이 내포됨

명확한 신제품 컨셉이나 구체적인 작업 계획을 제시하는 경우는 거의없다.
프로젝트 팀에게 매우 도전적인 목표와 프로젝트를 수행할 수 있는 큰 자유가 주어진다.

2. Self-organizing project teams 자체 조직화 된 프로젝트 팀

본사는 초기에만 개입하고, 팀은 자유롭게 방향을 설정할 수 있다. 한계를 향한 끝없는 탐구
다양한 기능적 전문성, 사고 프로세스 및 행동패턴을 가진 구성원들로 구성됨

3. Overlapping development phases 중복되는 개발단계

개발 형태를 오버랩핑 방식으로 진행.
문제 해결에 초점을 두고 주도적인 자세를 취하도록 한다.
"공유 분업" 필요

4. Multi-learning

다단계 학습 : 개인 수준의 학습 > 그룹 수준의 학습 > 기업수준의 학습
다기능 학습 : 자신의 분야가 아닌 다른 분야에서도 경험을 쌓도록 권장됨.

5. Subtle control 섬세한 제어

프로젝트 팀은 대부분 독립적으로 운영되지만 통제를 받지 않는 것은 아니다.
"자기 통제", "또래의 압력을 통한 통제", "사랑에 의한 통제"에 중점을 둠.
- 적합한 사람 선택 / 개방적인 업무 환경 조성/ 고객의 의견을 경청하도록 장려 / 그룹 성과에 따른 평가 보상 시스템 구축. 팀워크 강조 / 실수를 예측하고 관용 / 협력업체 또한 스스로 조직화하도록 장려

6. Organizational transfer of learning

조직 내에 경험이 내재화, 표준화 되어 공유되도록.
후속 신제품 개발 프로젝트 또는 조직의 다른 부서로 학습을 전이하는 작업은 정기적으로 이루어짐
기업들은 성공에서 얻은 교훈을 제도화하기 위해 노력함.

소프트웨어 개발을 위한 스크럼 프로세스

스크럼은 일반적으로 사용되는 반복적/점진적 개발주기를 강화한 것이다.
Pregame(계획, 시스템 아키텍처, 상위레벨 디자인) > Game(개발 스프린트) > Postgame(릴리즈)

Sprint cycle 스프린트 주기

스프린트는 일반적으로 2-4주 동안 고정된 기간으로 진행
Product backlog : 프로젝트에서 수행해야할 작업 목록(feature list)
선택 단계에서는 고객과 협력하여 스프린트 기간 동안 개발할 기능을 Product backlog에서 선택함.
개발 기능에 따른 개발팀이 구성되면, 개발팀은 고객과 조직으로부터 분리되며, 모든 커뮤니케이션은 '스크럼마스터'를 통해 이루어짐.
스크럼 마스터의 역할은 외부의 방해요소로부터 개발팀을 보호하는 것
스프린트가 끝나면 완료된 작업을 검토하고 이해관계자에게 발표함. 그러면 다음 스프린트 주기가 시작됨.

역할

프로덕트 오너
- 제품 기능 또는 요구사항을 식별하고 개발 우선순위를 정함.
- Product backlog를 지속적으로 검토, 비지니스 요구사항을 충족하는지 계속 확인.
- 고객일 수도 있고 소프트웨어 회사의 제품관리자일 수도 있음.
스크럼 마스터
- 스크럼 프로세스를 준수하는지 확인하고 팀을 가이드 함.
- 다른 부서와의 인터페이스를 담당함
- 스크럼 팀이 외부의 간섭에 의해 방향을 전환하지 않도록 하는 책임이 있다.
- 프로젝트 관리자(PM)로 생각해서는 안된다.
개발팀
- 자체적으로 조직된 소프트웨어 개발자 그룹.
- 소프트웨어 및 기타 문서 개발을 담당.

워크플로우

* 스크럼 미팅의 목표 - 프로젝트/스프린트 목표 공유, 진행상태 매일 갱신, 위험과 이슈 식별 및 해결

스프린트 계획 미팅 : 각 스프린트 시작시 / Product backlog 검토 / Sprint backlog 추정
일일 스크럼 미팅 : 어제 오늘 무엇을 할건지 / 어떤 이슈가 있는지 (15분 남짓)
스프린트 검토 미팅 : 스프린트 검토 / 이해관계자에게 데모 시연
스프린트 회고 : 스프린트 프로세스 검토

Artefacts 산출물

Product backlog : 스크럼 팀이 처리해야 하는 '해야할일' 항목의 정렬된 목록 (덜 상세함)
Sprint backlog : 스프린트 기간동안 개발팀이 해결해야 하는 작업 목록 (매우 상세함)

진척(진행상황) 추적

Task board 작업보드 : 스프린트 작업의 상태 (할일/진행중/완료)
Sprint Burn-down chart : 매일 진행상황 추적, 남은 노력에 집중 (X축 타임라인, Y축 남은 작업)
Release Burn-down chart : 각 스프린트 별 스토리포인트 남은 정도 차트. 전체 프로그레스 확인. (X축 스프린트, Y축 남은 작업)

📍 Lean Software Development 린 소프트웨어 개발

: Toyota 시스템에서 시작. 근본적인 린 원칙 - 낭비(고객에게 가치를 창출하지 못하는 모든 것)의 절대적 제거 ex) 과잉생산으로 인한 낭비, 시간 낭비, 운송 낭비, 재고 낭비, 결함이 있는 제품을 만드는 낭비 등..

7가지 린 원칙

1. 낭비를 제거 Eliminate waste

소프트웨어 개발의 7가지 낭비 : Partially Done Work / Extra Processes / Extra Features / Task Switching / Waiting / Unnecessary Motion / Defects

2. 학습 증폭 Amplify Learning

피드백으로부터 배움. 짧은 반복

3. 가능한 늦게 결정 Decide as late as possible

동시에 소프트웨어 개발 - 변화하는 요구 사항에 대처
의사결정 지연

4. 최대한 빠르게 전달 Deliver as fast as possible

비지니스 유연성 확정
진행중인 작업을 줄이고 빠르게 결과물을 제공.
가능한 한 늦게 결정을 보완한다.
풀(Pull) 시스템을 통해 직원들이 가장 효과적으로 시간을 활용할 수 있도록 지원

5. 팀역량 강화 Empower the team

리더십 : 관리자 vs 리더
관리자 - 복잡성에 대처 : 계획 및 예상 / 조직 및 직원 구성 / 추적 및 제어
리더 - 변화에 대처 : 방향 설정 / 사람 정렬 / 동기부여 활성화

6. 무결성 구축 Build Integrity in

시작부터 모든 단계에서 품질 구축.
고객 테스트 참여.
리팩토링을 해서 변화에 대처할 수 있도록.

7. 전체를 보기 See the whole

시스템 사고 : 시스템은 상호의존적이고 상호작용하는 부분으로 구성됨. 최고의 부품이 최고의 시스템을 만드는 것은 아니다.
로컬 최적화 피하기
측정 : 전문화된 기여도를 기준으로 측정

📍 KANBAN 칸반

: Just-In-Time(JIT)기반의 애자일 프로젝트 관리방법

Timeboxing 기반의 iteration계획을 수립하지 않고 WIP(Work-In-Process)의 양을 관리

📍 DevOps

: Development(개발) + Operations(운영)

지속적인 배포에 집중 Continuous Integration and Delivery

도구 카테고리 및 참조 도구

협업도구 : 잔디(JANDI), Slack, Microsoft Teams, Flow, Confluence 등
프로젝트 관리/요구사항관리 도구 : Redmine, Trello 등/Doors등
결함/이슈 추적: mantis, Bugzilla, Jira, ClearQuest등
코드품질(static analysis, code review) / 제품품질(test자동화)
- 정적분석 Static analysis: PMD, CPPCheck, Prevent, Klockwork, sonarqube, Veracode 등
- Code review: Gerrit, code collaborator, crucible 등
- 테스트 자동화 도구 (code level, feature level, UI 포함 등)
Continuous Integration / 형상관리 : Jenkins, Hudson 등 / SVN, GitHub, ClearCase 등

+ WBS (Work Breakdown Structure, 업무 분류 체계)

: WBS - 모든 계획작업의 기초. 프로젝트 전체 범위를 구성하고 정의함. 프로젝트 팀이 프로젝트 목표를 달성하고 필요한 인도물을 산출하기 위해 실행하는 작업을 인도물 중심의 계층 구조로 세분해 놓은 것.

1단계 프로젝트(Project) > 2단계 단계(Phase) > 3단계 작업(Task) > 4단계 작업패키지(Work Package, 가장 작은 수준의 작업)
WBS의 목적
- 전체상 파악
- 각 단계의 목표와 달성수단의 명확화
- 일정, 자원, 범위의 계획을 제대로 세우기 위한 기준
- 업무누락 방지
- 이후 프로젝트의 진행, 추적 관리의 기준
- 원가 집계, 요약/보고의 체계
Decomposition 분해 : 프로젝트 범위와 프로젝트 결과물을 더 작고 관리하기 쉬운 부분으로 나누는 기법
Expert Judgement 전문가 판단 : 사전에 정의된 템플릿 제공. 잘 세분화하는 방법에 대해 의견 제공.
WBS 작성시 유의사항
- 최하위 타스크(워크 패키지)의 경우, 산출물이 누락되지 않도록 정의
- MECE(Mutually Exclusive and Collectively Exhaustive)의 원칙에 맞게 작성
- WBS 작성 후 번호 부여
- 번호는 업무의 순서와는 관계가 없고 위계 (Hierarchy)를 나타냄.
- WBS 구조 : Top-down 또는 Bottom-UP 둘다 가능
  프로젝트 진척율 계산
WBS구조에서 작업패키지(Work Package, 최하위 task)에 진척율을 입력하여 상위task로 집계
각 Phase 또는 전체 프로젝트 진척율 계산
진척율 산정 - 가중치 적용
- Task별 가중치를 부여한다.
- 상위레벨에 가중치 부여, 하위레벨은 필요시 가중치 부여.
- 최하위 레벨부터 가중치 부여하여 sum-up도 가능
- ex) 단계별 기능점수 가중치 분석(0.19), 설계(0.24), 구현(0.32), 시험(0.25). 합계(1.0)

+ 실제 개발 프로세스

하이브리드 모델 주로 많이 사용됨.

데이터 사이언스 논문 모음

Wed, 12 Apr 2023 02:57:41 GMT

논문 읽기는 "효과가 확실한 맛없는 약" 이라는 글을 본 적이 있다.. 쓰더라도 효과가 확실함을 믿고 열심히 차근차근 읽어보자!

- Attention Is All You Need

[Paper on arXiv]

- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

[Paper on DeepMind's site]

출처 : 6 Papers Every Modern Data Scientist Must Read

- Documentation Matters: Human-Centered AI System to Assist Data Science Code Documentation in Computational Notebooks

[Paper on ACM]

- Assessing the effects of fuel energy consumption, foreign direct investment and GDP on CO2 emission: New data science evidence from Europe & Central Asia

[Paper on Sciencedirect]

- Impact on Stock Market across Covid-19 Outbreak

[Paper on iJRASET]

- Exploring the political pulse of a country using data science tools

[Paper on arXiv]

- VeridicalFlow: a Python package for building trustworthy data science pipelines with PCS

[Paper on JOSS]

- From AI ethics principles to data science practice: a reflection and a gap analysis based on recent frameworks and practical experience

[SpringerLink]

- Detection of Road Traffic Anomalies Based on Computational Data Science

[Paper Link]

- Data Science Data Governance [AI Ethics]

[Paper on IEEE]

출처 : Top 10 Must-Read Data Science Research Papers in 2022

[Software Engineering] 소프트웨어 개발 생명주기(Life Cycle) 모델 종류와 장단점

Thu, 06 Apr 2023 12:38:58 GMT

⚙️소프트웨어 라이프 사이클 모델

소프트웨어 개발 생명주기(Software Development Life Cycle)란?

소프트웨어 생명주기 모델 프로세스 : 요구사항 분석 > 설계 > 구현 > 테스트 > 유지보수
소프트웨어 개발에 대한 단계별 접근 방식
시스템의 요구분석부터 유지보수까지 전 공정을 체계화한 절차
개발 프로세스를 단계별로 단순화•추상화한 것

*모델 종류 * • 코딩과 수정(주먹구구식) 모델 | Code-and-fix model • 폭포수 모델 | Waterfall model • 프로토타입 모델 | Prototyping model • 점증적 모델 | Incremental model • 나선형 모델 | Spiral model • 통합 프로세스 모델 | Unified Software Development Process • V모델 | V model • 에자일 방법론 | Agile methods

주먹구구식 모델 Code-and-Fix model

: 공식적인 가이드라인이나 프로세스가 없는 개발 방식. 간단한 기능만을 정리하여 개발하는 형태.

클라이언트가 만족할 때까지 수정. No디자인 No플랜 No명세서

장점 (+)	단점 (-)
- 작은 프로젝트에서는 유용하다.	- 대규모 프로젝트는 불가하다. - 여러 개발자가 협업이 불가하다. - 가독성이 떨어질 수 있다. - 유지보수 어렵다.

폭포수 모델 Waterfall model

: 각 단계가 하향식(top-down)으로 진행되며, 병행하거나 거슬러 반복되지 않는 형태.

문서화 강조. 명세서를 기준으로 다음 단계로 넘어감. 요구 사항을 잘 정리되어 있고, 리스크가 적은 소규모 프로젝트에 적합하다.

장점 (+)	단점 (-)
- 절차가 간결하고 이해하기 쉽다. - 단계별 진척사항에 대한 관리가 용이하다. - 각 단계별 산출물을 체계적으로 문서화 할 수 있다.	- 소프트웨어 요구사항이 후반에 테스트 되기 때문에 중간에 가시적인 결과를 볼 수 없다. - 고객이 모든 요구사항을 사전에 명시하기 어렵다. - 원하는 결과가 나오지 않았을 때 보완하기 위한 시간과 비용이 많이 든다. (리스크가 크다.)

프로토타입 모델 Prototyping model

: 사용자의 요구사항에 따른 시제품을 만들어 최종 결과물을 예측해본 후, 개발을 진행하는 형태.

Throw-away prototype : 최종 프로토타입을 통해 결정된 최종 요구사항을 가지고 본격적으로 시스템을 만든다.
Evolutionary prototype : 요구사항을 반영하여 구현된 프로토타입을 버리지 않고 지속적으로 개선하여 최종 시스템으로 완성. (cf. 나선형 모델..)

장점 (+)	단점 (-)
- 고객의 요구사항을 정확히 반영. - 초기 마케팅에 도움을 줄 수 있다. - 눈으로 확인함으로써 소프트웨어가 어떻게 작동할 것인지 예상할 수 있다. - 사용자와 의사소통의 도구로 사용되어 구체적이고 원활히 대화할 수 있다.	-프로토타이핑 과정을 관리, 통제하기 어렵다. - 개발범위가 명확하지 않아 언제 종료될 지 모른다. 광범위하게 고객과의 협업이 요구된다. - 투입 인력과 비용 산정이 어렵고, 프로토타입에 따른 추가비용이 들 수 있다.

점증적 모델 Incremental model

: 사용자의 요구사항 일부분 혹은 시스템의 일부분을 개발하여 단계적으로 릴리즈하고, 점진적으로 개발 범위를 늘려가 시스템을 완성하는 방식.

장점 (+)	단점 (-)
- 사용자들 초기 피드백 수용이 용이하다. - 고객의 요구사항을 더 잘 충족시킨다. - 서비스를 빠르게 시작할 수 있고, 인력 분배가 유용하다.	- 배포 후에도 계속 릴리즈되기 때문에 유지보수를 관리하기 어렵다.

나선형 모델 Sprial model

: 리스크 최소화 하기 위해 여러 번의 개발 과정을 거쳐 점진적으로 완벽한 시스템을 개발해 나가는 모델. 위험관리 및 위험 최소화가 목적이다. 폭포수 모형 + 프로토타입 모형 + 위험분석 추가

진화적 프로토타입 모델 절차를 따르고, 위험분석 단계가 추가된 모델.

장점 (+)	단점 (-)
- 폭포수 모델과 프로토타입 모델의 장점을 통합했다. - 처음부터 위험에 대한 고려를 하며 개발이 진행되기 때문에 위험 요소가 줄어든다. - 반복적 개발 방식에 의해 요구사항이 충분히 반영된다.	- 위험 분석에 대한 기술 전문 지식이 필요하다. - 모델이 복잡하고 이해하기 어렵기 때문에 전문적인 관리가 필요하다. - 반복횟수가 많아질수록 프로젝트 관리가 어렵다.

통합 프로세스 모델 USDP(Unified Software Development Process)

: 폭포수 모델의 문제점을 해결하기 위해 등장한 모델로, 도입, 구체화, 구축, 전이 단계의 과정 속에서 세부 개발 활동이 반복적으로 이루어지는 모델이다.

대표적인 반복적, 점증적 프로세스이다 -> 위험요소를 초기에 완화할 수 있다.
한 단계에서 특정 업무만 하지 않는다.
아키텍처와 객체지향이 중요해짐에 따라 활용도가 증가하고 있다.

V 모델

: 폭포수 모델에 테스트(검증) 단계를 추가하여 각 개발단계를 검증하는데에 초점을 둔 모델이다.

단위테스트 / 통합테스트 / 시스템테스트 / 인수테스트를 진행한다.
개발 단계를 검증하는 데 초점을 두므로 오류를 줄일 수 있다.
V & V (Verification and Validation) 모델
- Verification : 개발자관점 the product right ?
- Validation : 사용자 관점 the right product ?

애자일 방법론 Agile Methods

: 일정한 주기를 반복하며 진행하고, 고객과의 소통에 초점을 맞춘 방법론.

Iterative 반복적 / Incremental 점진적 / Evolutionary 진화적
짧은 주기 반복, 초기에 구체적이고 지속적인 피드백
점진적인 계획 접근 방식
변화하는 비즈니스 요구에 대응하여 구현 일정을 유연하게 조정
고객 요구사항 변화에 빠르고 유연하게 대응

애자일 방법론 (일하는 방식)

eXtreme Programming (XP)
Scrum
Lean Software Development
DevOps

더욱 자세한 애자일 방법론에 대한 내용은 다음 스터디에서 계~~속~~…🏓📚

[Software Engineering] 소프트웨어 프로세스 개선(SPI) 및 소프트웨어 프로세스(SP) 품질인증 모델

Fri, 31 Mar 2023 05:04:53 GMT

⚙️소프트웨어 개발 프로세스 개선 Software Process Improvement(SPI)

소프트웨어 프로세스 & 개발 생명주기

소프트웨어를 개발할 때 일을 수행하는 작은 단위를 작업(task)이라고 한다. 소프트웨어 개발 프로세스는 이 작업 순서의 집합이라고 할 수 있으며, 작업 순서뿐 아니라 일정, 예산, 자원과 같은 제약 조건을 포함하는 일련의 활동을 말한다.
소프트웨어 개발 생명주기 : 계획 > 분석 > 설계 > 구현 > 테스트 > 유지보수

소프트웨어 프로세스 개선(SPI)

소프트웨어 품질을 향상시키기 위해서는 소프트웨어 프로세스를 개선을 통해 소프트웨어 품질을 개선하려는 노력이 필요하다!! = ⭐️Software Process Improvement (SPI)⭐️
소프트웨어 개발과 관련된 모든 활동을 더욱 체계적으로 수행함으로써, 개발 소프트웨어의 결함을 줄이고 더 품질 좋은 제품을 만들기 위함.
SPI Benefits
- 품질, 비용, 시장 출시 시간, 프로세스 품질, 제품 품질, 추정 정확도, 생산성, 고객 만족, 직원 만족도
  📌 프로세스 개선 모델
CMMI
- SW 개발 조직의 업무 능력 및 성숙도를 평가하는 모델
- 초기 -> 관리 -> 정의 -> 정량적 관리 -> 최적화
SPICE
- 소프트웨어 품질 향상을 위해 평가 및 개선하는 국제 표준
- ISO/IEC15504
  📌 프로세스 평가 모델
SP인증 제도
- 5개 영역, 17개 평가항목, 70개 세부평가 항목

⚙️ 소프트웨어 프로세스(SP) 품질인증 모델

인증기준의 평가 영역

프로젝트 관리 2. 개발 3. 지원 4. 조직관리 5. 프로세스 개선

1. 프로젝트 관리

1.1 프로젝트 계획

프로젝트 계획 수립 활동은 프로젝트의 성공적 수행과 관리를 위해 관련 기준 및 계획을 마련하는 것이다.

세부 평가항목

프로젝트의 목표 및 범위 결정한다.
프로젝트에 적용할 생명주기와 프로세스 정의한다.
공수와 비용 산정한다.
일정과 예산 결정한다.
프로젝트 관리에 필요한 계획 수립한다.
프로젝트 계획서 작성 및 승인의 획득한다.

1.2 프로젝트 통제

프로젝트 통제 활동은 프로젝트 계획 시에 수립하였던 각종 계획 요소들의 실제 수행 상황을 점검하여, 프로젝트의 목표를 달성하도록 하는 것이다.

세부 평가항목

프로젝트 계획 요소 점검한다.
프로젝트 진척사항 검토한다.
주요 단계별 산출물 검토한다.
식별된 문제들을 분석한다.
시정조치 활동 수행한다.

1.3 협력업체 관리

협력업체 관리 활동은 프로젝트에 참여하는 외부 조직인 협력업체를 적절하게 선정하고 계약을 체결하며, 계약에 명시된 사항의 이행을 관리하는 것이다.

세부 평가항목

획득 대상 및 범위 결정한다.
협력업체 선정한다.
협력업체와 계약 체결한다.
협력업체의 계약 이행 여부 확인한다.
제품 및 서비스 검수한다.

2. 개발

2.1 고객 요구사항 관리

: 고객 요구사항 관리 활동은 시스템 관점에서 개발할 시스템의 범위와 품질 목표를 정의하고, 지속적으로 변할 수 있는 요구사항을 관리하여 고객 요구사항에 부합하는 시스템 개발을 가능하도록 하는 것이다.

세부 평가항목

고객 요구사항을 정의한다.
고객 요구사항의 변경을 관리한다.
고객 요구사항과 산출물간 추적성을 유지한다.

2.2 분석

: 분석 활동은 고객 요구사항을 바탕으로 SW 개발에 필요한 하위 수준의 요구 사항을 식별하고 상세화하며 이를 검토하여 정확한 SW를 개발하고자 하는 것이다.

해결해야 할 사용자의 문제(Problem) 에 대한 분석
시스템이 사용자에서 무엇을 제공해야 하는지 “What” 을 정의
기능 요구사항 뿐 아니라 비기능 요구사항 (성능, 사용성 등 품질 요구사항)에 대한 정의가 중요함
품질 요구사항간 트레이드 오프 (Trade-off) 분석 및 검토 필요

세부 평가항목

소프트웨어 요구사항을 정의한다.
소프트웨어 요구사항을 분석한다.
소프트웨어 요구사항을 검토한다.

2.3 설계

: 설계 활동은 구현 시 참조할 수 있고 요구사항에 부합하는지 검증할 수 있는 산출물을 작성하여 SW 개발을 준비하는 것이다.

세부 평가항목

구조 설계를 수행한다.
상세 설계를 수행한다.
테스트 계획을 수행한다.

구조설계 vs 상세설계

구조설계 : 전체 시스템의 구성요소와 이들 간의 상관관계 식별. 비기능적 요구사항(NFR)이 반영되어야 함. 여러 가능한 대안 도출 및 검토. 의사결정 내역에 대한 문서화.
상세설계 : 개별 구성요소의 내부구조를 설계하는 활동. 구현가능한 소프트웨어 단위로 분할하고, 내부로직 및 인터페이스 정의

2.4 구현

구현 활동은 설계 결과물을 반영하여 고객 요구사항을 만족하는 실행가능한 SW를 만들어 내는 것이다.

세부 평가항목

소프트웨어 단위를 구현한다.
단위 테스트를 수행한다.
소프트웨어를 통합한다.

2.5 테스트

테스트 활동은 계획된 절차에 따라 시스템의 결함을 제거하여 고객의 요구사항을 만족하는 SW를 제공하는 것이다

세부 평가항목

통합 테스트를 수행한다.
시스템 테스트를 수행한다.
인수를 지원한다.

통합 테스트 vs 시스템 테스트

통합 테스트 : 개발자 관점. 통합 단계에 따라 테스트. 통합환경(개발환경). 기능완성도에 초점.
시스템 테스트 : 사용자 관점. 실 운영환경. 비기능 품질 목표에 초점. 100% 통합이 완료된 시점.

3. 지원

3.1 품질보증

: 품질보증 활동은 프로젝트의 프로세스가 프로젝트 전체 과정의 활동에 대해 적합성을 유지하고 있는지와 작업산출물이 고객 요구사항을 만족 시키고 있는지를 확인하여 정확한 프로젝트 진행을 보증하는 것이다.

세부 평가항목

품질보증 계획을 수립한다.
품질보증 활동을 수행한다.
품질보증 활동 결과를 관리한다.

3.2 형상관리

: 형상관리 활동은 프로젝트 생명주기 전체 기간 동안의 작업산출물에 대해 베이스라인을 수립하고, 주요 단계별로 변경을 추적하고 통제하여 작업산출물의 무결성을 보장 하고 유지하는 것이다.

변경 통제가 필요한 대상 및 버전에 대해 베이스라인(기준선)의 설정 및 이후 공식 절차에 따라 변경 수행한다.

세부 평가항목

형상 항목을 식별하고 계획을 수립한다.
형상 통제를 실시한다.
형상관리 기록을 관리한다.
형상 감사를 실시한다.

형상항목 예시

소스코드 / 실행파일 / 데이터구조 (DB스키마) / 사용자 메뉴얼 / 운영자 메뉴얼 / 분석서, 설계서, 테스트케이스 등 개발 산출물 / 프로젝트 계획서 등 관리 산출물

형상통제 절차 예시

통제가 필요한 대상에 대해 베이스라인(기준선) 설정 -> 공식절차에 따라 변경 수행
단계별 업무 완료 -> 베이스라인 설정 -> 변경심사(영향평가, 개발자, 고객…) -> 변경실시 -> 변경공지

3.3 측정분석

: 측정 및 분석 활동은 프로젝트 수행 중 필요한 정보를 수집하고 분석하여 프로젝트의 목표 달성 정도를 관리하는 것이다. 측정을 할 수 있어야 통제, 개선이 가능하다. 품질, 비용, 시간 등을 측정한다.

세부평가항목

측정 및 분석 계획을 수립한다.
측정을 실시한다.
측정 결과를 분석한다.
측정 분석 결과를 관리한다.

측정지표 (Metric)

속성을 표현하기 위해 어느 메트릭을 사용할것인지 결정한다.
Ex) 속성: 자동차의 경제성, 메트릭 : 연비 / 엔진오일 교체주기 / 중고차 시세 …

4.조직관리

4.1 조직 프로세스 관리

: 조직 프로세스 관리 활동은 조직 및 프로젝트의 목표에 대한 이해를 바탕으로 프로젝트 수행을 위한 조직 차원의 기본 지침을 정의하여 유지하고 관리하는 것이다.

세부평가항목

조직의 표준 프로세스를 정의한다.
표준 생명주기 모델을 정의한다.
표준 프로세스 조정을 위한 기준 및 가이드라인을 수립한다.
조직의 표준 프로세스를 확산한다.
조직 프로세스 적용 상황을 확인한다.
프로세스 관련 경험을 자산으로 축적한다.

4.2 기반구조 관리

: 조직의 기반구조 관리 활동은 프로세스 수행성과를 향상시키기 위해 HW, SW, 표준, 기술 등 조직의 기반 작업환경을 구축하고 관리하는 것이다.

세부평가항목

조직 기반구조에 대한 요구사항을 정의한다.
조직 기반구조를 구축한다.
조직 기반구조를 관리하고 개선한다.

4.3 구성원 교육

: 조직 구성원 교육 활동은 구성원 각자의 역할을 효과적이고 효율적으로 수행할 수 있도록 구성원들의 역량을 강화 시키는 것이다.

세부평가항목

교육 및 훈련 계획을 수립한다.
교육 및 훈련을 실시한다.
교육 및 훈련의 효과를 평가한다.

5.프로세스 개선

5.1 정량적 프로세스 관리

: 정량적 프로세스 관리 활동은 조직 프로세스 및 프로젝트의 목표를 달성하기 위하여 프로세스 수행을 정량적으로 통제하고 관리하는 것이다.

세부평가항목

조직의 표준 프로세스 성과 목표를 정의한다.
조직 프로세스 성과 베이스라인을 정의한다.
조직 프로세스 성과 모델을 정의한다.
프로젝트의 프로세스 성과 목표를 정의한다.
프로젝트의 프로세스를 측정하고 분석하는 방법을 정의한다.
프로젝트의 프로세스 성과를 확인한다.

5.2 문제 해결

: 문제 해결 활동은 자주 발생되는 문제들에 대해 근본 원인을 분석하고 식별하여 적절한 시정조치를 수행하는 것이다.

세부평가항목

문제 해결을 위한 가이드라인을 수립한다.
해결할 문제를 선정한다.
선정된 문제의 원인을 분석하고 해결방안을 정의한다.
해결방안에 따라 문제를 해결한다.
문제 해결방안의 성과를 기록하고 관리한다.

5.3 프로세스 개선 관리

: 프로세스 개선 관리 활동은 조직과 프로젝트의 프로세스에 대한 이해를 형성하고 유지하며, 프로세스를 평가하여 개선하고 유지하는 것이다.

세부평가항목

조직의 표준 프로세스에 대한 요구 및 목표를 식별한다.
조직 프로세스의 강점 및 약점을 평가한다.
프로세스 개선을 위한 계획을 수립한다.
프로세스 개선 활동을 수행한다.
프로세스 개선 활동의 성과를 기록하고 관리한다.

다음에는 소프트웨어 프로세스 모델들도 알아보자 ~~!

[Software Engineering] 소프트웨어와 소프트웨어 공학!

Tue, 28 Mar 2023 03:50:44 GMT

⚙️소프트웨어 공학

💡 소프트웨어(Software)란?

소프트웨어란? 컴퓨터 시스템을 효율적으로 운영하기 위해 개발된 프로그램의 총칭이다.
소프트웨어의 예시
- 운영체제: 컴퓨터 하드웨어와 사용자 소프트웨어 사이에서 중재하는 소프트웨어. Windows, macOS, Linux 등
- 어플리케이션 소프트웨어: 특정 작업을 수행하기 위한 소프트웨어. 워드프로세서, 그래픽 에디터, 게임, 웹 브라우저 등
- 시스템 소프트웨어: 하드웨어와 소프트웨어 간의 상호작용을 관리하고, 시스템 자원을 효율적으로 사용하는 소프트웨어. 디바이스 드라이버, 보안 소프트웨어, 데이터베이스 관리 시스템 등
- 프로그래밍 언어 및 개발도구: 소프트웨어를 개발하기 위한 도구. C++, Python, Java 등
- 모바일 어플리케이션: 스마트폰이나 태블릿 PC에서 사용하는 소프트웨어. 캘린더, 메모장, 카메라, 게임 등
- 인공지능 및 기계 학습 소프트웨어: 기계 학습 알고리즘 등을 사용하여 인간의 지능적인 역할을 수행하는 소프트웨어. 스피치 리코그니션, 언어 번역, 이미지 인식 등
이처럼 소프트웨어는 우리 일상 생활에서 굉장히 많이 사용되고 있으며, 더욱 빠르고 효율적인 작업을 가능하게 해준다.

💡 소프트웨어 공학(Software Engineering)이란?

소프트웨어 공학이란? 소프트웨어 개발 전체 생명주기(life cycle)에서 요구사항 분석, 설계, 구현, 테스트, 유지보수 등과 같은 과정을 체계적으로 수행하며, 효율적이고 안정적인 소프트웨어를 개발하는 방법을 연구한다.
소프트웨어 공학의 목표는 고품질의 소프트웨어를 효율적으로 개발하고, 비용과 시간을 절약하여 소프트웨어 프로젝트를 성공적으로 완료하는 것이다. 이를 위해 소프트웨어 개발자는 소프트웨어 개발 프로세스의 다양한 단계에서 공학적 기법과 원칙을 적용하여 소프트웨어의 품질을 향상시키고, 유지보수 가능성을 높이며, 프로젝트 일정과 예산을 준수할 수 있도록 해야한다.

💡 오늘날의 소프트웨어

소프트웨어 역할의 변화
- 비지니스 지원 역량에서 -> 비지니스 자체 (핵심역량)으로 변화
고객, 사용자, 개발자의 변화
- 밀레니얼 세대. 세대별 특징 파악 필요
더 많은 이해관계자, 개발 복잡도 증가
- 융합기술 / 기업간 협력 / 산업간 협력 등
컴퓨팅 환경의 복잡도 증가
오픈 아키텍쳐, 소프트웨어 플랫폼화를 통한 생태계 구축
유연한 소프트웨어, 외부서비스와의 간편한 통합
더 빨리, 더 자주 업데이트하는 소프트웨어
글로벌화, 시간과 공간에 대한 새로운 니즈 (24 * 7 * 365 서비스)

--> 하지만, SW 프로젝트의 현주소는...

프로젝트 성공율은 약 14%정도 (대규모 프로젝트의 성공율은 약 6%정도)
실패요인
- 개발생산성에 비해 소프트웨어 복잡도가 급격히 증가 -> 프로젝트의 비용, 시간 초과 ...

_--> SW 프로젝트가 성공하기 위해서는... _

** 소프트웨어 프로세스(Software Process = 일하는 방식)가 중요하다. ⭐️⭐️⭐️**
- 제품 뿐 아니라, 소프트웨어 프로세스에 대한 평가가 중시되고 있음.
소프트웨어 프로세스에 따른 체게적인 설계가 필요하다.
- 실제 현업에서는 체계적이지 못한 경우가 매우 많음.. 처음으로 다시 돌아와서 다시 시작하는 경우도 많음..

다음 게시물에서는 ** 소프트웨어 프로세스**에 대해 자세히 알아보자!!!

* _소프트웨어 공학을 공부하며 작성할 시리즈 입니다. 화이탱~! _

코딩 문제풀이 | 프로그래머스 | MySQL | “JOIN”

Thu, 02 Mar 2023 05:41:23 GMT

JOIN

💎💎 Lv2

조건에 맞는 도서와 저자 리스트 출력하기

Q. '경제' 카테고리에 속하는 도서들의 도서 ID(BOOK_ID), 저자명(AUTHOR_NAME), 출판일(PUBLISHED_DATE) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 출판일을 기준으로 오름차순 정렬해주세요.

SELECT B.book_id, A.author_name, DATE_FORMAT(published_date, "%Y-%m-%d") AS published_date 
FROM book B LEFT JOIN author A 
ON B.author_id = A.author_id
WHERE category="경제" 
ORDER BY published_date;

상품 별 오프라인 매출 구하기

Q. PRODUCT 테이블과 OFFLINE_SALE 테이블에서 상품코드 별 매출액(판매가 * 판매량) 합계를 출력하는 SQL문을 작성해주세요. 결과는 매출액을 기준으로 내림차순 정렬해주시고 매출액이 같다면 상품코드를 기준으로 오름차순 정렬해주세요.

SELECT product_code, SUM(price*sales_amount) AS sales 
FROM offline_sale OS LEFT JOIN product P 
ON OS.product_id=P.product_id 
GROUP BY product_code ORDER BY 2 DESC, 1;

💎💎💎 Lv3

없어진 기록찾기

Q. 천재지변으로 인해 일부 데이터가 유실되었습니다. 입양을 간 기록은 있는데, 보호소에 들어온 기록이 없는 동물의 ID와 이름을 ID 순으로 조회하는 SQL문을 작성해주세요.

SELECT animal_id, name FROM animal_outs 
WHERE animal_id NOT IN (SELECT animal_id FROM animal_ins) ORDER BY animal_id;

있었는데요 없었습니다

Q. 관리자의 실수로 일부 동물의 입양일이 잘못 입력되었습니다. 보호 시작일보다 입양일이 더 빠른 동물의 아이디와 이름을 조회하는 SQL문을 작성해주세요. 이때 결과는 보호 시작일이 빠른 순으로 조회해야합니다.

SELECT AI.animal_id, AI.name FROM animal_ins AI
LEFT JOIN animal_outs AO
ON AI.animal_id=AO.animal_id
WHERE AI.datetime > AO.datetime
ORDER BY AI.datetime;

오랜 기간 보호한 동물(1)

Q. 아직 입양을 못 간 동물 중, 가장 오래 보호소에 있었던 동물 3마리의 이름과 보호 시작일을 조회하는 SQL문을 작성해주세요. 이때 결과는 보호 시작일 순으로 조회해야 합니다.

SELECT AI.name, AI.datetime 
FROM animal_ins AI LEFT JOIN animal_outs AO 
ON AI.animal_id=AO.animal_id 
WHERE AO.animal_id IS NULL 
ORDER BY AI.datetime LIMIT 3;

💎💎💎💎 Lv4

그룹별 조건에 맞는 식당 목록 출력하기

Q. MEMBER_PROFILE와 REST_REVIEW 테이블에서 리뷰를 가장 많이 작성한 회원의 리뷰들을 조회하는 SQL문을 작성해주세요. 회원 이름, 리뷰 텍스트, 리뷰 작성일이 출력되도록 작성해주시고, 결과는 리뷰 작성일을 기준으로 오름차순, 리뷰 작성일이 같다면 리뷰 텍스트를 기준으로 오름차순 정렬해주세요.

SELECT M.member_name, R.review_text, DATE_FORMAT(R.review_date, "%Y-%m-%d")
FROM rest_review R LEFT JOIN member_profile M 
ON R.member_id = M.member_id 
WHERE R.member_id=(SELECT member_id FROM rest_review GROUP BY member_id ORDER BY COUNT(1) DESC LIMIT 1)
ORDER BY 3, 2;

특정기간동안 대여 가능한 자동차들의 대여비용 구하기

Q. CAR_RENTAL_COMPANY_CAR 테이블과 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블과 CAR_RENTAL_COMPANY_DISCOUNT_PLAN 테이블에서 자동차 종류가 '세단' 또는 'SUV' 인 자동차 중 2022년 11월 1일부터 2022년 11월 30일까지 대여 가능하고 30일간의 대여 금액이 50만원 이상 200만원 미만인 자동차에 대해서 자동차 ID, 자동차 종류, 대여 금액(컬럼명: FEE) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 대여 금액을 기준으로 내림차순 정렬하고, 대여 금액이 같은 경우 자동차 종류를 기준으로 오름차순 정렬, 자동차 종류까지 같은 경우 자동차 ID를 기준으로 내림차순 정렬해주세요.

SELECT C.car_id, C.car_type, ROUND((C.daily_fee/100)*(100-DP.discount_rate)*30) as fee
FROM (SELECT car_id 
        FROM car_rental_company_rental_history 
        GROUP BY car_id
        HAVING MAX(end_date)<'2022-11-01') AS H 
JOIN car_rental_company_car AS C
ON H.car_id = C.car_id
JOIN car_rental_company_discount_plan AS DP 
ON DP.car_type = C.car_type
WHERE C.car_type in ("세단","SUV") AND DP.duration_type like "30일%"
AND (daily_fee/100)*(100-discount_rate)*30 between 500000 AND 2000000
ORDER BY fee DESC, car_type;

주문량이 많은 아이스크림들 조회하기

Q. 7월 아이스크림 총 주문량과 상반기의 아이스크림 총 주문량을 더한 값이 큰 순서대로 상위 3개의 맛을 조회하는 SQL 문을 작성해주세요.

SELECT flavor FROM 
(SELECT * FROM first_half 
UNION ALL 
SELECT * FROM july) LIST
GROUP BY flavor 
ORDER BY SUM(total_order) DESC LIMIT 3;

5월 식품들의 총매출 조회하기

Q. FOOD_PRODUCT와 FOOD_ORDER 테이블에서 생산일자가 2022년 5월인 식품들의 식품 ID, 식품 이름, 총매출을 조회하는 SQL문을 작성해주세요. 이때 결과는 총매출을 기준으로 내림차순 정렬해주시고 총매출이 같다면 식품 ID를 기준으로 오름차순 정렬해주세요.

SELECT FO.product_id, FP.product_name,
SUM(FO.amount*FP.price) AS total_sales
FROM food_order FO JOIN food_product FP 
ON FO.product_id=FP.product_id 
WHERE DATE_FORMAT(produce_date,"%Y-%m")="2022-05" 
GROUP BY product_id ORDER BY 3 DESC, 1;

보호소에서 중성화한 동물

Q. 보호소에서 중성화 수술을 거친 동물 정보를 알아보려 합니다. 보호소에 들어올 당시에는 중성화1되지 않았지만, 보호소를 나갈 당시에는 중성화된 동물의 아이디와 생물 종, 이름을 조회하는 아이디 순으로 조회하는 SQL 문을 작성해주세요.

SELECT AI.animal_id, AO.animal_type, AO.name 
FROM animal_ins AI LEFT JOIN animal_outs AO 
ON AI.animal_id=AO.animal_id 
WHERE AI.sex_upon_intake LIKE "intact%" 
AND AO.sex_upon_outcome REGEXP 'Neutered|Spayed' ORDER BY 1;

💎💎💎💎💎 Lv5

상품을 구매한 회원 비율 구하기

Q. USER_INFO 테이블과 ONLINE_SALE 테이블에서 2021년에 가입한 전체 회원들 중 상품을 구매한 회원수와 상품을 구매한 회원의 비율(=2021년에 가입한 회원 중 상품을 구매한 회원수 / 2021년에 가입한 전체 회원 수)을 년, 월 별로 출력하는 SQL문을 작성해주세요. 상품을 구매한 회원의 비율은 소수점 두번째자리에서 반올림하고, 전체 결과는 년을 기준으로 오름차순 정렬해주시고 년이 같다면 월을 기준으로 오름차순 정렬해주세요.

SELECT  YEAR(sales_date) AS year, MONTH(sales_date) as month,
        COUNT(DISTINCT user_id) AS puchased_users, 
        ROUND(
            COUNT(DISTINCT user_id) / 
            (SELECT COUNT(DISTINCT user_id) FROM user_info 
                    WHERE YEAR(joined)=2021),1) 
        AS puchased_ratio
FROM online_sale 
WHERE user_id IN (SELECT user_id FROM user_info WHERE YEAR(joined)=2021)
GROUP BY YEAR(sales_date), MONTH(sales_date)
ORDER BY 1,2

코딩 문제풀이 | 프로그래머스 | MySQL | “String, Date”

Sat, 11 Feb 2023 09:57:46 GMT

String, Date

🌼 Lv1

자동차 대여 기록에서 장기/단기 대여 구분하기

Q. CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 대여 시작일이 2022년 9월에 속하는 대여 기록에 대해서 대여 기간이 30일 이상이면 '장기 대여' 그렇지 않으면 '단기 대여' 로 표시하는 컬럼(컬럼명: RENT_TYPE)을 추가하여 대여기록을 출력하는 SQL문을 작성해주세요. 결과는 대여 기록 ID를 기준으로 내림차순 정렬해주세요.

SELECT history_id, car_id, DATE_FORMAT(start_date, "%Y-%m-%d") AS start_date, 
        DATE_FORMAT(end_date, "%Y-%m-%d") AS end_date, 
    CASE WHEN DATEDIFF(end_date, start_date)+1 >= 30 
    THEN "장기 대여" 
    ELSE "단기 대여" 
    END AS rent_type
FROM car_rental_company_rental_history 
WHERE YEAR(start_date)=2022 AND MONTH(start_date)=9
ORDER BY history_id DESC;

특정 옵션이 포함된 자동차 리스트 구하기

Q. CAR_RENTAL_COMPANY_CAR 테이블에서 '네비게이션' 옵션이 포함된 자동차 리스트를 출력하는 SQL문을 작성해주세요. 결과는 자동차 ID를 기준으로 내림차순 정렬해주세요.

SELECT * FROM car_rental_company_car 
WHERE  options LIKE "%네비게이션%"
ORDER BY car_id DESC;

🌼🌼 Lv2

이름에 el이 들어가는 동물 찾기

Q. 동물 보호소에 들어온 동물 이름 중, 이름에 "EL"이 들어가는 개의 아이디와 이름을 조회하는 SQL문을 작성해주세요. 이때 결과는 이름 순으로 조회해주세요. 단, 이름의 대소문자는 구분하지 않습니다.

SELECT animal_id, name FROM animal_ins 
WHERE name LIKE "%EL%" AND animal_type="Dog" ORDER BY name;

중성화 여부 파악하기

Q. 중성화된 동물은 SEX_UPON_INTAKE 컬럼에 'Neutered' 또는 'Spayed'라는 단어가 들어있습니다. 동물의 아이디와 이름, 중성화 여부를 아이디 순으로 조회하는 SQL문을 작성해주세요. 이때 중성화가 되어있다면 'O', 아니라면 'X'라고 표시해주세요.

SELECT animal_id, name, 
CASE WHEN sex_upon_intake LIKE "%Neutered%" OR sex_upon_intake LIKE "%Spayed%" THEN "O"
ELSE "X"
END AS "중성화"
FROM animal_ins
ORDER BY animal_id;

SELECT animal_id, name, 
IF(sex_upon_intake REGEXP 'Neutered|Spayed', 'O', 'X') AS 중성화
FROM animal_ins 
ORDER BY animal_id;

루시와 엘라 찾기

Q. 동물 보호소에 들어온 동물 중 이름이 Lucy, Ella, Pickle, Rogan, Sabrina, Mitty인 동물의 아이디와 이름, 성별 및 중성화 여부를 조회하는 SQL 문을 작성해주세요.

SELECT animal_id, name, sex_upon_intake
FROM animal_ins
WHERE name IN ('Lucy', 'Ella', 'Pickle', 'Rogan', 'Sabrina', 'Mitty')
ORDER BY animal_id;

카테고리 별 상품 개수 구하기

Q. PRODUCT 테이블에서 상품 카테고리 코드(PRODUCT_CODE 앞 2자리) 별 상품 개수를 출력하는 SQL문을 작성해주세요. 결과는 상품 카테고리 코드를 기준으로 오름차순 정렬해주세요.

SELECT LEFT(product_code, 2) AS category, COUNT(product_id) AS products 
FROM product GROUP BY category ORDER BY category;

DATETIME에서 DATE로 형 변환

Q. ANIMAL_INS 테이블에 등록된 모든 레코드에 대해, 각 동물의 아이디와 이름, 들어온 날짜1를 조회하는 SQL문을 작성해주세요. 이때 결과는 아이디 순으로 조회해야 합니다.

SELECT animal_id, name, DATE_FORMAT(datetime, "%Y-%m-%d") AS "날짜" 
FROM animal_ins ORDER BY animal_id;

자동차 평균 대여 기간 구하기

Q. CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 평균 대여 기간이 7일 이상인 자동차들의 자동차 ID와 평균 대여 기간(컬럼명: AVERAGE_DURATION) 리스트를 출력하는 SQL문을 작성해주세요. 평균 대여 기간은 소수점 두번째 자리에서 반올림하고, 결과는 평균 대여 기간을 기준으로 내림차순 정렬해주시고, 평균 대여 기간이 같으면 자동차 ID를 기준으로 내림차순 정렬해주세요.

SELECT car_id, ROUND(AVG(DATEDIFF(end_date, start_date)+1),1) AS average_duration 
FROM car_rental_company_rental_history
GROUP BY car_id HAVING average_duration >= 7
ORDER BY 2 DESC, 1 DESC;

🌼🌼🌼 Lv3

오랜 기간 보호한 동물(2)

Q. 입양을 간 동물 중, 보호 기간이 가장 길었던 동물 두 마리의 아이디와 이름을 조회하는 SQL문을 작성해주세요. 이때 결과는 보호 기간이 긴 순으로 조회해야 합니다.

SELECT O.animal_id, O.name FROM animal_ins I 
INNER JOIN animal_outs O 
ON I.animal_id=O.animal_id 
ORDER BY DATEDIFF(O.datetime, I.datetime) DESC LIMIT 2;

조건별로 분류하여 주문상태 출력하기

Q. FOOD_ORDER 테이블에서 5월 1일을 기준으로 주문 ID, 제품 ID, 출고일자, 출고여부를 조회하는 SQL문을 작성해주세요. 출고여부는 5월 1일까지 출고완료로 이 후 날짜는 출고 대기로 미정이면 출고미정으로 출력해주시고, 결과는 주문 ID를 기준으로 오름차순 정렬해주세요.

SELECT order_id, product_id, DATE_FORMAT(out_date, "%Y-%m-%d") AS out_date,
CASE WHEN out_date > "2022-05-01" THEN "출고대기"
WHEN out_date <= "2022-05-01" THEN "출고완료" ELSE "출고미정" END AS "출고여부"
FROM food_order ORDER BY order_id;

대여 기록이 존재하는 자동차 리스트 구하기

Q. CAR_RENTAL_COMPANY_CAR 테이블과 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 자동차 종류가 '세단'인 자동차들 중 10월에 대여를 시작한 기록이 있는 자동차 ID 리스트를 출력하는 SQL문을 작성해주세요. 자동차 ID 리스트는 중복이 없어야 하며, 자동차 ID를 기준으로 내림차순 정렬해주세요.

SELECT DISTINCT H.car_id FROM car_rental_company_rental_history H 
LEFT JOIN car_rental_company_car C 
ON H.car_id = C.car_id 
WHERE car_type="세단" AND DATE_FORMAT(start_date,"%Y-%m")="2022-10" 
ORDER BY H.car_id DESC;

🌼🌼🌼🌼 Lv4

자동차 대여 기록 별 대여 금액 구하기

Q. CAR_RENTAL_COMPANY_CAR 테이블과 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블과 CAR_RENTAL_COMPANY_DISCOUNT_PLAN 테이블에서 자동차 종류가 '트럭'인 자동차의 대여 기록에 대해서 대여 기록 별로 대여 금액(컬럼명: FEE)을 구하여 대여 기록 ID와 대여 금액 리스트를 출력하는 SQL문을 작성해주세요. 결과는 대여 금액을 기준으로 내림차순 정렬하고, 대여 금액이 같은 경우 대여 기록 ID를 기준으로 내림차순 정렬해주세요.

SELECT HC.history_id, 
        ROUND(HC.daily_fee * (DATEDIFF(HC.end_date,HC.start_date)+1) * IFNULL(1-DP.discount_rate * 0.01, 1)) AS fee 
FROM 
    (SELECT H.history_id, H.start_date, H.end_date, C.daily_fee, C.car_type, 
    CASE WHEN DATEDIFF(end_date,start_date)+1 >=90 THEN "90일 이상" 
    WHEN DATEDIFF(end_date,start_date)+1 >=30 THEN "30일 이상" 
    WHEN DATEDIFF(end_date,start_date)+1 >=7 THEN "7일 이상" END AS diff 
    FROM car_rental_company_rental_history H 
    LEFT JOIN car_rental_company_car C 
    ON H.car_id=C.car_id 
    WHERE C.car_type="트럭"
) HC 
LEFT JOIN car_rental_company_discount_plan DP 
ON HC.diff=DP.duration_type AND DP.car_type="트럭" 
ORDER BY fee DESC, history_id DESC;

취소되지 않은 진료 예약 조회하기

Q. PATIENT, DOCTOR 그리고 APPOINTMENT 테이블에서 2022년 4월 13일 취소되지 않은 흉부외과(CS) 진료 예약 내역을 조회하는 SQL문을 작성해주세요. 진료예약번호, 환자이름, 환자번호, 진료과코드, 의사이름, 진료예약일시 항목이 출력되도록 작성해주세요. 결과는 진료예약일시를 기준으로 오름차순 정렬해주세요.

SELECT A.apnt_no, P.pt_name, P.pt_no, A.mcdp_cd, D.dr_name, A.apnt_ymd 
FROM patient P 
RIGHT JOIN appointment A ON P.pt_no = A.pt_no 
LEFT JOIN doctor D ON A.mddr_id = D.dr_id 
WHERE DATE_FORMAT(apnt_ymd,"%Y-%m-%d")="2022-04-13" 
AND apnt_cncl_yn="N"
AND A.mcdp_cd="CS"
ORDER BY apnt_ymd;

코딩 문제풀이 | 프로그래머스 | MySQL | “GROUP BY”

Thu, 09 Feb 2023 08:49:52 GMT

GROUP BY

🌱 Lv2.

진료과별 총 예약 횟수 출력하기

Q. APPOINTMENT 테이블에서 2022년 5월에 예약한 환자 수를 진료과코드 별로 조회하는 SQL문을 작성해주세요. 이때, 컬럼명은 '진료과 코드', '5월예약건수'로 지정해주시고 결과는 진료과별 예약한 환자 수를 기준으로 오름차순 정렬하고, 예약한 환자 수가 같다면 진료과 코드를 기준으로 오름차순 정렬해주세요.

SELECT mcdp_cd AS "진료과 코드", COUNT(mcdp_cd) AS "5월예약건수" 
FROM appointment 
WHERE MONTH(apnt_ymd)="05" AND YEAR(apnt_ymd)="2022" 
AND (apnt_cncl_yn ="N" OR apnt_cncl_yn IS NULL) 
GROUP BY mcdp_cd ORDER BY 2,1

성분으로 구분한 아이스크림 총 주문량

Q.상반기 동안 각 아이스크림 성분 타입과 성분 타입에 대한 아이스크림의 총주문량을 총주문량이 작은 순서대로 조회하는 SQL 문을 작성해주세요. 이때 총주문량을 나타내는 컬럼명은 TOTAL_ORDER로 지정해주세요.

SELECT ingredient_type, SUM(total_order) AS total_order 
FROM first_half F LEFT JOIN icecream_info I 
ON F.flavor=I.flavor 
GROUP BY ingredient_type ORDER BY 2;

자동차 종류별 특정 옵션이 포함된 자동차 수 구하기

Q. CAR_RENTAL_COMPANY_CAR 테이블에서 '통풍시트', '열선시트', '가죽시트' 중 하나 이상의 옵션이 포함된 자동차가 자동차 종류 별로 몇 대인지 출력하는 SQL문을 작성해주세요. 이때 자동차 수에 대한 컬럼명은 CARS로 지정하고, 결과는 자동차 종류를 기준으로 오름차순 정렬해주세요.

SELECT car_type, COUNT(car_type) AS CARS FROM car_rental_company_car 
WHERE options LIKE "%통풍시트%" OR options LIKE '%열선시트%' OR options LIKE '%가죽시트%' 
GROUP BY car_type ORDER BY 1;

SELECT car_type, COUNT(car_type) AS CARS FROM car_rental_company_car 
WHERE options REGEXP ('통풍시트|열선시트|가죽시트')
GROUP BY car_type ORDER BY car_type ASC;

고양이와 개는 몇 마리 있을까

Q. 동물 보호소에 들어온 동물 중 고양이와 개가 각각 몇 마리인지 조회하는 SQL문을 작성해주세요. 이때 고양이를 개보다 먼저 조회해주세요.

SELECT animal_type, COUNT(animal_type) FROM animal_ins 
GROUP BY animal_type 
ORDER BY FIELD (ANIMAL_TYPE, 'Cat','Dog')

입양 시각 구하기(1)

Q. 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 09:00부터 19:59까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다.

SELECT HOUR(datetime) AS hour, COUNT(datetime) AS count FROM animal_outs 
WHERE HOUR(datetime) BETWEEN 9 AND 19 
GROUP BY hour ORDER BY 1;

동명 동물 수 찾기

Q. 동물 보호소에 들어온 동물 이름 중 두 번 이상 쓰인 이름과 해당 이름이 쓰인 횟수를 조회하는 SQL문을 작성해주세요. 이때 결과는 이름이 없는 동물은 집계에서 제외하며, 결과는 이름 순으로 조회해주세요.

SELECT name, COUNT(name) AS count FROM animal_ins 
GROUP BY name HAVING COUNT(name)>1 ORDER BY name;

가격대 별 상품 개수 구하기

Q. PRODUCT 테이블에서 만원 단위의 가격대 별로 상품 개수를 출력하는 SQL 문을 작성해주세요. 이때 컬럼명은 각각 컬럼명은 PRICE_GROUP, PRODUCTS로 지정해주시고 가격대 정보는 각 구간의 최소금액(10,000원 이상 ~ 20,000 미만인 구간인 경우 10,000)으로 표시해주세요. 결과는 가격대를 기준으로 오름차순 정렬해주세요.

SELECT TRUNCATE(ct_id) AS products FROM product 
GROUP BY price_group ORDER BY price_group;

☘️ Lv3.

카테고리 별 도서 판매량 집계하기

Q. 2022년 1월의 카테고리 별 도서 판매량을 합산하고, 카테고리(CATEGORY), 총 판매량(TOTAL_SALES) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 카테고리명을 기준으로 오름차순 정렬해주세요.

SELECT category, SUM(sales) AS total_sales 
FROM book B LEFT JOIN book_sales S ON B.book_id = S.book_id 
WHERE MONTH(sales_date)="1" AND YEAR(sales_date)="2022" 
GROUP BY category ORDER BY 1;

즐겨찾기가 가장 많은 식당 정보 출력하기

Q. REST_INFO 테이블에서 음식종류별로 즐겨찾기수가 가장 많은 식당의 음식 종류, ID, 식당 이름, 즐겨찾기수를 조회하는 SQL문을 작성해주세요. 이때 결과는 음식 종류를 기준으로 내림차순 정렬해주세요.

SELECT food_type, rest_id, rest_name, favorites FROM rest_info A 
WHERE favorites = (SELECT MAX(favorites) FROM rest_info B where A.food_type = B.food_type)
GROUP BY food_type ORDER BY food_type DESC;

대여 횟수가 많은 자동차들의 월별 대여 횟수 구하기

Q. CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 대여 시작일을 기준으로 2022년 8월부터 2022년 10월까지 총 대여 횟수가 5회 이상인 자동차들에 대해서 해당 기간 동안의 월별 자동차 ID 별 총 대여 횟수(컬럼명: RECORDS) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 월을 기준으로 오름차순 정렬하고, 월이 같다면 자동차 ID를 기준으로 내림차순 정렬해주세요. 특정 월의 총 대여 횟수가 0인 경우에는 결과에서 제외해주세요.

SELECT MONTH(start_date) AS MONTH, car_id, COUNT(*) AS RECORDS
FROM car_rental_company_rental_history
WHERE (MONTH(start_date) BETWEEN 8 AND 10) 
AND car_id IN (
    SELECT car_id
    FROM car_rental_company_rental_history
    WHERE MONTH(start_date) BETWEEN 8 AND 10 GROUP BY CAR_ID HAVING COUNT(*)>=5
)
GROUP BY 1, 2
ORDER BY 1 ASC, 2 DESC

자동차 대여기록에서 대여가능 여부 구분하기

Q. CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 2022년 10월 16일에 대여 중인 자동차인 경우 '대여중' 이라고 표시하고, 대여 중이지 않은 자동차인 경우 '대여 가능'을 표시하는 컬럼(컬럼명: AVAILABILITY)을 추가하여 자동차 ID와 AVAILABILITY 리스트를 출력하는 SQL문을 작성해주세요. 이때 반납 날짜가 2022년 10월 16일인 경우에도 '대여중'으로 표시해주시고 결과는 자동차 ID를 기준으로 내림차순 정렬해주세요.

SELECT car_id, 
      MAX(IF("2022-10-16" BETWEEN start_date AND end_date, "대여중", "대여 가능")) AS AVAILABILITY
FROM car_rental_company_rental_history
GROUP BY car_id
ORDER BY car_id DESC;

🍀 Lv4.

입양 시각 구하기(2)

Q. 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다.

SET @i = -1;
SELECT (@i := @i + 1) AS HOUR
        , (SELECT COUNT(*) 
           FROM animal_outs 
           WHERE HOUR(datetime) = @i) AS COUNT
FROM animal_outs
WHERE @i < 23;

WITH RECURSIVE temp AS(
    SELECT 0 AS HOUR
    UNION ALL
    SELECT HOUR+1 FROM temp WHERE HOUR<23
)

SELECT HOUR, COUNT(animal_id) AS COUNT 
FROM animal_outs A RIGHT JOIN temp T ON HOUR(A.datetime)=T.HOUR 
GROUP BY HOUR ;

년, 월, 성별 별 상품 구매 회원 수 구하기

Q. USER_INFO 테이블과 ONLINE_SALE 테이블에서 년, 월, 성별 별로 상품을 구매한 회원수를 집계하는 SQL문을 작성해주세요. 결과는 년, 월, 성별을 기준으로 오름차순 정렬해주세요. 이때, 성별 정보가 없는 경우 결과에서 제외해주세요.

SELECT YEAR(sales_date) AS year, MONTH(sales_date) AS month, 
        gender, COUNT(DISTINCT OS.user_id) AS users 
FROM user_info UI RIGHT JOIN online_sale OS 
ON UI.user_id=OS.user_id
WHERE gender IS NOT NULL
GROUP BY 1,2,3
ORDER BY 1,2,3;

식품분류별 가장 비싼 식품의 정보 조회하기

Q. FOOD_PRODUCT 테이블에서 식품분류별로 가격이 제일 비싼 식품의 분류, 가격, 이름을 조회하는 SQL문을 작성해주세요. 이때 식품분류가 '과자', '국', '김치', '식용유'인 경우만 출력시켜 주시고 결과는 식품 가격을 기준으로 내림차순 정렬해주세요.

SELECT category, price AS max_price, product_name FROM food_product A
WHERE category IN ('과자', '국', '김치', '식용유') AND
price IN (SELECT MAX(price) FROM food_product B GROUP BY category)
GROUP BY category 
ORDER BY price DESC;

저자 별 카테고리 별 매출액 집계하기

Q. 2022년 1월의 도서 판매 데이터를 기준으로 저자 별, 카테고리 별 매출액(TOTAL_SALES = 판매량 * 판매가) 을 구하여, 저자 ID(AUTHOR_ID), 저자명(AUTHOR_NAME), 카테고리(CATEGORY), 매출액(SALES) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 저자 ID를 오름차순으로, 저자 ID가 같다면 카테고리를 내림차순 정렬해주세요.

SELECT A.author_id, author_name, category, SUM(sales*price) AS total_sales
FROM book_sales BS 
LEFT JOIN book B ON B.book_id=BS.book_id 
LEFT JOIN author A ON A.author_id=B.author_id 
WHERE YEAR(sales_date)=2022 AND MONTH(sales_date)=1 
GROUP BY author_id, category
ORDER BY author_id, category DESC;

🌟REGEXP 정규표현식

* Matching

| : 구분된 문자에 해당하는 문자열을 찾음.

data REGEXP ('예시1|예시2|예시3')
=
data like '%예시1%' OR data like '%예시2%'OR data like '%예시3%'

^ : 시작하는 문자열을 찾음.

$ : 끝나는 문자열을 찾음.

data REGEXP ('^시작1|^시작2|끝$')
=
data like '시작1%' OR data like '시작2%'OR data like '%끝'

[ ] : [ ]안에 나열된 패턴에 해당하는 문자열을 찾음.

data REGEXP ('[123]d')
=
data like '%1d%' OR data like '%2d%'OR data like '%3d%'

. : 문자길이가 .의 개수 이상인 문자열을 찾음
```
data REGEXP ('...')
=
CHAR_LENGTH(data) >= 3 
```

* Times

* : 0회 이상 나타나는 문자, "a*" -> 'a', 'b', 'aa'
+ : 1회 이상 나타나는 문자, "찌개+"-> "김치찌개", "된장찌개"
{m, n} : m회 이상 n회 이하 나타나는 문자, "치{1,2}" -> "치커리", "치카치카"
? : 0-1회 나타나는 문자, "[가나다]?" -> "가오리", "나비", "다람쥐", "코끼리"

* Group

[A-z] or [:alpha:] or \a : 알파벳 대소문자 중 한개이상 포함된 문자열을 찾음.
[0-9] or [:digit:] or \d : 한개이상 숫자가 들어가는 문자열 찾음.

* Not

[^문자] : 괄호 안에 문자를 포함하지 않은 문자열을 찾음. "[^가나다]" -> "가오리", "나비", "다람쥐" 모두 제외됨.

코딩 문제풀이 | 프로그래머스 | MySQL | “SUM, MAX, MIN” | “IS NULL”

Thu, 02 Feb 2023 05:34:08 GMT

SUM, MAX, MIN

🎈 Lv1.

최댓값 구하기

Q. PRODUCT 테이블에서 판매 중인 상품 중 가장 높은 판매가를 출력하는 SQL문을 작성해주세요. 이때 컬럼명은 MAX_PRICE로 지정해주세요.

SELECT MAX(price) AS max_price FROM product;

🎈🎈 Lv2.

최솟값 구하기

Q. 동물 보호소에 가장 먼저 들어온 동물은 언제 들어왔는지 조회하는 SQL 문을 작성해주세요.

SELECT MIN(datetime) FROM animal_ins;

가격이 제일 비싼 식품의 정보 출력하기

Q. FOOD_PRODUCT 테이블에서 가격이 제일 비싼 식품의 식품 ID, 식품 이름, 식품 코드, 식품분류, 식품 가격을 조회하는 SQL문을 작성해주세요.


SELECT * FROM food_product WHERE price = (SELECT MAX(price) FROM food_product);

SELECT * FROM food_product ORDER BY price DESC LIMIT 1;

** LIMIT 1을 사용한다면 만약에 PRICE가 동일한 데이터가 여러 개라면 그 중에 ROWNUM이 1인 한 건만 표시됩니다. MAX함수를 사용하면 해당 테이블에서 조건이 PRICE 컬럼이 가장 큰 모든 건수가 조회되므로 결과가 달라질 수 있어 구분해서 사용해야 한다고 생각합니다.

동물 수 구하기

Q. 동물 보호소에서 컨디션이 Normal인 동물은 몇 마리인지 조회하는 SQL문을 작성해주세요.

SELECT COUNT(*) FROM animal_ins WHERE intake_condition="Normal";

중복 제거하기

Q. 동물 보호소에 들어온 동물의 이름은 몇 개인지 조회하는 SQL 문을 작성해주세요. 이때 이름이 NULL인 경우는 집계하지 않으며 중복되는 이름은 하나로 칩니다.

SELECT COUNT(DISTINCT(name)) AS count FROM animal_ins WHERE name IS NOT NULL;

IS NULL

🏓 Lv1.

경기도에 위치한 식품창고 목록 출력하기

Q. FOOD_WAREHOUSE 테이블에서 경기도에 위치한 창고의 ID, 이름, 주소, 냉동시설 여부를 조회하는 SQL문을 작성해주세요. 이때 냉동시설 여부가 NULL인 경우, 'N'으로 출력시켜 주시고 결과는 창고 ID를 기준으로 오름차순 정렬해주세요.

SELECT warehouse_id, warehouse_name, address, IFNULL(freezer_yn,"N") AS freezer_yn 
FROM food_warehouse 
WHERE address LIKE "경기도%" ORDER BY warehouse_id;

이름이 있는 / 없는 동물의 아이디

Q. 동물 보호소에 들어온 동물 중, 이름이 없는 채로(/이름이 있는) 들어온 동물의 ID를 조회하는 SQL 문을 작성해주세요. 단, ID는 오름차순 정렬되어야 합니다.

SELECT animal_id FROM animal_ins WHERE name IS NULL ORDER BY animal_id;

SELECT animal_id FROM animal_ins WHERE name IS NOT NULL ORDER BY animal_id;

나이 정보가 없는 회원 수 구하기

Q. USER_INFO 테이블에서 나이 정보가 없는 회원이 몇 명인지 출력하는 SQL문을 작성해주세요. 이때 컬럼명은 USERS로 지정해주세요.

SELECT COUNT(*) AS users FROM user_info WHERE age IS NULL;

🏓🏓 Lv2.

NULL처리하기

Q. 입양 게시판에 동물 정보를 게시하려 합니다. 동물의 생물 종, 이름, 성별 및 중성화 여부를 아이디 순으로 조회하는 SQL문을 작성해주세요. 이때 프로그래밍을 모르는 사람들은 NULL이라는 기호를 모르기 때문에, 이름이 없는 동물의 이름은 "No name"으로 표시해 주세요.

SELECT animal_type, IFNULL(name,"No name"), sex_upon_intake FROM animal_ins ORDER BY animal_id;

🌟정리

# IFNULL - NULL값 대체
IFNULL(컬럼명,"대체값")

# NULL인 열 찾기
WHERE 컬럼명 IS NULL

# NULL이 아닌 열 찾기
WHERE 컬럼명 IS NOT NULL

코딩 문제풀이 | 프로그래머스 | MySQL | “SELECT”

Thu, 02 Feb 2023 01:55:52 GMT

SELECT

🍏 Lv1.

상위 n개 레코드

Q. 동물 보호소에 가장 먼저 들어온 동물의 이름을 조회하는 SQL 문을 작성해주세요.

 SELECT name FROM animal_ins ORDER BY datetime LIMIT 1;

여러 기준으로 정렬하기

Q. 동물 보호소에 들어온 모든 동물의 아이디와 이름, 보호 시작일을 이름 순으로 조회하는 SQL문을 작성해주세요. 단, 이름이 같은 동물 중에서는 보호를 나중에 시작한 동물을 먼저 보여줘야 합니다.

SELECT animal_id, name, datetime FROM animal_ins ORDER BY name, datetime DESC;

특정 컬럼의 특정값 제외 혹은 포함

SELECT animal_id, name FROM animal_ins WHERE intake_condition NOT IN ("Aged"); 

SELECT animal_id, name FROM animal_ins WHERE intake_condition != "Aged"; 

SELECT animal_id, name FROM animal_ins WHERE intake_condition = "sick";

조건에 맞는 회원수 구하기

Q. USER_INFO 테이블에서 2021년에 가입한 회원 중 나이가 20세 이상 29세 이하인 회원이 몇 명인지 출력하는 SQL문을 작성해주세요.

SELECT count(*) as USERS FROM user_info 
WHERE (age BETWEEN 20 AND 29) AND (joined BETWEEN "2021-01-01" AND "2021-12-31");

평균 일일 대여 요금 구하기

Q. CAR_RENTAL_COMPANY_CAR 테이블에서 자동차 종류가 'SUV'인 자동차들의 평균 일일 대여 요금을 출력하는 SQL문을 작성해주세요. 이때 평균 일일 대여 요금은 소수 첫 번째 자리에서 반올림하고, 컬럼명은 AVERAGE_FEE 로 지정해주세요.

SELECT ROUND(AVG(daily_fee),0) as average_fee FROM car_rental_company_car WHERE car_type = 'SUV';

흉부외과 또는 일반외과 의사 목록 출력하기

Q. DOCTOR 테이블에서 진료과가 흉부외과(CS)이거나 일반외과(GS)인 의사의 이름, 의사ID, 진료과, 고용일자를 조회하는 SQL문을 작성해주세요. 이때 결과는 고용일자를 기준으로 내림차순 정렬하고, 고용일자가 같다면 이름을 기준으로 오름차순 정렬해주세요.

SELECT dr_name, dr_id, mcdp_cd, DATE_FORMAT(hire_ymd, "%Y-%m-%d") AS hire_ymd 
FROM doctor WHERE mcdp_cd IN ("CS","GS") ORDER BY hire_ymd DESC, dr_name ASC;

강원도에 위치한 생산공장 목록 출력하기

Q. FOOD_FACTORY 테이블에서 강원도에 위치한 식품공장의 공장 ID, 공장 이름, 주소를 조회하는 SQL문을 작성해주세요. 이때 결과는 공장 ID를 기준으로 오름차순 정렬해주세요.

SELECT factory_id, factory_name, address FROM food_factory 
WHERE address LIKE "%강원도%" ORDER BY factory_id ASC;

조건에 맞는 도서 리스트 출력하기

Q. BOOK 테이블에서 2021년에 출판된 '인문' 카테고리에 속하는 도서 리스트를 찾아서 도서 ID(BOOK_ID), 출판일 (PUBLISHED_DATE)을 출력하는 SQL문을 작성해주세요. 결과는 출판일을 기준으로 오름차순 정렬해주세요.

SELECT book_id, DATE_FORMAT(published_date, "%Y-%m-%d") AS published_date FROM book 
WHERE category="인문" AND YEAR(published_date)=‘2021’ ORDER BY published_date;

NULL값 대체

Q. PATIENT 테이블에서 12세 이하인 여자환자의 환자이름, 환자번호, 성별코드, 나이, 전화번호를 조회하는 SQL문을 작성해주세요. 이때 전화번호가 없는 경우, 'NONE'으로 출력시켜 주시고 결과는 나이를 기준으로 내림차순 정렬하고, 나이 같다면 환자이름을 기준으로 오름차순 정렬해주세요.

SELECT pt_name, pt_no, gend_cd, age, IFNULL(tlno,"NONE") FROM patient 
WHERE age <= 12 AND gend_cd="W" ORDER BY age DESC, pt_name ASC;

과일로 만든 아이스크림 고르기

Q. 상반기 아이스크림 총주문량이 3,000보다 높으면서 아이스크림의 주 성분이 과일인 아이스크림의 맛을 총주문량이 큰 순서대로 조회하는 SQL 문을 작성해주세요.

SELECT A.flavor FROM first_half A LEFT JOIN icecream_info B ON A.flavor = B.flavor 
WHERE total_order >=3000 AND ingredient_type="fruit_based" ORDER BY total_order DESC;

🍏🍏 Lv 2.

재구매가 일어난 상품과 회원 리스트 구하기

Q. ONLINE_SALE 테이블에서 동일한 회원이 동일한 상품을 재구매한 데이터를 구하여, 재구매한 회원 ID와 재구매한 상품 ID를 출력하는 SQL문을 작성해주세요. 결과는 회원 ID를 기준으로 오름차순 정렬해주시고 회원 ID가 같다면 상품 ID를 기준으로 내림차순 정렬해주세요.

SELECT user_id, product_id FROM online_sale 
GROUP BY user_id, product_id HAVING COUNT(*)>=2 ORDER BY user_id ASC, product_id DESC;

3월에 태어난 여성회원 목록 출력하기

Q. MEMBER_PROFILE 테이블에서 생일이 3월인 여성 회원의 ID, 이름, 성별, 생년월일을 조회하는 SQL문을 작성해주세요. 이때 전화번호가 NULL인 경우는 출력대상에서 제외시켜 주시고, 결과는 회원ID를 기준으로 오름차순 정렬해주세요.

SELECT member_id, member_name, gender, DATE_FORMAT(date_of_birth,"%Y-%m-%d") AS date_of_birth FROM member_profile 
WHERE gender="W" AND MONTH(date_of_birth)="03" AND tlno IS NOT NULL;

🍏🍏🍏🍏 Lv4.

서울에 위치한 식당 목록 출력하기

Q. REST_INFO와 REST_REVIEW 테이블에서 서울에 위치한 식당들의 식당 ID, 식당 이름, 음식 종류, 즐겨찾기수, 주소, 리뷰 평균 점수를 조회하는 SQL문을 작성해주세요. 이때 리뷰 평균점수는 소수점 세 번째 자리에서 반올림 해주시고 결과는 평균점수를 기준으로 내림차순 정렬해주시고, 평균점수가 같다면 즐겨찾기수를 기준으로 내림차순 정렬해주세요.

SELECT I.rest_id, I.rest_name, I.food_type, I.favorites, I.address, ROUND(AVG(R.review_score),2) as score 
FROM rest_info I LEFT JOIN rest_review R 
ON I.rest_id = R.rest_id 
WHERE address LIKE "서울%" GROUP BY R.rest_id HAVING score IS NOT NULL 
ORDER BY score DESC,favorites DESC;

오프라인 / 온라인 판매 데이터 통합하기

Q. ONLINE_SALE 테이블과 OFFLINE_SALE 테이블에서 2022년 3월의 오프라인/온라인 상품 판매 데이터의 판매 날짜, 상품ID, 유저ID, 판매량을 출력하는 SQL문을 작성해주세요. OFFLINE_SALE 테이블의 판매 데이터의 USER_ID 값은 NULL 로 표시해주세요. 결과는 판매일을 기준으로 오름차순 정렬해주시고 판매일이 같다면 상품 ID를 기준으로 오름차순, 상품ID까지 같다면 유저 ID를 기준으로 오름차순 정렬해주세요.

SELECT DATE_FORMAT(sales_date, "%Y-%m-%d") as sales_date, product_id, user_id, sales_amount FROM online_sale 
WHERE MONTH(sales_date)="03" AND YEAR(sales_date)="2022"
UNION
SELECT DATE_FORMAT(sales_date, "%Y-%m-%d") AS sales_date, product_id,NULL AS user_id, sales_amount FROM offline_sale 
WHERE MONTH(sales_date)="03" AND YEAR(sales_date)="2022"
ORDER BY sales_date, product_id, user_id;

🌟정리

# DATE_FORMAT
DATE_FORMAT(sales_date, "%Y-%m-%d")  // 2023-01-10

# DATE YEAR, MONTH
YEAR(published_date)="2021"
MONTH(sales_date)="03"

# 반올림, 버림 (소수점 n 자리까지 반올림/버림)
ROUND(숫자,반올림할 자릿수 n)  
  // ROUND(1234.5678 ,2) // 1234.57 
TRUNCATE(숫자,버릴 자릿수 n)   
  // ROUND(1234.5678 ,-2) // 1200  

# BETWEEN 범위
BETWEEN 20 AND 29
BETWEEN "2021-01-01" AND "2021-12-31"

[SQLP] 1-1데이터 모델링의 이해

Mon, 09 Jan 2023 07:49:44 GMT

1. 데이터 모델링의 이해

1-1. 데이터 모델링의 이해

📂 데이터 모델의 이해

1. 모델링의 이해

모델링이란? 복잡한 현실세계를 추상화, 단순화 명확화하기 위해 일정한 표기법에 의해 표현하는 기법
모델링의 특징
- 1) 추상화 : 현실세계를 일정한 형식에 맞추어 표현을 한다는 의미
- 2) 단순화 : 복잡한 현실세계를 약속된 규약에 의해 제한된 언어로 표현하여 쉽게 이해 할 수 있도록 한다는 의미
- 3) 명확화 : 누구나 이해하기 쉽도록 애매모호함을 제거하고 정확하게 현상을 기술한다는 의미
모델링의 3가지 관점
- 1) 데이터 관점 : 업무와 데이터의 관계 또는 데이터 간의 관계에 대해 모델링 (Data, What) -> 이 장의 중심
- 2) 프로세스 관점 : 업무가 실제하고 있는 일이 무엇인지 또는 무엇을 해야 하는지 모델링 (Process, How)
- 3) 데이터와 프로세스의 상관관점 : 업무가 처리하는 일의 방법에 따라 데이터가 어떻게 영향을 받는지 모델링 (Interaction)

2. 데이터 모델링의 기본 개념

데이터 모델링이란?
- 정보시스템을 구축하기 위한 데이타관점의 업무 분석 기법
- 현실세계의 데이타(what)에 대해 약속된 표기법에 의해 표현하는 과정
- 데이터베이스를 구축하기 위한 분석/설계의 과정
데이터 모델이 제공하는 기능
- 시스템 가시화 / 시스템 명세화 / 구조화된 틀 제공 / 문서화 / 세부사항 숨기는 관점 제공
데이터 모델링의 중요성
- 1) 파급효과 : 데이터 구조 변경에 의해 많은 영향이 갈 수 있다.
- 2) 복잡한 정보 요구사항의 간결한 표현 : 데이터 모델은 구축할 시스템의 정보 요구사항과 한계를 가장 명확하고 간결하게 표현할 수 있는 도구임. (예를 들면 건축물의 설계도면)
- 3) 데이터 품질 (Data Quality) : 데이터 구조가 데이터의 품질을 결정하는 중요한 요소이기 때문에 모델링시 유의해야 한다.
  - 중복 유의 / 비유연성 유의 (프로세스 변화에도 데이터모델이 변경되지 않을 수 있도록 유연하게 설계) / 비일관성 유의 (데이터 상호 연관관계에 대한 명확한 정의가 필요)

데이터 모델링의 3가지 요소

1) 어떤 것 (엔터티, Things) / 2) 어떤 것의 성격(Attributes) / 3) 어떤 것 간의 관계(Relationship)

복수	단수
엔터티 (ex. 과목)	인스턴스 (ex. 수학,영어)
- ex. 과목은 엔터티에 해당하고, 수학,영어는 '과목'이라는 엔터티의 인스턴스이다.
### 3. 데이터 모델링의 3단계 진행

개념적 모델링 -> 논리적 모델링 -> 물리적 모델링
1) 개념적 모델링 : 사용자와 개발자가 데이터 요구사항을 발견하는 것 지원. 추상적이므로 상위 문제에 대한 구조화 가능. 전 조직에 걸쳐 이루어진다면, 전사적 데이터 모델이라고도 불림.
2) 논리적 모델링 : 데이터 설계 프로세스의 Input으로써, 논리적인 구조와 규칙을 명확하게 표현. 식별자 확정, 정규화, M:M관계 해소, 참조 무결성 규칙 정의 등으로 신뢰성 있는 데이터구조 얻음.
3) 물리적 모델링 : 논리 데이터 모델이 어떻게 하드웨어에 표현될 것인지 다룸(=물리적 스키마).
프로젝트 생명주기(life cycle)에서 데이터 모델링
- 프로젝트 생명주기 : 분석(논리적/개념적 모델링 과정 포함) -> 설계(물리적 모델링 포함) -> 개발 -> 테스트 -> 전환/이행

4. 데이터 독립성

데이터 독립성의 필요성
- 1) 유지보수 비용증가 / 2) 데이터 중복성 증가 / 3) 데이터 복잡도 증가 / 4) 요구사항 대응 저하

데이터 독립성 모델(ANSI/SPARC)의 3단계 구조

1) 내부적 단계[내부스키마] -- (물리적 데이터 독립성) --> 2) 개념적 단계[개념스키마] -- (논리적 데이터 독립성) --> 외부 단계[외부스키마]

항목	설명
외부스키마	사용자 관점으로 구성. 접근하는 특성에 따른 스키마 구성
개념스키마	모든 사용자 관점을 통합한 조직 전체의 DB 기술함. DB에 저장되는 데이터와 관계를 표현하는 스키마.
내부스키마	DB가 물리적으로 저장되는 방법을 표현하는 스키마

논리적 독립성	개념스키마가 변경되어도 외부스키마에 영향 없도록. 사용자 특성에 맞는 변경 가능. 통합구조 변경가능.
물리적 독립성	내부스키마가 변경되어도 외부/개념스키마에 영향 없도록.

5. 데이터 모델의 표기법 ERD

ERD 작업 순서 : ① 엔터티를 그린다. → ② 엔터티를 적절하게 배치한다 → ③ 엔터티간 관계를 설정한다. → ④ 관계명을 기술한다. → ⑤ 관계의 참여도를 기술한다. → ⑥ 관계의 필수 여부를 기술한다.
엔터티(사각형), 관계(마름모), IE표기법 혹은 Baker표기법 주로 사용

6. 좋은 데이터 모델의 요소

1) 완전성(Completeness) : 업무에 필요로 하는 모든 데이터가 데이터 모델에 정의
2) 중복배제(Non-Redundancy) : DB에 동일한 사실은 반드시 한번만 기록 (ex. 나이, 생년월일은 데이터 중복)
3) 업무규칙(Business Rules) : 업무규칙을 데이터 모델로 표현하고 모든 사용자가 공유할 수 있도록 제공
4) 데이터 재사용(Data Reusablity) : 데이터의 통합성과 독립성에 대해서 충분히 고려
5) 의사소통(Communication) : 데이터의 모델은 진정한 의사소통의 도구로서의 역할을 한다.
6) 통합성(Integration) : 동일한 데이터는 조직의 전체에서 한번만 정의되고 이를 여러 다른 영역에서 참조, 활용

📂 엔터티

1. 엔터티(Entity)의 개념

사람, 장소, 물건, 사건, 개념 등의 명사에 해당한다.
업무상 관리가 필요한 관심사에 해당한다.
저장이 되기 위한 어떤 것(Thing)이다.

2. 엔터티의 특징

반드시 해당 업무에서 필요하고 관리하고자 하는 정보이어야 한다.
유일한 식별자에 의해 식별이 가능해야 한다.
영속적으로 존재하는 인스턴스의 집합이어야 한다. (한개가 아닌 두개 이상의 row)
엔터티는 업무 프로세스에 의해 이용되어야 한다.
엔터티는 반드시 속성이 있어야 한다. (주식별자만 존재하는 엔터티도 부적절. 단, 관계엔터티는 주식별자만 갖고 있어도 엔터티로 인정함)
엔터티는 다른 엔터티와 최소 한 개 이상의 관계가 있어야 한다. (단, 통계성 엔터티, 코드성 엔터티(읽기효율성↓), 시스템 처리 내부 엔터티 도출의 경우 제외)
명명 : 현업용어 사용 / 약어 사용하지 않기 / 단수명사 사용 / 모든 엔터티 유일한 이름 / 엔터티 생성 의미대로 부여
3. 엔터티의 분류
- 유무형에 따른 분류
- 유형엔터티(사원, 물품) : 물리적인 형태가 있고, 안정적이며 지속적으로 활용되는 엔터티
- 개념엔터티(조직, 보험상품) : 물리적인 형태가 존재하지 않고, 관리해야할 개념적 정보로 구분이 되는 엔터티
- 사건엔터티(주문, 청구, 미납) : 업무를 수행함에 따라 발생되는 엔터티로서 비교적 발생량이 많으며 각종 통계자료에 이용

발생시점에 따른 분류
- 기본엔터티(상품, 사원, 부서) : 그 업무에 원래 존재하는 정보로서 다른 엔터티와 관계에 의해 생성되지않고 독립적으로 생성이 가능하고 자신은 타 엔터티의 부모의 역할을 한다. 다른 엔터티로부터 주식별자를 상속받지않고 "자신의 고유한 주식별자"를 가짐.
- 중심엔터티(계약, 접수, 주문) : "기본 엔터티"로부터 발생되고 그 업무에 있어서 중심적인 역할을 한다. 데이터의 양이 많이 발생한다.
- 행위엔터티(거래내역, 주문내역, 변경이력) : "두개 이상의 부모 엔터티"로부터 발생되고, 자주 내용이 바뀌거나 데이터량이 증가한다.

📂 속성

1. 속성(Attribute)의 개념

속성이란? 업무에서 필요로 하는 인스턴스로 의미상 더 이상 분리되지 않는 최소의 데이터 단위이다.

2. 속성의 특징

속성의 특징
- 엔터티와 마찬가지로 반드시 해당 업무에서 필요하고 관리하고자 하는 정보
- 정규화 이론에 근간하여 정해진 주식별자에 함수적 종속성을 가져야 함
- 하나의 속성에는 한개의 값만 가짐. 다중값일 경우 별도의 엔터티로 분리
엔터티, 인스턴스, 속성, 속성값의 관계
- 한 개의 엔터티는 두 개 이상의 인스턴스들의 집합이어야 함.
- 한 개의 엔터티는 두 개 이상의 속성을 갖는다.
- 한 개의 속성은 한 개의 속성값을 갖는다.
속성의 명명
- 해당업무에서 사용하는 이름 부여 / 서술식 속성명 사용하지 않음 / 약어사용 가급적 제한 / 유일성 확보

3. 속성의 분류

속성의 특성에 따른 분류
- 기본속성(제품이름) : 업무로부터 추출한 모든 속성이 여기에 해당되며, 가장 일반적이고 대부분 여기에 속함.
- 설계속성(약품코드) : 업무를 규칙화하기 위해 속성을 새로 만들거나 변형하여 정의하는 속성
- 파생속성(계산값) : 다른 속성에 영향을 받아 발생하는 속성. 보통 계산된 값들이 이에 해당됨.
엔터티 구성방식에 따른 분류
- 식별과 관계에 따른 분류 ㆍPK 속성 : 엔터티를 식별할 수 있는 속성 ㆍFK 속성 : 다른 엔터티와의 관계에서 포함되는 속성 ㆍ일반 속성 : PK, FK에 포함되지 않는 속성
- 세부 의미로 쪼갤 수 있는지에 따라 ㆍ단순형(나이, 성별) : 더 이상 다른 속성들로 구성될 수 없다. ㆍ복합형(시, 구, 동, 번지) : 여러 세부 속성들로 구성될 수 있다.
- 동일한 성질이 있는지 없는지에 따라 ㆍ단일값 속성(주민번호) ㆍ다중값 속성(차량색상-지붕, 차체, 외부 색)

4. 도메인

도메인(Domain) : 각 속성이 가질 수 있는 값의 범위. 엔터티 내에서 속성에 대한 데이터타입과 크기, 제약사항을 지정하는 것.

📂 관계

1. 관계의 개념

관계(Relationship) : 엔터티의 인스턴스 사이의 논리적인 연관성

2. 관계의 분류

존재적 관계(부서, 사원) / 행위적 관계(고객, 주문)
ERD : 존재적 관계와 행위에 의한 관계를 구분하여 표현하지 않음
UML : 연관관계(존재적 관계, 실선), 의존관계(행위적 관계, 점선)

3. 관계의 표기법

관계명 : 엔터티가 관계에 참여하는 형태를 지칭. 관계의 이름
- 관계시작점 : 관계가 시작되는 엔터티 편
- 관계끝점 : 관계를 받는 엔터티 편
- 관계시작점과 끝점 모두 관계명을 가져야하며, 능동적이거나 수동적으로 명명된다.

관계차수 : 1:1, 1:M, M:M

두 개의 엔터티간 관계에서 참여자의 수를 표현

차수	IE 표기법	Barker 표기법
1:1	실선 & 선(1)	실선
1:M	실선 & 선(1) + 까마귀발(M)	점선&선(1) + 실선&까마귀발(M)
M:M	실선 & 까마귀발(M)	실선&까마귀발(M)
1:1 IE > 실선에 선추가, Baker

관계선택사양 : 필수관계, 선택관계
- 필수참여관계 : 참여하는 모든 참여자가 관계를 가짐
- 선택참여관계 : 외래키로 연결될 경우 Null 허용
  4. 관계 체크사항 및 읽는 방법
체크사항
- 두 개의 엔터티 사이에 관심있는 연관규칙이 존재하는가?
- 두 개의 엔터티 사이에 정보의 조합이 발생되는가?
- 업무기술서, 장표에 관계연결에 대한 규칙이 서술되어 있는가?
- 업무기술서, 장표에 관계연결을 가능하게 하는 동사(Verb)가 있는가?
읽기
- 엔터티(각각의/하나의), 기준엔터티, 관계차수(한/여러), 관련엔터티, 선택사양(항상/때때로), 관계명 ex) 각 부서에는 여러 사원이 항상 소속된다. 각 사원은 한 부서에 때때로 속한다.
  📂 식별자
  
  1. 식별자(Identifiers) 개념
식별자란 ? 엔터티내에서 인스턴스들을 구분할 수 있는 구분자
주식별자의 특징
- 유일성 : 주식별자에 의해 엔터티내에 모든 인스턴스들이 유일하게 구분되어야 함
- 최소성 : 주식별자를 구성하는 속성의 수는 유일성을 만족하는 최소의 수가 되어야 함
- 불변성 : 값은 변하지 않아야 함
- 존재성 : 반드시 값이 있어야 함(Not Null)

주식별자 도출기준
- 해당 업무에서 자주 이용되는 속성을 주식별자로 지정
- 명칭, 내역 등과 같이 이름으로 기술되는 것을 피함
- 복합으로 주식별자를 구성할 경우 속성의 수가 많아지지 않도록 함
  2. 식별자의 분류 및 표기법
분류
- 대표성여부
  - 주식별자(PK) : 엔터티 내에서 각 어커런스를 구분할 수 있으며, 타 엔터티와 참조관계를 연결 가능.
  - 보조식별자 : 엔터티 내에서 각 어커런스를 구분할 수 있으나, 대표성을 가지지 못해 참조관계 연결 못함.
- 스스로 생성 여부
  - 내부식별자 : 엔터티 내부에서 스스로 만들어지는 식별자
  - 외부식별자 : 타 엔터티와의 관계를 통해 타 엔터티로부터 받아오는 식별자(FK)
- 속성의 수
  - 단일식별자 : 하나의 속성으로 구성된 식별
  - 복합식별자 : 둘 이상의 속성으로 구성된 식별자
    - 대체여부
  - 본질식별자 : 업무에 의해 만들어지는 식별자(주민번호)
  - 인조식별자 : 원조식별자가 복잡한 구성일 경우 인위적으로 만든 식별자(고객식별자)
    - 표기법
- IE 표기법
```
 ┌──────┐
```
  │주식별자 │: 일반속성 상단에 위치함 ├──────┤ │보조식별자 │: 일반속성과 같이 위치함 │일반속성 │ └──────┘
- Barker 표기법
```
┌──────┐
```
  │#주식별자 │: # 표시 │*보조식별자 │: * 표시 │o일반속성 │: o 표시 └──────┘

3. 식별자 관계와 비식별자 관계

엔터티에 주식별자가 지정되고 엔터티간 관계를 연결하면, 자식엔터티에서 부모엔터티로부터 받은 외부식별자를 자신의 주식별자로 이용할 것인지 또는 부모와 연결이 되는 속성으로만 이용할 것인지 결정해야 함
식별자 관계 (주식별자로 이용 O)
- 부모엔터티로부터 받은 외부식별자를 자신의 주식별자로 이용하는 경우 (1:1 관계)
- 부모엔터티로부터 받은 외부식별자와 본인의 속성과 함께 주식별자로 구성하는 경우(1:M 관계)
비식별자 관계 (주식별자로 이용 X)
- 부모엔터티로부터 받은 외부식별자를 일반적인 속성으로 이용하는 경우
- 자식엔터티에서 별도의 주식별자를 생성하는 것이 더 유리하다고 판단될 때, 비식별자 관계에 의한 외부식별자로 표현
- 엔터티별로 데이터 생명주기를 다르게 관리할 경우(부모엔터티가 먼저 소멸될 수 있는 경우)
문제점
- 식별자 관계로만 설정할 때 : 주식별자 속성이 지속적으로 증가하는 구조이므로, 개발자 복잡성과 오류가능성 유발
- 비식별자 관계로만 설정할 때 : 많은 조인구문 사용에 따른 복잡성 증가, 성능 저하 유발

4. 식별자 관계와 비식별자 관계 모델링

적절한 관계모델링은 데이터 모델의 균형감을 준다.
비식별자관계 선택 프로세스 관계의 강/약 분석 (약한 관계 -> 비식별자관계 고려)
자식테이블 독립PK필요 (독립 PK구성 필요 -> 비식별자관계 고려)
SQL복잡도 증가 / 개발생산성 저하
PK속성 단순화(비식별자관계 고려)

식별자와 비식별자 관계 비교

	식별자 관계	비식별자 관계
목적	강한 연결관계	약한 연결관계
자식엔터티	자식 주식별자의 구성에 포함	자식 일반속성에 포함
표기법	실선	점선

[ML] 지도학습 - 수치예측 목적의 머신러닝

Wed, 23 Nov 2022 14:51:31 GMT

지도학습(Supervised Learning)

👉 정답(label)이 있는 데이터를 학습시키는 것이다. 입력값(X)에 대한 목적변수(Y)를 학습시키며, 지도학습은 목적변수(Y, label, 반응변수)의 형태에 따라 분류 혹은 예측으로 구분된다.

분류 : Y가 이산형(혹은 명목형)변수로, 고정된 값을 가질 때
- ex) 남/녀, 유/무, 정상/비정상, 긍정/중립/부정, MBTI ..
예측 : Y가 연속형 변수로, 어떠한 값도 가질 수 있을 때
- ex) 키, 몸무게, 연봉, 수치형태의 변수 ..

(👀 반면, 비지도학습은 데이터에 대한 명시적인 정답없이, 데이터 그 자체로 학습을 진행하는 방법임)

수치 예측을 위한 머신러닝

✔️ 활용영역

주식 가격 예측 / 경제 지표 예측 / 제품 판매량 및 가격 변화 예측 / 대출 채무 불이행에 대한 손실금액 예측 / 고객 LTV 예측 / 상품구매 가능성 예측 / 인구통계에 따른 의료비 증감 예측 등

✔️ 수치예측 알고리즘 종류

회귀분석(Regression Analysis)
의사결정트리 (Decision Tree)
인공 신경망 분석 (Artificial Neural Network)
랜덤포레스트 (Random Forest)

1️⃣ 회귀분석(Regression Analysis)

🔎 회귀분석

: 연속형 목적변수(Y)와 설명변수(X)의 관계를 함수식으로 모형화하는 기법

B0,B1,…,Bp는 데이터로부터 추정해야 하는 회귀계수이며, ε은 오차항이다.
머신러닝에서 훈련 데이터 세트가 주어졌을 때, 오차의 제곱합을 최소로 만드는 B0, B1,…,Bp를 찾아서 함수식을 도출한다. (학습)
훈련데이터를 학습시킨 뒤, 테스트데이터를 통해 결과값을 확인하며 성능을 평가한다
모형구축의 단순성, 해석의 명료성 때문에 선형회귀분석을 주로 사용하며, 적절치 않은 경우, 변환(로그변환, 제곱근변환, 다항식 접근 등)을 취해 적절히 선형회귀모델화 가능하다.
f(x) 가
- 선형함수인 경우 -> 선형회귀분석
- 독립변수가 1개인 경우 -> 단순선형회귀분석
- 독립변수가 여러개인 경우 -> 다중선형회귀분석
- 로비스트가 함수인 경우 -> 로지스틱 회귀분석 (단, 이 경우는 Y가 이산형 변수임)
  - 비선형 함수인 경우 -> 비선형 회귀분석 (선형회귀모형만큼 쉽지 않으며, 실질적으로 은닉층이 없는 인공신경망과 수학적으로 동일하기 때문에, 인공신경망 기법 등의 기법을 사용함)

➕ 장점

모형구축의 단순성, 해석의 명료성
각 독립변수의 영향력 파악하기 쉽다
빠른 훈련 시간

➖ 단점

결측치, 이상치에 민감
단순한 모형에 적합하는 경향이 있어 복잡한 데이터를 예측할 때는 정확도가 떨어진다

2️⃣ 의사결정트리(Decision Tree)

🔎 의사결정트리 분석

: 수치예측 목적의 의사결정트리는 목표변수(Y)의 평균, 표준편차, 절대편차와 같은 통계치의 불순도를 이용하여 마디를 분리시킨다.

분류목적(분류나무), 수치예측목적(회귀나무) 둘 다 사용될 수 있다.
목표변수(Y)의 평균 차이가 가장 두드러지게 나타나는 분리점을 사용한다.

➕ 장점

분류 및 수치예측 모두 활용 가능
결측치가 있는 데이터 효과적으로 처리 가능
선형성, 정규성, 등분산성 등의 가정이 필요없는 비모수적 모형임.
어떤 입력변수(X)가 목표변수(Y)에 영향력이 높은지 등의 통찰력을 얻을 수 있음
모형의 결과 이해가 쉽고, 분류결과의 이유를 설명하기 유용함.

➖ 단점

연속형 입력변수를 비연속적 값으로 취급하므로, - 예측오류 가능성 있음.
모형식을 수립해야 하는 경우 적용이 어려움.
훈련데이터에 대한 변경이 발생할 경우, 분류 결정 논리에 큰 변화를 가져옴.
쉽게 과적합화 되거나 과소적합 될 수 있음.
트리가 너무 커질 경우 패턴 이해하기가 쉽지 않음.

3️⃣ 랜덤포레스트 (Random Forest)

🔎 랜덤포레스트

: 여러 개의 다양한 의사결정트리를 만들어 각 의사결정트리의 예측결과를 합쳐 최종 결과를 결정하는 앙상블 형태의 기법

트리들의 상관성을 최소화하기 위해, 각 분할에서 사용되는 설명변수(X)들의 수(m개)는 전체 설명변수(X)의 개수(p개)보다 작다.
일반적으로 수치예측에서는 한 트리에서 p/3개의 설명변수를 사용한다.
어떤 랜덤 표본에는 약한 설명변수로 분할하는 경우도 있기 때문에, 상관성을 줄이게 되고, 트리들의 예측값 평균은 더 안정적으로 된다.

➕ 장점

분류문제(분류나무) 및 수치예측(회귀나무) 모두 활용 가능
대용량 데이터 처리에 효과적
과대적합 문제 최소화하여 모델의 정확도 향상

➖ 단점

데이터 크기에 비례해서 수백~수천개의 트리를 형성하기 때문에 학습 및 예측에 오랜시간이 걸림
생성하는 모든 트리 모델을 다 확인하기 어렵기에 해석력 떨어짐

4️⃣ 인공신경망(Artificial Neural Network)

🔎 인공신경망 분석

: 인간의 뉴런 작용에서 모티브를 얻은 기법으로, 입력 노드와 은닉 노드, 출력 노드를 구성하여 복잡한 분류나 수치예측 문제를 해결할 수 있도록 하는 분석 기법 (블랙박스 기법)

출력 활성함수 : 은닉층에서 최종 목표변수(출력노드)로 결과값을 결합하여 변환하는 활성함수
수치목적에서는 목표변수가 제한된 범위가 없기 때문에 출력활성함수로 항등함수를 사용한다.
목적함수 : 은닉층과 은닉마디 수가 결정되면, 계수값을 찾기 위해 목적함수(오차함수)를 최소화하는 문제를 해결한다.
수치목적에서는 오차제곱합(SSE)를 목적함수로 사용한다

➕ 장점

입력변수(X)와 목적변수(Y)가 연속형이나 범주형인 경우 모두 처리 가능하여 다양한 분야에 적용가능
복잡한 데이터에 대해서도 좋은 결과 가능
예측력 우수하고, 견고하고 안정적인 기법

➖ 단점

최적의 모형을 구현하는 것이 상대적으로 어려움
도출된 입출력 변수의 연관관계에 대한 설명이 어려움
충분한 데이터 필요

[Python] 가상환경 만들기 virtualenv

Wed, 09 Nov 2022 06:19:26 GMT

Python 프로젝트별 가상환경 만들어 작업하는 이유

프로젝트마다 사용하는 패키지가 다르기 때문에, 프로젝트별로 패키지를 관리하기 용이하다.
패키지간의 의존성문제, 버전문제 등에 따른 오류, 코드변경을 최소화할 수 있다.
협업이나 코드 공유가 편리하다.

1. virtualenv 설치

$ pip install virtualenv

2. 가상환경 생성

$ virtual protfolio --python=python3.8 # 파이썬 버전 지정가능 # protfolio라는 가상환경 폴더 생성됨

3. 가상환경 활성화

$ source portfolio/bin/activate # 이하 코드 (portfolio) ~$ 로 바뀜!

4. 필요한 패키지 설치

$ pip install 패키지

5. 해당 환경에 설치된 패키지 requirements.txt 로 추출

$ pip freeze > requirements.txt

6. requirements.txt 에 있는 패키지 일괄 설치

$ pip install -r requirements.txt

7. 가상환경 종료하기(나가기)

$ deactivate

코딩 문제풀이 | 프로그래머스 | 푸드파이트 대회 음식배치 (Python / Javascript)

Tue, 08 Nov 2022 05:19:24 GMT

📖 문제 설명

수웅이는 매달 주어진 음식을 빨리 먹는 푸드 파이트 대회를 개최합니다. 이 대회에서 선수들은 1대 1로 대결하며, 매 대결마다 음식의 종류와 양이 바뀝니다. 대결은 준비된 음식들을 일렬로 배치한 뒤, 한 선수는 제일 왼쪽에 있는 음식부터 오른쪽으로, 다른 선수는 제일 오른쪽에 있는 음식부터 왼쪽으로 순서대로 먹는 방식으로 진행됩니다. 중앙에는 물을 배치하고, 물을 먼저 먹는 선수가 승리하게 됩니다.

이때, 대회의 공정성을 위해 두 선수가 먹는 음식의 종류와 양이 같아야 하며, 음식을 먹는 순서도 같아야 합니다. 또한, 이번 대회부터는 칼로리가 낮은 음식을 먼저 먹을 수 있게 배치하여 선수들이 음식을 더 잘 먹을 수 있게 하려고 합니다. 이번 대회를 위해 수웅이는 음식을 주문했는데, 대회의 조건을 고려하지 않고 음식을 주문하여 몇 개의 음식은 대회에 사용하지 못하게 되었습니다.

예를 들어, 3가지의 음식이 준비되어 있으며, 칼로리가 적은 순서대로 1번 음식을 3개, 2번 음식을 4개, 3번 음식을 6개 준비했으며, 물을 편의상 0번 음식이라고 칭한다면, 두 선수는 1번 음식 1개, 2번 음식 2개, 3번 음식 3개씩을 먹게 되므로 음식의 배치는 "1223330333221"이 됩니다. 따라서 1번 음식 1개는 대회에 사용하지 못합니다.

수웅이가 준비한 음식의 양을 칼로리가 적은 순서대로 나타내는 정수 배열 food가 주어졌을 때, 대회를 위한 음식의 배치를 나타내는 문자열을 return 하는 solution 함수를 완성해주세요.

제한사항

2 ≤ food의 길이 ≤ 9
1 ≤ food의 각 원소 ≤ 1,000
food에는 칼로리가 적은 순서대로 음식의 양이 담겨 있습니다.
food[i]는 i번 음식의 수입니다.
food[0]은 수웅이가 준비한 물의 양이며, 항상 1입니다.
정답의 길이가 3 이상인 경우만 입력으로 주어집니다.

입출력 예

food	result
[1, 3, 4, 6]	"1223330333221"
[1, 7, 1, 2]	"111303111"
두 선수는 1번 음식 3개, 3번 음식 1개를 먹게 되므로 음식의 배치는 "111303111"입니다.

💡 문제풀이

🧀 파이썬 코드

def solution(food): 
    answer = ""
    for i in range(1,len(food)):
        answer += str(i)*(food[i]//2)
    rev = answer[::-1]
    answer += "0" 
    answer += rev
    return answer

🧀 자바스크립트 코드

function solution(food) {
    var answer = '';
    for (i = 1; i < food.length; i++){
        answer += String(i).repeat(parseInt(food[i]/2))
    }
    rev = answer.split('').reverse().join('')
    answer+='0'
    answer+=rev
    return answer;
}

문제출처 : https://school.programmers.co.kr/learn/courses/30/lessons/134240

[ML/Python]시계열 데이터, 주식데이터 분석예측, ARIMA

Wed, 02 Nov 2022 08:48:37 GMT

1️⃣. 시계열 데이터 (주가데이터) 준비

1. 10년치 주가 정보 가져오기

🔍 사전지식

DataReader([종목정보],[데이터소스],[시작일],[종료일])
High(최고가), Low(최저가), Open(시가), Close(종가), Volume(거래량), Adj Close(수정종가;분할,배당,배분,신주 발생이 된 경우를 고려하여 주식가격을 조정해둔 가격)

# Libraries
import pandas_datareader.data as web # 주가 데이터
import datetime # 날짜    
import matplotlib.pyplot as plt # 시각화 라이브러리

# 시작일, 종료일 
start = datetime.datetime(2012, 10, 31) 
end = datetime.datetime(2022, 10, 31) 
# DataReader([종목정보],[데이터소스],[시작일],[종료일])
alphabet = web.DataReader("GOOG","yahoo",start,end)
print("\n")
print(alphabet)
print('\n')
print(alphabet.info())

>
- ![](https://velog.velcdn.com/images/isitcake_yes/post/e4acfe29-e535-444c-9d3d-14edbdcfe27c/image.png)


### 2. 데이터 전처리 &  원본시계열, 이동평균, 이동표준편차 시각화
>- 전처리
```python
# 거래량이 0인 일자 제거 & 수정종가 데이터만 사용
data = alphabet['Adj Close'][alphabet['Volume'] != 0]

원본시계열, 이동평균, 이동표준편차 시각화

def plot_rolling(data, interval):
  rolmean = data.rolling(interval).mean()
  rolstd = data.rolling(interval).std()
  #Plot rolling statistics:
  plt.figure(figsize=(10, 6))
  plt.xlabel('Date')
  orig = plt.plot(data, color='blue',label='Original')
  mean = plt.plot(rolmean, color='red', label='Rolling Mean {}'.format(interval))
  std = plt.plot(rolstd, color='black', label = 'Rolling Std {}'.format(interval))
  plt.legend(loc='best')
  plt.title('Rolling Mean & Standard Deviation')
  plt.show()
>
# 50일치 평균내어 이동평균계산
plot_rolling(data, 50)

해석1. 데이터가 평균이 일정하지 않은 비정상성의 특징(아래 개념 설명)을 가지는 것 같아 보이므로, 변환과정을 거친다면 ARIMA의 d차수(아래 개념 설명)가 1 이상일 것이다.
해석2.* 계절성이나 특정 주기성은 크게 확인되지 않기 때문에 추후 ARIMA 분석에서 모수 seasonal이나 m은 auto_arima에 적용할 필요가 없을 수도 있다.

2️⃣. 시계열 데이터 분석 - ARIMA

🔍 시계열 분석 : 시계열 분석이란, 일반적인 예측분석 중에서도 시간을 독립변수(X)로 사용하여 종속변수(Y)를 예측하는 분석이다. ARIMA는 시계열 분석(예측)에서 가장 널리 사용되는 모델 중 하나이고, 시계열 데이터는 정상성과 비정상성 데이터로 나눌 수 있다.

🔍 정상성(stationary)과 비정상성(Non-stationary)

정상성 : 관측된 시간에 대해 무관한 데이터. 평균과 분산이 일정함. ex)백색소음
비정상성 : 시간에 따라 평균 수준이 다르거나 추세(Trend)나 계절성(Seasonality)에 영향을 받는 데이터. ex) 겨울에 난방비 증가, 여름에 아이스크림 판매량 증가
- 비정상성 데이터는 예측범위가 무한대이고 고려할 파라미터들이 많다. 따라서, 비정상성 데이터를 정상성으로 변환하여 분석을 진행하면 예측범위가 일정 범위로 줄어들어 예측 성능이 개선되고, 고려할 파라미터의 수가 감소하여 보다 단순한 알고리즘으로 예측이 가능하며, over fitting도 방지할 수 있다.
- 변환 방법 중에는 평균의 정상화를 위한 차분과, 분산의 안정화를 위한 로그 변환, 제곱/제곱근 변환 등이 있다.

0. ARIMA ?

Autoregressive Integrated Moving Average : ARIMA는 자기회귀모형(Autoregressive)과 이동평균모형(Moving Average) 둘 다 고려하고, 비정상성(Non-stationary) 데이터의 변환을 위해 관측치간의 차분(Diffrance)을 사용하는 모델이다. (차분이란 현시점 데이터에서 d시점 이전 데이터를 뺀 것이다. Ex. 1차 차분 : 1일 전 데이터와의 차이, 2차 차분 2일 전 데이터와의 차이 )

AR : 자기회귀모형(Autoregressive). p시점 만큼 앞선 시점까지의 값에 영향을 받는 모형.
- I : integrated. 누적을 의미하며, 비정상성(Non-stationary) 데이터의 변환(평균의 정상화)을 위해 차분을 이용하는 시계열 모형에 붙이는 표현
- MA : 이동평균모형(Moving Average). q시점 만큼 앞선 시점까지의 연속적인 오차값들(shock)의 영향을 받는 모형. => *AR(p), MA(q) 모형에 차분(d)을 이용해 비정상성을 제거하는 과정을 더하여 ARIMA(p,d,q)로 표현한다. *

1. 시계열 정상성 확인 - ADF 테스트

: ADF Test(Augmented Dickey-Fuller Test)는 시계열 데이터의 정상성 여부를 통계적인 정량 방법으로 검증하는 방법이다.

귀무가설 Null hypothesis: 증명하고자 하는 가설의 반대되는 가설, 효과와 차이가 없는 가설. 기각에 실패하면 시계열이 비정상성(Non-stationary)임을 의미한다.
대립가설 Alternative hypothesis : 증명하고자 하는 가설. 귀무가설이 기각되고 시계열이 정상성(Stationary)임을 의미한다.

1) 원본데이터 ADF 테스트

from statsmodels.tsa.stattools import adfuller
>
def adf_test(data):
    result = adfuller(data.values)
    print('ADF Statistics: %f' % result[0])
    print('p-value: %f' % result[1])
    print('num of lags: %f' % result[2])
    print('num of observations: %f' % result[3])
    print('Critical values:')
    for k, v in result[4].items():
        print('\t%s: %.3f' % (k,v))
>
print('ADF TEST 결과')
adf_test(data)
>
""" 
ADF TEST 결과
ADF Statistics: -0.810527
p-value: 0.816010
num of lags: 24.000000
num of observations: 2493.000000
Critical values:
    1%: -3.433
    5%: -2.863
    10%: -2.567
"""

해석> pvalue > 0.05 이므로 귀무가설을 기각할 수 없다. 따라서 구글(알파벳) 주식 데이터 (data) 는 비정상성 데이터이다.
2) 차분 데이터 ADF 테스트

# 1차 차분 데이터 diff1
dff1 = data.diff().dropna()
dff1.plot(figsize=(15,5))

# 차분 테이터 adf테스트
print('ADF TEST 결과')
adf_test(dff1)
>
"""
ADF TEST 결과
(-10.57269500384887, 7.236501803746375e-19, 23, 2493, {'1%': -3.4329757705711432, '5%': -2.862700050059295, '10%': -2.567387539813443}, 8124.823784502814)
ADF Statistics: -10.572695
p-value: 0.000000
num of lags: 23.000000
num of observations: 2493.000000
Critical values:
  1%: -3.433
  5%: -2.863
  10%: -2.567
"""

해석*> pvalue가 0.05미만이므로 가설 기각(채택), 1차 차분 처리한 데이터가 정상성 데이터가 되었다! => 비정상성 데이터는 차분을 이용하여 안정적으로 만들어 분석한다. (ARIMA)

결론 : 원본데이터는 비정상성 시계열 데이터이므로 차분을 이용하는 시계열 모형을 사용하자! = ARIMA를 사용하자~!

2. ARIMA(p,d,q) 모수 추정

AR(p), 차분(d), MA(q)에서 보통 p+q <2, p*q=0 인 값을 많이 사용한다. (p,q둘 중 한 값이 0) 실제로는 AR 이나 MA 둘중 하나의 경향을 강하게 띄기 때문에 주로 이렇게 사용한다.

추정 방법은 (방법1)ACF plot과 PACF plot을 통해 모수 추정 하는 것과 (방법2)pmdarima 라이브러리의 ndiffs, auto_arima 함수를 사용하여 모수 추정하는 방법이 있다.

📍 방법1. ACF, PACF 검정 !

: ** ACF plot** 과 PACF plot 은 현재 값이 과거 값과 어떤 relationship이 있는지 보여준다.

ACF plot (자기상관함수, Autocorrelation Function plot)	PACF plot (편자기상관함수, Partial Autocorrelation Function plot)
현재값 S(t)에 S(t-p)값 부터 S(t)에 도달하기까지의 값들의 영향까지 고려 ( S(t-p), S(t-p+1), S(t-p+2) .. S(t)값 )	현재값 S(t)에 S(t-p)값이 주는 영향만 의미

정상 시계열 데이터의 경우, ACF는 상대적으로 빠르게 0(상관관계 0)에 접근하고, 비정상 시계열 데이터의 경우, ACF는 천천히 감소하며 종종 큰 양의 값을 가진다.

> 모델 적합

	AR(p) 모델 적합	MA(q) 모델 적합
ACF plot	천천히 감소	첫 값으로부터 q개 뒤에 끊긴다
PACF plot	첫 값으로부터 p개 뒤에 끊긴다	천천히 감소

*** 원본 데이터 (비정상) > ACF 그래프 천천히 감소 **

from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
plot_acf(data)
plot_pacf(data)
plt.show()

해석> ACF plot가 천천히 감소되는 것으로 보아 주식 데이터는 주기에 따라 일정하지 않은 비정상성 데이터이고, PACF plot에서 첫값으로부터 1개 이후 파란 박스에 들어가면서 그래프가 끊기는 것으로 보아 AR(1) 모델을 활용하는 것이 가장 적절할 것으로 예상된다.

> >** *1차 차분 데이터 (정상성) > ACF 그래프 1개 뒤에 끊김** ```python plot_acf(dff1) plot_pacf(dff1) plt.show() ```

결론: ACF, PACF 그래프 그려본 결과, AR(1), d(1), MA(0)이 적절해 보인다.

📍 방법2. ndiffs, auto_arima 함수 사용

1. 차분 결정 : ndiffs

import pmdarima as pm
from pmdarima.arima import ndiffs
data = new_alpha['Adj Close']
n_diffs = ndiffs(data, alpha=0.05, test='adf', max_d=6)
print(f"추정된 차수 d = {n_diffs}") # 결과
추정된 차수 d = 1

2. 모형 차수 결정 : auto_arima, pmdarima 라이브러리에 있는 함수로, ARIMA 모형의 차수 p,d,q와 계수를 자동으로 추정해주는 함수

y: 시계열 데이터(array 형태)
d (기본값 = none): 차분의 차수, 이를 지정하지 않으면 실행 기간이 매우 길어질 수 있음
start_p (기본값 = 2), max_p (기본값 = 5): AR(p)를 찾을 범위 (start_p에서 max_p까지 찾는다!)
start_q (기본값 = 2), max_q (기본값 = 5): MA(q)를 찾을 범위 (start_q에서 max_q까지 찾는다!)
m (기본값 = 1): 계절적 차분이 필요할 때 쓸 수 있는 모수로 m=4이면 분기별, m=12면 월별, m=1이면 자동적으로 seasonal 에 대한 옵션은 False로 지정되며 계절적 특징을 띠지 않는 데이터를 의미함
seasonal (기본값 = True): 계절성 ARIMA 모형을 적합할지의 여부
stepwise (기본값 = True): 최적의 모수를 찾기 위해 쓰는 힌드만 - 칸다카르 알고리즘을 사용할지의 여부, False면 모든 모수 조합으로 모형을 적합한다.
trace (기본값 = False): stepwise로 모델을 적합할 때마다 결과를 프린트하고 싶을 때 사용한다.

model = pm.auto_arima(
            y=data, 
            d=1, 
            start_p=0, max_p=3, 
            start_q=0, max_q=3, 
            m=1, seasonal=False, # 계절성이 없음!
            stepwise=True,
            trace=True
)

> - ![](https://velog.velcdn.com/images/isitcake_yes/post/c7106205-7eeb-411e-8c33-04f5dd9d6022/image.png)
- **해석**> auto_arima를 사용한 결과 최적의 모델은 **ARIMA (1,1,0)** 모형으로 나왔다. 
이때, AIC(Akaike Information Criterion) 또는 BIC(Bayesian Information Criterion)을 최소화하는 차수를 결정한다. 
(모델의 fitting력이 좋을수록 AIC값이 작아지고 모델의 복잡도가 높아질수록 AIC값이 커진다.)

결론: auto_arima결과, ARIMA (1,1,0)이 적절해 보인다. 




### 3. 잔차 검정
: 잔차가 정상성(백색잡음인지), 정규성, 등분산성 등을 만족하는지 파악. `model.summary()`, `model.plot_diagnostics()`

> ```python
print(model.summary())

해석> Ljung-Box (Q), Heteroskedasticity (H), Jarque-Bera (JB)에 대한 부분은 모두 잔차에 대한 검정 통계량이다.

통계량	Ljung-Box (Q)	Heteroskedasticity (H)	Jarque-Bera (JB)
통계량의 귀무가설	"잔차가 백색잡음이다."	"잔차가 이분산을 띄지 않는다"	“잔차가 정규성을 만족한다”
p-value	Prob(JB) > 0.05 귀무가설 채택 O	Prob(JB) <0.05 귀무가설 채택 X	Prob(JB) <0.05 귀무가설 채택 X
해석	잔차가 자기 상관을 가지지 않는 백색잡음이며, 시게열 모형이 잘 적합되었다.	잔차가 이분산성을 띈다	잔차가 정규성을 따르지 않음

model.plot_diagnostics(figsize=(16,8))
plt.show()

```

해석1. 잔차의 정상성
- Standardized residual(좌상단) : 잔차의 시계열 데이터. 잔차의 시계열이 평균 0을 중심으로 변동하는 것으로 보임.
- Correlogram (우하단) : 잔차에 대한 ACF 플롯. 어느정도 허용 범위(파란박스) 안에 위치하여 자기상관이 없음을 알 수 있음.
해석2. 잔차의 정규성
- Histogram plus estimated density (우상단) : 잔차의 히스토그램을 그려 정규분포(N(0,1))와 밀도를 추정한 그래프.
- Normal Q-Q (좌하단) : 양끝쪽 빨간 선을 벗어나는 구간이 존재한다. 정규성을 만족하려면 빨간 일직선 위에 점들이 분포해야 함.
결론: 잔차는 백색잡음(정상성)이지만, 정규성은 따르지 않는다. 따라서 추후 모형 설정에서 여러 파라미터(모수)들을 변경하거나 데이터를 변환해가며 모형을 테스트해본다.

4. ARIMA모델 훈련과 테스트

1) train, test set분리

# train : test = 9 : 1
train_data, test_data = data[:int(len(data)*0.9)], data[int(len(data)*0.9):]

2) train_data 모델 학습

from statsmodels.tsa.arima_model import ARIMA
>
model_fit = pm.auto_arima(
            y=train_data, 
             d=n_diffs , 
            start_p=0, max_p=2, 
            start_q=0, max_q=2, 
            m=1, seasonal=False, # 계절성이 없음!
            stepwise=True,
            trace=True
)
print(model_fit.summary())

3) test_data 와 예측값 비교

forecast 함수 생성

# forecast 함수
def forecast_n_step(model, n = 1):
  fc, conf_int = model.predict(n_periods=n, return_conf_int=True)
  # print("fc", fc,"conf_int", conf_int)
  return (
      fc.tolist()[0:n], np.asarray(conf_int).tolist()[0:n]
 )
>
def forecast(len, model, index, data=None):
  y_pred = []
  pred_upper = []
  pred_lower = []
>
  if data is not None:
      for new_ob in data:
          fc, conf = forecast_n_step(model)
          y_pred.append(fc[0])
          pred_upper.append(conf[0][1])
          pred_lower.append(conf[0][0])
          model.update(new_ob)
  else:
      for i in range(len):
          fc, conf = forecast_n_step(model)
          y_pred.append(fc[0])
          pred_upper.append(conf[0][1])
          pred_lower.append(conf[0][0])
          model.update(fc[0])
  return pd.Series(y_pred, index=index), pred_upper, pred_lower

test_data와 예측값 그래프

# Forecast 
fc, upper, lower = forecast(len(test_data), model_fit, test_data.index, data = test_data)
>
# pandas series 생성
# fc # 예측결과
lower_series = pd.Series(lower, index=test_data.index)  # 예측결과의 하한 바운드
upper_series = pd.Series(upper, index=test_data.index)  # 예측결과의 상한 바운드
>
# Plot
plt.figure(figsize=(20,6))
plt.plot(train_data, label='train_data')
plt.plot(test_data, c='b', label='test_data (actual price)')
plt.plot(fc, c='r',label='predicted price')
plt.fill_between(lower_series.index, lower_series, upper_series, color='k', alpha=.10)
plt.legend(loc='upper left')
plt.show()

4) 모델의 오차율 계산

from sklearn.metrics import mean_squared_error, mean_absolute_error
import math
mse = mean_squared_error(np.exp(test_data), np.exp(fc))
print('MSE: ', mse)
mae = mean_absolute_error(np.exp(test_data), np.exp(fc))
print('MAE: ', mae)
rmse = math.sqrt(mean_squared_error(np.exp(test_data), np.exp(fc)))
print('RMSE: ', rmse)
mape = np.mean(np.abs(np.exp(fc) - np.exp(test_data))/np.abs(np.exp(test_data)))
print('MAPE: ' ,'{:.2f}%'.format(mape*100))
"""  
결과
모델의 오차율 계산(성능평가)
MSE:  4.423699884665538e+128
MAE:  4.1226648119126564e+63
RMSE:  2.103259347932522e+64
MAPE:  11709.69%
"""

5. 향후 1년 주가 예측

주식개장일 불러오는 함수 생성

import exchange_calendars as ecals
def get_open_dates(start,end):
    k = ecals.get_calendar("XKRX")
    df = pd.DataFrame(k.schedule.loc[start:end]) #["2022-11-01":"2023-10-31"])
    # print(df['open'])
    date_list = []
    for i in df['open']:
        date_list.append(i.strftime("%Y-%m-%d"))
       # print(i.strftime("%Y-%m-%d"))   
    date_index = pd.DatetimeIndex(date_list)
    return date_index  # DatetimeIndex

향후 1년 주가 예측

date_index = get_open_dates("2022-11-01","2023-10-31")
fc2, upper2, lower2 = forecast(len(date_index), model_fit, date_index)
print('1년 후 주가') 
print(fc2.tail())
# fc2, conf = forecast_n_step(model_fit, len(date_list))
lower_series2 = pd.Series(lower2, index=date_index)  # 예측결과의 하한 바운드
upper_series2 = pd.Series(upper2, index=date_index)  # 예측결과의 상한 바운드
> # plot
plt.figure(figsize=(20,6))
plt.plot(train_data, label='original')
plt.plot(test_data, c='b', label='actual price')
plt.plot(fc, c='r',label='predicted price')
plt.plot(fc2, c='g',label='forward predicted price')
plt.fill_between(lower_series.index, lower_series, upper_series, color='k', alpha=.10)
plt.fill_between(lower_series2.index, lower_series2, upper_series2, color='k', alpha=.10)
plt.title('After 1 year')
plt.legend(loc='upper left')
plt.show()
"""
1년 후 주가
2023-10-25    102.362737
2023-10-26    102.393655
2023-10-27    102.424573
2023-10-30    102.455491
2023-10-31    102.486410
"""

Ref

[UI/UX] Figma 장점과 단축키 모음

Tue, 01 Nov 2022 07:05:28 GMT

🎨 피그마

피그마(Figma) https://www.figma.com : UI 디자인, 프로토타이핑 등을 구현하기 위한 디자인 툴

장점

디자인 프로세스를 적극 반영한 사용성과 인터페이스
개발자 핸드오프(handoff, 개발자에게 전달) 과정에서 유용
무료 가능(편집자 2명 제한)
강력한 협업 툴 - 동시작업, 보기전용, 링크공유, 히스토리 버전관리 등 다양한 옵션 존재
거의 없는 환경적 제약 - Mac, Windows, 리눅스 모두 동작 어디서나 접속 가능
커뮤니티, 다양한 플러그인, 디자인 래퍼런스 활성화

+ 피그잼(Figjam) : 브래인스토밍을 위한 화이트보드 협업 툴. 프로젝트 시각화, 스케쥴링, 데이터스키마 설계 등 다방면으로 사용되고 있다. Figjam또한 무료이고 실시간 협업과 관리가 쉽고 편하다.

⌨️ 피그마 단축키 모음

Files

Ctrl+Alt+S : 히스토리 저장 Save to Version History (히스토리확인 : file > Show version history)

Tools

V : 이동 Move C : 코멘트 추가 또는 보기 Add/Show Comments P : 펜툴 Pen Shift+P : 연필 툴 Pencil R : 사각형 그리기 Rectangle O : 원 그리기 Ellipse L : 선 그리기 Line F : 프레임 생성 Frame S : 슬라이스 Slice I : 스포이드 툴Pick Color

TEXT

T : 텍스트 Text Ctrl+Shift+V : 스타일에 맞춰 붙여넣기 Paste and Match Style Ctrl+B : 볼드 Bold Ctrl+I : 이탤릭 Italic Ctrl+U : 밑줄 Underline

Object

Ctrl+A : 전체 선택 select All Esc : 전체 선택 해제 select None Ctrl+G : 그룹 Group Selection Ctrl+Shift+G : 그룹 해제 Ungroup Selection Ctrl+Shift+H : 숨기기/나타내기 Show/Hide Selection Ctrl+Shift+L : 잠금/잠금해제 Lock/Unlock Selection Ctrl+Alt+Shift+L : 전체 잠금 해제 Unlock All Object Ctrl+C : 복사 Copy Ctrl+X : 잘라내기 Cut Ctrl+V : 붙여넣기 Paste Alt+drag : 선택 복사 Duplicate Selection

Component

Ctrl+Alt+K : 컴포넌트 만들기 Create Component Ctrl+Alt+B : 인스턴스 분리하기 Detach Instance 컴포넌트 해제 :

해당 컴포넌트로 instance생성(복붙)
해당 Instance를 Detach Instance하여 일반 Frame으로 변경(Ctrl+Alt+B)
Assets에서 해당 컴포넌트 제거(Delete키)

View

Alt + 1 : Open layers panel Alt + 2 : Open Libraries(Assets) panel Alt + 8 : Open Design panel Alt + 9 : Open Prototype panel Alt + 0 : Open inspect panel Ctrl+/ : 검색 Search Ctrl+Shift+/ : 단축키 보기 Keyboard Shortcuts

Shape

Shift + V : 가로 뒤집기 Shift + H : 세로 뒤집기 Ctrl+E 병합 Flatten Selection Ctrl+Shift+O 윤곽선으로 변경 Outline Stroke Alt+double+click 이미지 자르기 Crop Image

Zoom

Ctrl+drag : Zoom In-Out Shift+drag : Move to Left-Right Shift+1 : Zoom to fit Shift+2 : Zoom to selection N : Zoom to next frame Shift+N : Zoom to previous frame

- 성공적인 협업을 위하여! 🍻

[Docker] 도커 개념, 도커 설치, 기본 명령어 실습

Fri, 28 Oct 2022 09:06:41 GMT

1. 도커란 ?

도커 (Docker)는 가상머신처럼 컨테이너 기반의 독립된 실행환경을 만들어주는 플랫폼이다. host OS안에서 독립적인 Application(Container)들이 각각 관리되고 실행된다.

🐬 도커 사용 이유

도커는 실행파일만 갖고 있기 때문에 VM보다 용량 부담이 적고 실행속도가 빠르다. 또한 컨테이너 생성 및 관리가 매우 용이하기 때문에 Application의 개발과 배포 편해지고, 여러 Application의 독립성과 확장성이 높아지는 등 많은 장점이 있다.

🐬 Docker hub / Image / Container

Docker Hub : Docker의 이미지 저장소 서비스
- (image 가져오기) https://hub.docker.com/ > Explore > 필요한 image 정보확인, docker pull [이미지]
Docker Image : 도커 컨테이너 운영에 필요한 서버 프로그램, 소스코드 및 라이브러리, 컴파일된 실행 파일을 하나로 합친 것.
- (image 실행) docker run [이미지]
Docker Container : 도커 이미지를 실행한 상태. 파일 시스템과 어플리케이션이 구체화되어 실행되는 상태.

2. 리눅스(Ubuntu)에 설치

참고 : https://docs.docker.com/engine/install/ubuntu/

1) 저장소 설정(repository)

#  update apt
$ sudo apt-get update
$ sudo apt-get install \
    ca-certificates \
    curl \
    gnupg \
    lsb-release


# Docker의 official GPG key 추가
 $ sudo mkdir -p /etc/apt/keyrings
 $ curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg


# 리포지토리를 설정
$ echo \
  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \
  $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

2) 도커 엔진 설치

$  sudo apt-get update
# 설치
$  sudo apt-get install docker-ce docker-ce-cli containerd.io docker-compose-plugin
# 도커설치 확인
$  sudo docker run hello-world

3. 도커 실행

1) 도커 허브에서 이미지 가져오기(pull)

$ docker pull [OPTIONS] ** NAME** [:TAG|@DIGEST] $ docker images

도커 허브에서 이미지 가져오기 (ex. httpd 설치) - https://hub.docker.com/_/httpd

$ sudo docker pull httpd # 설치된 images 리스트 확인
$ sudo docker images

2) 이미지 실행시켜 컨테이너 생성 (run)

$ docker run [OPTIONS] IMAGE [COMMAND] [ARG...]

$ sudo docker run --name ws1 httpd
$ sudo docker run --name ws2 httpd

3) 도커 컨테이너 확인

$ docker stop [OPTIONS] CONTAINER [CONTAINER...] : 컨테이너 종료

$ docker start [OPTIONS] CONTAINER [CONTAINER...] : 컨테이너 실행

$ docker logs [OPTIONS] CONTAINER : 컨테이너 로그출력 (docker logs -f ws1:실시간 로그 출력)

$ docker ps [OPTIONS] : 현재 실행중인 컨테이너 출력 (docker ps -a : 존재하는 모든 컨테이너 출력)

$ docker rm [OPTIONS] CONTAINER [CONTAINER...] : 컨테이너 삭제

$ docker rmi [OPTIONS] IMAGE [IMAGE...] : 이미지 삭제

$ sudo docker ps

$ sudo docker stop ws2
$ sudo docker ps # 멈춘 것 확인

$ sudo docker rm ws2
$ sudo docker rmi httpd

4. 도커 네트워크 구조

1개의 도커 host에는 여러개의 container를 만들 수 있다.
host, container 모두 독립적이기 때문에, 독립적인 포트와 파일시스템을 갖고 있다.
호스트의 8080번 포트와 컨테이너 80번 포트를 연결하려면, 컨테이너 실행 시, docker run -p 8080:80 httpd 와 같이 연결한다. 이렇게 연결된 포트로 신호를 전송하는 것을 포트 포워딩(port forwarding)이라고 한다.
Ex. Web1(Web browser), Web2(Web server)에서 도커 네트워크
1. Web1(웹브라우저)에 주소창 index.html을 입력
2. host:8080, container:80 포트로 Web2(웹서버)에 요청신호가 전달됨
3. Web2(웹서버)의 file system(/usr/loacl/apache2/htdocs/)에서 index.html파일을 읽어서 index.html코드를 Web1(웹브라우저)에게 전달함

$ sudo docker run --name ws3 -p 8081:80 httpd

도커 연결 웹페이지 확인 (localhost:8081/index.html)
컨테이너 로그 실시간 확인 (docker logs -f ws3)

5. 컨테이너 명령 실행

$ docker exec [OPTIONS] CONTAINER COMMAND [ARG...]

# ws3 컨테이너에서 pwd 실행
$ sudo docker exec ws3 pwd
/usr/local/apache2


# ws3 컨테이너에서 command line 지속적으로 연결(- it 옵션)
$ sudo docker exec -it ws3 /bin/sh
$ sudo docker exec -it ws3 /bin/bash
# pwd 
usr/local/apache2
# exit  (host 로 나가기 )

🐬 index.html을 수정해보자

index.html파일 위치 : /usr/local/apache2/htdocs/ (hub에 사용법 정리되어 있음.)

$ sudo docker exec -it ws3 /bin/bash
root@3215050bf255:/usr/local/apache2# cd /usr/local/apache2/htdocs/
root@3215050bf255:/usr/local/apache2/htdocs# ls 
index.html

vi 에디터 설치

apt update
apt install vim
vi index.html  -> 수정 후 localhost:8081/index.html 확인

6. 호스트와 컨테이너의 파일 시스템

$ sudo docker run --name cfront -p 8081:80 -v /home/sekim/front:/usr/local/apache2/htdocs/ httpd

v옵션 추가 : -v host의 파일 위치:container의 파일위치
$ sudo docker exec -it cfront /bin/bash 로 파일 확인 ``` root@9109f76dfd59:/usr/local/apache2# cd htdocs/ root@9109f76dfd59:/usr/local/apache2/htdocs# ls

04.md index.html main.css main.js

=> host(내 로컬)환경에 있던 front폴더(/home/sekim/front)의 내용을 cfront컨테이너에서 확인할 수 있게 되었다. 또한 실시간으로 host파일을 변경할 때마다 바로 container의 파일도 변경된다.  





## Ref 
생활코딩 도커 강의를 공부하며 작성한 글입니다.
- https://opentutorials.org/course/4781/30610
- https://kibua20.tistory.com/135
- https://docs.docker.com/reference/ 
- *(그림:[생활코딩 - 도커 수업 영상](https://opentutorials.org/course/4781/30609) 캡쳐)*

[R] R 데이터구조 관련 함수 - 벡터Vector, 행렬Matrix, 팩터Factor, 배열Array

Wed, 26 Oct 2022 05:11:51 GMT

🔍 벡터 Vector

⭐️ 벡터 생성 : c(), seq(), rep(), names()

v1 <- c(1, 2, 3)  
v2 <- c(4, 5, 6)  
v1; v2
#> [1] 1 2 3
#> [1] 4 5 6

v3 <- c(v1, v2)   
v3
#> [1] 1 2 3  4 5 6

# seq() 연속값
var1 <- c(1:6)   # 1~6까지의 연속 값
var2 <- seq(1, 6)   # 1~6까지의 연속 값
var1; var2
#> [1] 1 2 3 4 5 6
#> [1] 1 2 3 4 5 6
var3 <- seq(1, 6, by = 2)   # 1~10까지 2간격의 연속값
var4 <- seq(1, 6, by = 3)   # 1~10까지 3간격의 연속값
var5 <- seq(from = 1, to = 2, length.out = 5)
var3; var4; var5
#> [1] 1 3 5 
#> [1]  1  4  
#> [1] 1.00 1.25 1.50 1.75 2.00

# rep() 반복값 
var6 <- rep(3, times = 5)  # 5를 7번 반복 
var7 <- rep(c("a", "b"), each = 3)  # 각 문자 3번 반복
var6; var7
#> [1] 3 3 3 3 3
#> [1] "a" "a" "a" "b" "b" "b"

# names() 값마다 이름 부여
mbti <- c("INFP", "ENTP", "ESFP")
names(mbti) <- c("김땡땡", "문땡땡", "박땡땡")
# mbti <- c(김땡땡="INFP",문땡땡= "ENTP",박땡땡="ESFP") 와 동일

mbti
# 김땡땡 문땡땡 박땡땡 
# "INFP" "ENTP" "ESFP"

⭐️ 벡터 요소 추출 및 제외 : 특정위치로, 이름으로, 조건으로

# 이름으로 추출
mbti["김땡땡"] #> 김땡땡 "INFP"

# 특정 위치 요소 추출
v <- c(11, 12, 13, 14, 15)
v[2:3]               #> [1] 12 13
v[c(1,2,4)]          #> [1] 11 12 14
v[seq(1, 5, 2)]      #> [1] 11 13 15

# - 기호로 요소 제외
v[-2]                  #> [1] 11 13 14 15
v[-c(3:4)]             #> [1] 11 12 15

# 조건으로 추출
s <- c(3, 1, 5, 9, 7, 10)  
s[s>=7]              #> [1]  9  7 10
subset(s, s>=7)      #> [1]  9  7 10
# s>=7인 요소의 인덱스 추출
which(s>=7)          #> [1] 4 5 6

⭐️ 벡터 연산

v <- c(11, 12, 13, 14, 15)
v - mean(v) #> [1] -2 -1  0  1  2
sum(v) #> 65
w <- c(1, 2, 3, 4, 5)
sqrt(w) # [1] 1.00 1.41 1.73 2.00 2.24

🔍 행렬 Matrix

⭐️ 행렬 생성 : matrix(), cbind(), rbind()

# ncol : 열의 수, nrow : 행의 수
m1 <- matrix(1:12, ncol = 3)
m1
#>      [,1] [,2] [,3]
#> [1,]    1    5    9
#> [2,]    2    6   10
#> [3,]    3    7   11
#> [4,]    4    8   12

# byrow = TRUE : row로 채워짐
m2 <- matrix(data = c(1:6), nrow = 2, byrow = TRUE)
m2
#>      [,1] [,2] [,3]
#> [1,]    1    2    3
#> [2,]   11   12   13

# cbind() 열 병합, rbind() 행 병합
# 숫자 벡터 생성
first <- c(1,2,3,4)
second <- c(5,6,7,8)
third <- c(9,10,11,12)

# 열 기준으로 벡터 병합 
m3 <- cbind(first, second, third)
m3
#>      first second third
#> [1,]    1    5    9
#> [2,]    2    6    10
#> [3,]    3    7    11
#> [4,]    4    8    12

#행 기준으로 벡터 병합
m4 <- rbind(first, second, third)
m4
#       [,1] [,2] [,3] [,4]
#first     1    2    3    4
#second    5    6    7    8
#third     9   10   11   12

⭐️ 행렬 이름 붙이기 : rownames(), colnames(), dimnames()

rownames(m3) <- c("행1", "행2", "행3", "행4", "행5")
colnames(m3) <- c("열1", "열2", "열3")
m3
#>     열1 열2 열3
#> 행1   5   2   7
#> 행2   6   4   3
#> 행3   7   5   4
#> 행4   8   9   8
#> 행5   9   8   7

m4 <- matrix(
  data = c(1,2,3, 11,12,13),
  nrow = 2, byrow = TRUE,
  dimnames = list(c("행1", "행2"), c("열1", "열2", "열3"))
  )
m4
#>       열1  열2   열3
#> 행1    1    2    3
#> 행2   11   12   13

⭐️ 행렬 차원 : nrow(), ncol(), dim(), t()

t(m) # 행렬 전치
nrow(m) # 행 개수
ncol(m) # 열 개수
dim(m) # 행렬 개수

⭐️ 행렬 요소 추출 및 제외 :특정위치로, 이름으로, 조건으로

m[2,] # 2번째 행 요소 추출
m[2,3] # 2행 3열 요소 추출
m[1:5,] # 1-5번째 행 요소 추출
m[c(2,4),] # 2,4번째 행 요소 추출
m[,"열1"] # 열1 추출
m["행3",] # 행3 추출
m[-2, -2] # 2행 2열 제외
col3 <- m[, 3]
m[col3 >= 5,] # 3열의 값이 5이상인 경우 추출
m[m>1] # 1보다 큰 수 모두 추출

⭐️ 행렬 요소 수정

mm[mm < 10] <- 0  # mm에서 10보다 작은 수 0으로 수정
mm[2, 2] <- 9     # mm에서 2행2열의 값 9로 수정

⭐️ 행렬 연산

m1 * 2    # 모든 값에 x 2 
log2(m1)  # 모든 값에 log2 취함
rowSums(m3)
colSums(m3)

🔍 팩터 Factor

⭐️ 팩터 변수 만들기

팩터는 범주형(명목형) 자료의 데이터 구조이다. 분석 시, factor 형식의 구조여야하는 경우가 종종 있다.

diz <- factor(c("양성", "음성", "음성", "양성", "양성"))
diz
# [1] 양성 음성 음성 양성 양성
# Levels: 양성 음성

sex <- c("여성", "남성", "여성") sex <- factor(sex, levels = c("여성", "남성")) sex

[1] 여성 남성 여성

Levels: 여성 남성

#### ⭐️ 팩터 요소 수정
```python
# level 추가 
levels(diz) <- c(levels(diz), "악성")
diz[1] <- "악성"
diz
# [1] 악성 음성 음성 양성 양성
# Levels: 양성 음성 악성

🔍 배열 Array

: 2차원 이상의 구조, 행렬을 쌓은 구조, 행렬 문법과 거의 유사함.

# 
arr1 <- array(1:24, dim = c(3, 4, 2))
arr1
# , , 1
# 
#      [,1] [,2] [,3] [,4]
# [1,]    1    4    7   10
# [2,]    2    5    8   11
# [3,]    3    6    9   12
# 
# , , 2
# 
#      [,1] [,2] [,3] [,4]
# [1,]   13   16   19   22
# [2,]   14   17   20   23
# [3,]   15   18   21   24

# data, dim, dimnames
arr2 <- array(data=1:12, dim = c(2, 3, 2), dimnames = list(c("x1","x2"), c("y1","y2","y3"), c("z1","z2")))
arr2
# , , z1
#
#   y1 y2 y3
# x1  1  3  5
# x2  2  4  6
#
# , , z2
#
#   y1 y2 y3
# x1  7  9 11
# x2  8 10 12

arr2[,,"z1"] # z1 요소 추출
#   y1 y2 y3
# x1  1  3  5
# x2  2  4  6

🔍 데이터프레임 Data Frame

⭐️ 데이터프레임 구조 : data.frame(), str(), nrow(), ncol(), summary()

library(MASS)
df <- Boston
str(df) # 데이터 프레임 구조
# 'data.frame':    506 obs. of  14 variables:
# $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...
# $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ..
..

nrow(df) # 506
ncol(df) # 14
length(df) # 14

names(df) # 컬럼명 추출

summary(df) # 데이터프레임 각 변수별 요약

colMeans(df) # 컬럼별 평균

⭐️ 데이터프레임 데이터 추출 및 제외 :특정위치로, 이름으로, 조건으로

# 첫번째 열 추출 
df$crim
df[,"crim"]
df[,1]

# 특정 행 추출
df[1:3,] # 1-3번째 행

# 특정 데이터 추출
df[2,"crim"]
df$crim[2]
df[2,1]

# 제외 
df[, -1] # 첫번째 열 제외

# 조건
df[df$crim < 0.1, ]

crim01 <- df$crim < 0.1
cols <- c("crim", "medv")
df[crim01, cols]

subset(df, crim < 0.1)
subset(df, crim < 0.1, select = -(zn)) # zm컬럼 제외

⭐️ 데이터프레임 수정, 추가, 삭제

# 수정
df$age[2] <- 29
df[3, "score"] <- 95

# 행추가
new_data <- list("김땡땡", 26, "여", 97)
df <- rbind(df, new_data)

# 열추가
df$salary <- c(220, 180, 250, 170, 220, 270, 250, 290, 210)
or
salary2 <- c(220, 180, 250, 170, 220, 270, 250, 290, 210)
df <- cbind(df, salary2)

# 행 삭제
df <- df[!df$score < 80, ] # score 80이하인 행 삭제 

# 열 삭제
df$salary3 <- NULL # salary3 열 삭제
df <- df[, -(1:3)] # 1~3번째 열 제외

Ref

https://manboha.github.io/rbasic/dataframe.html

isitcake_yes.log

[자료구조/알고리즘] 해시(Hash), 해시테이블(Hash Table), 해시함수 (Hash Function) 개념 및 예제

해시(Hash)?

1. 개념

2. 충돌 Hash collision

충돌 해결 1.개별체이닝 (Seperate Chaining)

충돌 해결 2.오픈 어드레싱 (Open Addressing)

3. 시간복잡도 O(n) 속도 비교

4. 어떤 문제에서 해시를 사용해야 할까?

예제 - 완주하지 못한 선수

문제설명

제한사항

입출력 예

입출력 예 설명

BEST CODE (해쉬사용)

참고

[ML/NLP] 텍스트 마이닝 (Text Mining) 용어정리 및 TDM (Term Document Matrix)

✏️ 텍스트 마이닝(Text Mining)이란?

👉 관련 용어 정리

✏️ TDM (Term Document Matrix, 단어-문서 행렬)

데이터 정형화 : TDM 생성

가중치 적용 : TF-IDF가중치

[Software Engineering] 애자일(Agile) 소프트웨어 개발

📍 Agile Methods 애자일 방법론

* 애자일 소프트웨어 개발을 위한 4가지 원칙

* 변화에 드는 비용 Graph

* Plan-driven Development

* 애자일 선언의 12가지 원칙

* 애자일 프로젝트 관리

📍 eXtreme Programming (XP)

XP의 소프트웨어 개발 문제 해결법

XP Practices

📍 Scrum 스크럼

Relay race VS. Rugby approach

속도와 유연성을 제공하는 6개 특징 (스크럼 철학)

소프트웨어 개발을 위한 스크럼 프로세스

Sprint cycle 스프린트 주기

역할

워크플로우

Artefacts 산출물

진척(진행상황) 추적

📍 Lean Software Development 린 소프트웨어 개발

7가지 린 원칙

📍 KANBAN 칸반

📍 DevOps

도구 카테고리 및 참조 도구

+ WBS (Work Breakdown Structure, 업무 분류 체계)

프로젝트 진척율 계산

+ 실제 개발 프로세스

데이터 사이언스 논문 모음

- Attention Is All You Need

- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

- A Style-Based Generator Architecture for Generative Adversarial Networks

- Learning Transferable Visual Models From Natural Language Supervision

- Mastering the Game of Go with Deep Neural Networks and Tree Search

- Deep Neural Networks for YouTube Recommendations

출처 : 6 Papers Every Modern Data Scientist Must Read

- Documentation Matters: Human-Centered AI System to Assist Data Science Code Documentation in Computational Notebooks

- Assessing the effects of fuel energy consumption, foreign direct investment and GDP on CO2 emission: New data science evidence from Europe & Central Asia

- Impact on Stock Market across Covid-19 Outbreak

- Exploring the political pulse of a country using data science tools

- VeridicalFlow: a Python package for building trustworthy data science pipelines with PCS

- From AI ethics principles to data science practice: a reflection and a gap analysis based on recent frameworks and practical experience

- Detection of Road Traffic Anomalies Based on Computational Data Science

- Data Science Data Governance [AI Ethics]

출처 : Top 10 Must-Read Data Science Research Papers in 2022

[Software Engineering] 소프트웨어 개발 생명주기(Life Cycle) 모델 종류와 장단점

⚙️소프트웨어 라이프 사이클 모델

주먹구구식 모델 Code-and-Fix model

폭포수 모델 Waterfall model

프로토타입 모델 Prototyping model

점증적 모델 Incremental model

나선형 모델 Sprial model

통합 프로세스 모델 USDP(Unified Software Development Process)

V 모델

애자일 방법론 Agile Methods

애자일 방법론 (일하는 방식)

[Software Engineering] 소프트웨어 프로세스 개선(SPI) 및 소프트웨어 프로세스(SP) 품질인증 모델

⚙️소프트웨어 개발 프로세스 개선 Software Process Improvement(SPI)

소프트웨어 프로세스 & 개발 생명주기