[#1] LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

Thu, 27 Jul 2023 12:02:23 GMT

영상을 보고 정리해보는 LoRA ~ 🔆 Low-rank Adaptation == LoRA

KEY IDEA

PEFT의 기술 중 하나이다.
어떻게 효율적으로 파라미터 수를 줄이며 파인튜닝을 진행하게 되냐면, 원래 모델의 가중치들은 동결하고 low-rank를 갖는 행렬들을 새로 정의하여 그 행렬의 파라미터들만 업데이트하도록 한다.

INTUITION

일반적으로 가중치 행렬은 full-rank를 갖지만, 어떤 특정 태스크에서는 사전 훈련된 모델의 웨이트 행렬이 낮은 “intrinsic rank”를 갖는다는 연구(Aghajanyan et al. (2020))가 있었다.
따라서 이러한 사전 연구에 기반하여, LoRA 논문에서는 가중치에 대한 업데이트도 어댑테이션 과정에서 low-rank를 갖는다고 가정한다.

😲 랭크가 뭔데요?

[OpenCV error] contours data type = 17 is not supported

Thu, 11 May 2023 09:49:56 GMT

Problem

세그멘테이션 작업을 위해 이미지 마스크를 만들기 위해 아래와 같이 cv.drawContours()를 아래와 같이 사용하고 있었다.

cv.drawContours(background, [cnt], 0, (R, G, B), 2)

그런데 특정 컨투어([cnt]) 몇 개에서만 아래와 같은 오류가 발생했다.

Traceback (most recent call last):
  File "masking_image.py", line 175, in 
    Scene_Mask_Generation(file_list, args.png_dir, args.save_dir)
  File "masking_image.py", line 126, in Scene_Mask_Generation
    cv.drawContours(background, [cnt], 0, (R, G, B), 2)
cv2.error: OpenCV(4.5.2) :-1: error: (-5:Bad argument) in function 'drawContours'
> Overload resolution failed:
>  - contours data type = 17 is not supported
>  - Expected Ptr for argument 'contours'

컨투어를 확인해보니 모두 동일한 2D array 였는데! 왜 특정 컨투어만 안되는지 모르겠어서 해결 방법을 찾아봤다. 대강 contours data type = 17 is not supported 이게 타입 오류라는 것 같기는 했다.

Solve

cnt = np.int32(cnt) #를 추가해주자!

cnt를 넣어주기 전에, np.array의 int32 타입으로 변경해주니 해결됐다. 궁금해서 오류났을 때 dtype을 찍어보니 object 형이었다. 다만 모든 cnt 자체는 cv.cvtColor() -> cv.threshold() -> cv.findContours 의 과정을 거쳐 추출한건데, 왜 어떤 cnt는 정수형으로 뽑히고, 어떤 cnt는 object형으로 뽑혔는지 모르겠다.

하지만 형변환을 통해서 해결할 수 있다는 결론...

끝.

[Story Generation] AESOP: Abstract Encoding of Stories, Objects, and Pictures (ICCV, 2021)

Wed, 17 Aug 2022 04:00:46 GMT

Ravi, H., Kafle, K., Cohen, S., Brandt, J., & Kapadia, M. (2021). AESOP: Abstract Encoding of Stories, Objects, and Pictures. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 2052-2063).

"Examples are the best precept" - Aesop, The Two Crabs

CONTRIBUTION

새로운 visual storytelling 데이터셋 AESOP을 제안. (➕ 코드 및 데이터셋 모두 공개)
새로운 story comprehension 태스크 제안, a novel generalized story comprehension framework

다른 논문들과의 차별점 ?

이 논문의 차별점이자, 강점은 어떤 것이 있는지 먼저 살펴보고 넘어가려고 한다.

이 논문이 제안하고 있는 데이터셋은, 앞서 살펴본 두 논문과 달리 이미지 도메인이 클립아트이다. 위의 예시에서 확인해볼 수 있는데, 우리가 익히 보던 사진 Image Sequence가 아닌, 애니메이션과 같은 클립아트로 구성이 되어있다.
또한 앞서 살펴본 연구들은 이미지 인코더 -> 텍스트 디코더를 거쳐서 다음에 올 텍스트를 생성하는 태스크를 수행했지만, 이 논문은 텍스트와 이미지 모두 생성하는 태스크를 해결한다. 이는 이미지가 아닌 클립아트를 사용했기 때문에 이미지 생성이 수월하게 가능했던 것으로 보인다.

AESOP DATASET

principles

Creativity Over Perception ➡️ 데이터셋을 생성할 때, visual과 textual part 모두 생성하도록 함.
Causal and Coherent Narratives ➡️ 장르와 타이틀을 제약조건으로 사용
Constrained World Knowledge ➡️ real-world image가 아닌 clip-art image (단순화) 사용

data acquisition setup

하나의 스토리는 대응하는 visual panel, text panel 쌍 3개로 이루어진다.
VQA dataset 기반, drag and drop interface 사용. 바로 위에 예시가 있다.
그러나 VQA와 달리 오브젝트 수를 확장했으며 + 배경 종류를 추가했다. (부엌, 해변)
- 다양한 연령, 성별, 인종의 팔다리 변형 가능한 20명의 인간 캐릭터 + 움직이는 동물 9마리 + 고정포즈 동물 30마리
- 48개의 large object + 60개의 small object
- 인물은 고정된 이름 있음
free title and theme (미리 정의된 후보군 중 선택)
7,062 stories ➡️ 21,186 abstract visual scenes, and text

최종적으로 구축한 데이터셋의 예시는 아래와 같다.

기존 이미지 기반 데이터셋들은 기본적으로 존재하는 이미지에 텍스트를 덧입히는 것이기 때문에, *"쿵푸마스터보이가 불량배들에게 일격을 가하는 상황"*에 대한 이미지가 없다면 그러한 스토리를 생성할 수 없다. 그런데 이렇게 추상적인 클립아트로는 원하는 상황을 직접 생성할 수 있다. 이러한 점에 있어서 저자들은 creativity dataset이라고 강조한다.

AESOP Vs. Others

저자들은 본인들이 제안하는 데이터셋이, 기존 데이터셋에 비하여 diversity & coherence and causality 측면에서 더 좋다고 주장한다.

AESOP Model

이 모델이 이야기의 narrative를 잘 이해했는지를 어떻게 평가할까? 저자들은 이를 시작된 이야기를 계속하고, 끝낼 수 있는 능력으로 평가했다.

위의 능력을 갖춘 모델을 만들기 위해 저자들은 두 가지 타입의 Assistant를 제안했다.

Assistant Illustrator : generating the missing visual panel.
Assistant Writer : : generating the missing text panel.

이어서 각각의 Assistant를 구성하기 위한 Abstract Visual Representation, Encoder, Decoder를 자세하게 살펴보려고 한다.

1. Abstract Visual Representation

전술했듯, 이 연구는 기존 연구와 달리 클립아트 이미지를 사용했다. 따라서 이러한 점을 고려하여 저자들은 새로운 Representation을 제안하게 된다. 구체적인 아이디어는, 이미지를 인코딩 할 때 기존의 방법들처럼 이미지를 픽셀 단위로 인식하는 것이 아니라, 오브젝트 단위로 인식하게 된다. 구체적인 과정은 아래와 같다.

각 visual token을 인코딩하는 과정에서 object state는 {what the object is, where it is placed, how it is placed}에 대한 정보를 담게 된다.
Visual panel은 다음과 같이 표현되며 $V = [v_0, v_1, ..., v_nmax]$, 패널을 구성하는 각 Object Representation은 $v_i$ : $(o_i, x_i, y_i, z_i, filp_i, pose_i, expr_i)$ 로 표현된다.
구체적으로 오브젝트의 종류, 위치, 포즈 등의 정보는 아래와 같이 인코딩된다.

$o_i$ : object identifier $x_i$, $y_i$ : location of the center of the object in the panel $z_i$ : size of the object $filp_i$ : whether the object is facing left or right $pose_i$ : pose $expr_i$ : one of the nine possible expressions for human clip-arts

2. Story Encoder

$[V^1, V^2, V^3]$ : the sequence of visual panels
$[S^1, S^2, S^3]$ : the sequence of text panels

위에서 정의한 각각의 패널, 그리고 패널간의 관계를 인코딩 하기 위해 총 세 개의 인코더를 사용한다.

즉, story encoder : (1) visual, (2) text, and (3) cross-modal encoder.
- visual and text encoder : Bidirectional GRUs.
- cross-modal encoder : encoded representation(text, visual) 간의 cross modal attention 수행

3. Panel Decoder

1. visual panel

masked visual panel 을 생성하는 문제 ➡️ 다음 시퀀스 $V$를 예측하는 문제
- 두 개의 GRU(for tracking seqeunce of object and state of the visual panel)를 사용했다.
  - 각 GRU의 hidden state는 visual and text encoders의 final hidden states로 초기화

각 타임스텝 t에서, object decoder는 {지금까지 예측된 object의 상태와, object에 대한 attention과, input의 word representations}을 결합하여, current object를 예측
그 후, object decoder가 예측한 object와 current state를 사용해서, current object의 attribute를 예측
- Output : 33-dim vector(20 pose + 9 expression + $x_i$, $y_i$, $z_i$, $flip_i$)

2. text panel

위의 첫 번째 단계에서 사용했던 object decoder와 동일한 구조의 디코더를 사용했다. vocabulary size 만 수정해서 사용했음.
regular Maximum Likelihood objective를 사용하여 학습됨.
inference는 nucleus sampling(Top-p)을 사용.

Baseline

저자들이 하고자 하는 태스크와 직접적으로 비교할 만한 기존 연구가 없었기 때문에, 아래의 방법이나 모델의 ablated version과 비교를 진행했다.

baseline	전략	description
Repeat	단순하게 반복하자!	Visual panel 생성에만 사용. 보통 visual panel sequence를 보게 되면, 배경이나 등장 인물 같은 major part는 거의 바뀌지 않는 반면, 인물의 표정이나 포즈 같은 아주 minor part만 변하게 된다. 이러한 점에서, 저자들은 그냥 전 단계의 패널을 그대로 가져오는 방법을 베이스라인으로 사용했다! 텍스트의 경우는 이미지와 다르게 크게 변하기 때문에, text panel에는 사용하지 않았다.
Unimodal	우리가 일반적으로 생성하는 story generation model	Visual unimodal model. cross modal encoder와, text attention decoder 사용. (GPT-2 기반)
One-to-One	하나의 modality만 보자!	story context없이, visual panel-> visualen panel, text panel -> text panel 생성.
Pixel Model	Abstract visual Representation 하지 말자!	visual representation을 Resnet-18 w/ visual attention module.
Human Baseline	사람이 하자!

Evaluation & Result

1. Automatic metric

1. Assistant Illustration

Repeat이 모든 모델, 심지어 사람보다도 더 좋은 성능을 보임.
- 이유를 분석해보니, 스토리의 80%는 배경이 바뀌지 않았다. 또한 오브젝트 포지션과 attribute도 바뀌지 않았기 때문.

2. Assistant Writer

👍 BLEU와 ROUGE-L에서 좋은 성능
- 누락된 캐릭터 없이 다 반영이 되었기 때문.
👎 반면, METEOR과 CIDEr에서 그닥인 성능...
- 그만큼 시각적 정보와 관련이 있으면서도, 일관된 내러티브 생성이 어렵다!

2. Human Evaluation

Coherent : 생성된 콘텐츠가 이전의 콘텐츠와 일관성이 있는지?
Relevant : 생성된 콘텐츠가 이전 콘텐츠와 관련이 있는지?
Meaningful : 생성된 콘텐츠가 합리적인지?

1. Assistant Illustration

위의 auto-metric에서 좋은 성능을 보인 repeat보다, human-evaluation이 훨씬 좋은 스코어를 기록.
전반적으로, 인간 보다는 제안 모델의 성능이 좋지 않음을 알 수 있다.
🤔 그런데, 왜 proposed-repeat은 하지 않았을까? ... 사실 unimodal보다 성능이 좋았던 것은 repeat인데...

2. Assistant Writer

Assistant Writer 모드에 대해서도 유저스터디를 진행했는데, 결과는 좋지 않았기 때문인지, 본문에는 없고 supplymentary에서만 확인할 수 있다.
결과적으로는, 인간과 GPT가 모두 제안 모델보다 훨씬! 성능이 좋았다.
- 상대적으로 작은 데이터 세트에서 처음부터 모델로 언어 모델링을 학습하는 것이 어렵기 때문이며, 또 제안 모델의 경우 문법적으로 잘못된 텍스트를 생성하여서 선호도가 떨어졌다고 이유를 분석했다.

Discussion & Remark

Model Limitations and Future Work
Inadequancies of Automatic Metric
Complexity of AESOP
Further possibilities w/ AESOP

Link

A Character-Centric Neural Model for Automated Story Generation (AAAI, 2020)

Wed, 27 Jul 2022 04:01:03 GMT

Liu, D., Li, J., Yu, M. H., Huang, Z., Liu, G., Zhao, D., & Yan, R. (2020, April). A character-centric neural model for automated story generation. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 34, No. 02, pp. 1725-1732).

들어가기 전

제목에서도 알 수 있다! 이 논문의 핵심은, 스토리 생성에 있어서 캐릭터를 고려하는 것이다.

지금까지 읽었던 논문은, 기본적으로 프롬프트나 스토리라인등을 이용하여 스토리를 생성하는 그런 내용이었다. 이제부터 2주간 읽을 논문들은 거기에 어떠한 제약조건이 들어가게 된다고 한다. 내가 읽은 논문의 경우는 캐릭터가 바로 이 제약조건의 역할을 한다.

정말 세상에는 이렇게나 다양한 개성을 가진 캐릭터들이 무수히 많이 존재하는데, 캐릭터들을 조건으로 하여 스토리를 만들면 스토리 개연성이나, 입체성에 있어서 훨씬 더 좋은 스토리를 만들 수 있을 것 같다는 생각이 들었다. 그러면 캐릭터의 설정을 어떻게 잘 임베딩해서, 어떤 식으로 생성 과정에 포함시킬 수 있는지 중점으로 읽어보려고 했다.

Abstract

Story generation에 있어서의 맹점은, 일관된 캐릭터와 상관관계가 있는 연속적인 플롯으로 구성된 스토리를 만드는 것이며, 최근에는 variational autoencoder, generative adversarial network, convolutional sequence to sequence model 같은 다양한 최신 모델들을 기반으로 story generation이 이루어지고 있다.

그런데, 기존 모델은 설명가능성과 일관성(explainability and consistency)의 측면에서, 이야기 장르의 속성과 사전지식을 거의 고려하지 않았다. 따라서 저자들은 이러한 갭을 메우기 위해서, character-centric neural storytelling model을 제안한다. 즉, 캐릭터를 중심으로 이야기를 생성하겠다는 의미다. 그렇다면 이걸 어떻게 가능하게 하냐? 생성될 스토리의 각 부분을 주어진 (1)캐릭터와 (2)컨텍스트에 의해 결정하도록 했다.

한 마디로 요약하자면, 기존 스토리텔링 연구의 문제점은 설명가능성과 일관성이 부족했다는 것이고, 이를 캐릭터 정보와, 플롯과 캐릭터간의 관계(즉, 컨텍스트)를 명시적으로 캡처하여 해결하겠다는 의미이다.

Introduction

저자들은 Story generation task가 🔥new hotspot🔥이라고 이야기한다. 그러면서, Story generation은 예전의 hand-craft 방식에서 최근의 NN기반 방식까지, 모델링적인 측면에서 크게 발전하고 있으나 아직까지 해결하지 못한 두 가지의 문제점을 꼽는다. 바로, 설명가능성과 일관성(explainability and consistency)이다.

기존의 스토리 생성 방법은, 단순하게 long document를 생성하거나 혹은 long-range dependency를 해결해보고자 이 long document를 multi-stage로 분할하여 document를 생성하곤 했다. 아주 보편적인 프레임워크는 먼저 neural language model을 사용해서 키워드, 스켈레톤, 프롬프트 같은 intermediate representations을 생성하고, 이에 대한 문장을 생성하는 또 다른 neural language model을 사용하게 된다. 우리가 여태껏 읽어왔던 논문들이 이러한 맥락이었다. 이러한 접근 방식으로 train dataset으로 부터 구문이나 어휘는 잘 포착할 수 있다.

그러나🤔, 어떤 모델링 캐릭터나 플롯은 잘 학습할 수 없다. 이렇게 되면 생성되는 스토리 자체는 그럴 듯 하지만, 전혀 관련 없는 플롯과 캐릭터로 구성될 수 있는 위험이 있다. 왜 이런 스토리가 생성이 된거지? 왜 이 캐릭터가 이런 행동을 한거지?에 대한 해답을 찾기 어렵다는 의미같다.
또 다른 문제로는, 기존의 방식으로는 의미 수준의 일관성만을 보았다. 이 말인 즉슨, 주제의 일관성을 보거나, 문장 간의 일관성 만을 고려했다. 당연히 캐릭터 일관성 등은 고려하지 않았다.

이러한 문제를 저자들은 스토리 장르의 관점에서 해결하고자 한다. 바로바로 캐릭터의 등장이다.

스토리 생성에 캐릭터의 등장이라..

캐릭터의 신뢰도를 높이기 위해서는 캐릭터 모델링이 도움이 된다는 사전 연구가 있기 때문에, 저자들은 스토리 생성 네트워크를 캐릭터 모델링과 결합한다.

즉, 이야기에 어떤 일관된 캐릭터를 할당하게 된다. 그러면 스토리 생성 프로세스는 그러한 컨텍스트 환경에서 주어진 캐릭터의 일련의 행동을 선택하는 것으로 치환된다. 결과적으로 생성된 스토리는, 캐릭터와 컨텍스트를 명시적으로 연관시키기 때문에 전체 스토리의 설명성이 올라가게 된다. 추가로, 주어진 캐릭터는 스토리 생성 과정의 각 단계에서 액션 선택 작업을 안내하여 캐릭터의 일관성을 높인다.

앗. 혹시 멘탈헬스팀이신가요?

[CV Study] WEEK04- Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Wed, 13 Jul 2022 06:01:00 GMT

!youtube[2lZvuU_IIMA] 논문 설명을 잘 해주신 영상이 있어서, 이 영상을 주로 참고하여 정리해보았다. 목차 역시 영상의 순서를 따라가보려고 한다!

들어가기 전

2주차에 진행했던 ViT를 읽고, 그 후속연구에 대해서 공부하기로 했다. 참고로 ViT가 2020년 10월에 발표되었고, 그 이후 2021년 3월에 이 Swin Transformer 논문이 발표되었다. 지금까지도 Swin Transformer을 기반으로 논문이 아주 활발하게 발표되고 있다. 잠깐 찾아보니 medical image를 도메인으로 하는 swin-unet도 있고 그렇다.

1. Purpose

ViT의 한계

한정된 태스크 문제 : ViT 모델은 오직 분류 문제를 해결하기 위해 설계되었다.
이미지 도메인의 문제 : 다음은 도메인에 대한 문제가 있다. ViT는 텍스트 도메인에서 사용되었던 트랜스포머 구조를 그대로 가져와서 사용한다. 거의 수정을 하지 않는 것을 목표로 했기 때문에, 이미지 도메인을 위한 특성이 담겼다고 보기 어렵다.
연산량 : 연산량의 문제도 있다. ViT에서는 텍스트 토큰 대신 이미지 패치가 들어가게 되는데, 패치마다 self-attention을 수행하므로, 이미지의 패치(토큰)수가 증가할 수록 연산량이 quadratic하게 증가한다.

Purpose of Swin Transformer

Swin Transformer는 당연히, 위에서 언급한 ViT의 한계를 극복하기 위해 설계되었다.

분류 태스크에만 한정되지 않은, 다양한 목적의 backbone으로 사용될 수 있도록 하자!
Transformer 구조에 이미지 도메인만의 특성을 반영해보자!
더 적은 연산량으로 계산하자!

2. Notation

$$M$$ : Window size (patch 개수를 기준으로 count)
$$n$$ : Window 개수
$$N$$ : 이미지의 patch 개수

3. Background

ViT에 대한 사전 이해가 필요하다. 그러나 우리는 2주차에 보고 넘어갔으니 model overview만 남기고 생략..

4. Solution

기존 ViT와는 다르게, 이미지 도메인의 특성을 고려한다. 그렇다면 이미지의 특성은 어떤 것이 있는지 보면, 두 가지로 정리할 수 있다.
- high resolution of pixels (높은 해상도)
- large variations in the scale of visual entities (물체의 다양한 크기)

1. Local Window

따라서 저자들은, 모델에 Local Window를 적용하는 방법을 제안한다.

거두절미하고 figure를 보면, ViT와 Swin Trainsformer의 차이점과, Swin Trainsformer에 적용된 윈도우가 어떤 것인지 직관적으로 이해할 수 있다.
또한, Swin Trainsformer의 서로 다른 윈도우 크기를 갖는 Hierarchical 구조 역시 한 눈에 파악할 수 있다.
- {low-level에 각각 4개의 패치로 구성된 윈도우 내에서 각각 어텐션 진행 -> 다음 레이어로 넘어가서 패치를 합쳐서 새로운 윈도우 구성, 그 내에서 어텐션 진행 ...} 의 반복
  - 이것이 바로 Shifted WINdow!
- 즉, 각 계층마다 다른 해상도의 결과값을 얻을 수 있다. (각 레이어마다 보는 윈도우의 크기가 다르니까!)
- 이러한 특성으로 인해, segmentation이나 detection 등 다양한 태스크에도 적용 가능한 backbone 형태의 모델이라고 할 수 있다고 한다.
- 이 때, 두 모델 모두 classification을 하게 되는데, 차이점은 [cls] token을 사용하는 ViT와는 달리, Swin의 경우 [cls] token을 사용하지 않고, 그 대신 token들의 mean을 사용한다.

2. Low Complexity

Swin은 ViT보다 complexity도 적다.
ViT처럼 패치마다 self-attention을 하는 것이 아니라, 윈도우 내에서 self-attention을 수행하기 때문인듯?

5. Method

크게 두 가지의 구조, 네 가지의 스테이지로 구성되어있다.

Patch Merging

각각 다음 스테이지로 넘어가는 과정에서, Patch Merging이 이루어진다. 각 스테이지가 진행됨에 따라 해상도를 줄여주는 역할을 수행.
주변 이웃 패치의 정보를 가져와서, 하나의 차원으로 축소해주는 과정.
- 주변에 있는 2x2 사이즈로 이웃 패치 정보를 가져와서 하나의 차원으로 reduction하는 과정을 의미.
- 먼저, 하나의 패치가 C-dim이라면, 4C-dim으로 변환. 그 다음 linear production을 통해 2C-dim으로 reduction.

이러한 reduction을 "왜" 수행하는지에 대한 구체적인 설명은 논문에 없음.

참고한 동영상에 따르면, stage를 반복해나가면서 merging을 통해 reduction 없이 concat만 하게 되면, 차원이 엄청 커지기 때문에 이를 방지하기 위해 진행하지 않았나 추측함.
또, feature들의 결과를 서로 섞어주는 역할을 수행하게 된다.

Code :

 class PatchMerging(nn.Module):
  r""" Patch Merging Layer.
  Args:
      input_resolution (tuple[int]): Resolution of input feature.
      dim (int): Number of input channels.
      norm_layer (nn.Module, optional): Normalization layer.  Default: nn.LayerNorm
  """

  def __init__(self, input_resolution, dim, norm_layer=nn.LayerNorm):
      super().__init__()
      self.input_resolution = input_resolution
      self.dim = dim
      self.reduction = nn.Linear(4 * dim, 2 * dim, bias=False)
      self.norm = norm_layer(4 * dim)

  def forward(self, x):
      """
      x: B, H*W, C
      """
      H, W = self.input_resolution
      B, L, C = x.shape
      assert L == H * W, "input feature has wrong size"
      assert H % 2 == 0 and W % 2 == 0, f"x size ({H}*{W}) are not even."

      # 입력 이미지는 높이 H와 폭 W의 크기를 갖도록 reshape
      x = x.view(B, H, W, C) 

      # 입력의 벡터화, 네 부분으로 나누게 된다. H/2 W/2이므로, 각 벡터는 입력의 1/4.
      x0 = x[:, 0::2, 0::2, :]  # B H/2 W/2 C
      x1 = x[:, 1::2, 0::2, :]  # B H/2 W/2 C
      x2 = x[:, 0::2, 1::2, :]  # B H/2 W/2 C
      x3 = x[:, 1::2, 1::2, :]  # B H/2 W/2 C

      # 4개의 벡터 concat, 4개의 벡터이므로 채널은 4*C
      x = torch.cat([x0, x1, x2, x3], -1)  # B H/2 W/2 4*C
      x = x.view(B, -1, 4 * C)  # B H/2*W/2 4*C

      #  linear production을 통해 4C-dim -> 2C-dim으로 reduction
      x = self.norm(x)
      x = self.reduction(x)

      return x

  def extra_repr(self) -> str:
      return f"input_resolution={self.input_resolution}, dim={self.dim}"

  def flops(self):
      H, W = self.input_resolution
      flops = H * W * self.dim
      flops += (H // 2) * (W // 2) * 4 * self.dim * 2 * self.dim
      return flops

Swin Transformer Block

(b)에서 자세한 figure를 볼 수 있다. 왼쪽과 오른쪽은 연속적으로 이어진 구성이고, (a)의 각 스테이지 아래의 X는, (b)의 페어가 적용된 횟수를 의미함.
첫 번째 Swin Transformer Block에서의 MSA은, W-MSA(Window Multi-head Self Attention)라고 하며, 두 번째에서는 SW-MSA(Shifted Window Multi-head Self Attention)라고 함.
또 Efficient batch Computation, Relative Position Bias, Cyclic Shift and Attention Mask 등의 detail도 있는데 아래에서 추가로 설명할 예정.

W-MSA(Window Multi-head Self Attention)
- Local Window 내부에서의 Self attention
- 이미지에 포함된 윈도우 내에서 각각, 독립적으로 별도로 self-attention을 진행하는 방법.
- self-attention의 횟수는 local 윈도우의 개수.
  
  이 때, 이미지 하나에 대해서만 attention을 적용하는 것이 아닌 윈도우 단위로 attention을 $$n$$번 적용해야 하기 때문에, 연산이 더 많아지게 된다. 이런 연산량을 해결하기 위하여 등장한 것이 Efficient batch Computation이다.
- (1) Efficient batch Computation*
- $$n$$개의 윈도우를 배치와 같은 차원으로 합쳐서, 한 번에 병렬적으로 연산하는 방법이다.
- 반복해서 연산을 하는 것이 아닌, 병렬 처리를 통해 빠르게 계산!
- (2) Relative Position Bias*는
- 두 축마다, Relative Position의 범위가 $$[-M+1, M-1]$$ 로 이루어짐
- Bias Matrix $$\hat{(B)}$$은 $$\mathbb{R}^{(2M-1)*(2M-1)}$$ 차원으로 구성이 되어있음.
- 이 수식에서 $$B$$는 $$\hat{(B)}$$에서 값을 가져와서 사용하게 됨.
- 그렇다! ViT에서 NLP처럼 넣어주던 position embedding은 절대 좌표를 앞에 더해주는 식이었는데, 저자들은 그러한 pos embed보다 이 상대적인 position을 더해주는 것이 더 좋다고 이야기한다.
  
  더 자세히..

[Story Generation] Paper Review : A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories

Wed, 06 Jul 2022 04:00:07 GMT

2016년 NAACL에 발표된 "A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories" 를 정리한 글입니다. 현 시점을 기준으로 107회 인용된 논문입니다.

정리

논문에서 등장하는 핵심 개념인 Commonsense와, 논문의 contribution인 Story Cloze Test와 ROCStories를 중심으로 읽자!
- 이 논문은 우리가 하고자 하는 Story Generation을 직접적으로 다루지는 않지만, generation의 전제인 Story Understanding을 이야기하고 있기 때문에, 저자들이 이야기하는 네러티브에서 꼭 필요한 Commonsense와, 이를 잘 반영하고 있는 데이터셋은 어떻게 만들었고, 이를 평가할 수 있는 테스트는 어떻게 구성을 했는지에 집중하여 보면 좋을 듯 합니다.

1. Commonsense

commensense를 표현하고 학습하는 것은 deep-language understading에 있어서 기초적이면서도 중요하고, 또 어려운 문제!
- 논문에서 이야기하는 commensense는, 이벤트(events) 간의 인과관계 및 시간관계(causal and temporal relationships)을 의미한다고 보면 될 듯.
이러한 commensense의 이해는 NLP 커뮤니티에서 많은 주목을 받았지만, 적절한 evaluation framework의 부재로 인하여 연구가 많이 진행되지 않았음.
이러한 문제점에서 기인하여, 아래에서 소개할 논문의 두 가지 contributions이 등장하게 됨.

2. ROCStories

논문에서 제안하는 새로운 데이터셋!
daily events 사이의 인과적, 시간적인 상식적인 관계(commonsense relations)를 포함
story generation에도 사용할 수 있는 일상생활의 이야기

3. Story Cloze Test

논문에서 제안하는 새로운 평가 방식
Story Cloze Test : story understanding과 script learning을 평가
네 문장의 스토리가 주어지면, 이어서 이야기의 올바른 결말을 선택하는지? 에 대한 평가
이를 위해 5 문장으로 구성된 50,000개의 상식적인 이야기 ROCStories 데이터셋을 제안

그러면 논문리딩! 해볼까요

Introduction

Story Understading

Story를 이해한다는 것은 유구한 역사의, 어려운 태스크라고 할수 있습니다. 여기서 story라고 한다면, narrative를 갖는 텍스트를 의미합니다.
Story Understading 혹은 generation에서 가장 큰 챌린지는 narrative events의 해석에 대한 commonsense knowledge를 갖는 것입니다.
- 그렇다면, 일상의 이벤트에 대한 commonsense knowledge를 model에 어떻게 부여할까? 하는 궁금증이 생기게 되죠.

이러한 Story Understading의 학습 과정에서 가장 중요한 것은, 학습 프로세스를 주도하는 Corpus라고 할 수 있습니다.
기존에 이루어졌던 Story Understading은 Script learning에 많은 비중을 두었습니다.
- script : 정형화된 이벤트에 대한 구조화된 knowledge 표현.
그러나, 스크립트를 매뉴얼하게 만드는 것은 time-consuming한 문제입니다.

따라서 저자들은 가장 먼저, 이벤트 간 시간적이고 인과적 관계, 즉 commensence를 갖는 코퍼스에 집중했습니다. -> commensence는 스토리의 coherence에 있어 중요한 요소이기 때문.

저자들은 이러한 코퍼스 구축을 위해 다양한 텍스트를 찾아보다가, 일상 블로그 포스팅이 commonsense causal information을 포함하고 있는 좋은 source라는 것을 발견했습니다.
- 그러나 블로그 포스팅은 noisy 하다는 문제점 有 (= 즉, 유용한 정보를 찾기 힘들다는 것.) 아래는 블로그 포스팅의 예시인데, 약간 의식의 흐름 같기도 합니다. 저자들은 이러한 서술을 noisy하다고 표현함.
  
  “I had an interesting day in the studio today. It was so interesting that I took pictures along the way to describe it to you. Sometimes I like to read an autobiography/ biography to discover how someone got from there to here.....how they started, how they traveled in mind and spirit, what made them who they are now. Well, today, my work was a little like that.” <복잡한 snippets의 corpus example>

이처럼 복잡하고 noisy한 코퍼스에서 commonsense knowledge를 얻는 것은 challenging language understanding.
따라서, 이러한 내러티브의 단순화된 버전(simplified version)이 필요함.

저자들은 commonsense를 포함하고 있는 새로운 코퍼스를 제안
- 이벤트 간 스테레오타입의 인과관계 및 시간 관계를 포함하고 있는 50k high quality five-sentence stories를 수집
- careful prompt design & multiple phases of quality control
- application : (1) commonsense narrative schemas 학습 (2) story generation 모델 학습

또 다른 문제도 존재합니다. 바로 이러한 스크립트에 대한 evaluation framework가 부족하다는 것입니다.
기존 evaluation framework - Narrative Cloze Test는 일련의 이벤트가 주어지면, held-out 이벤트를 예측하는 시스템입니다.
- 예를 들어, missing event를 포함하고 있는 case를 가정해봅시다.
  
  {X threw, pulled X, told X, ???, X completed}
- 기존 연구는 이 특정 테스트에 최적화되어, commonsense를 학습하는 것이 아닌, 얕은 기술(shallow techniques)로 좋은 성능을 레포팅하는 것을 학습한다는 한계가 존재.

그래서 저자들은 Story Cloze Test를 제안했습니다.
이 테스트는, 다음의 이벤트를 예측하는 것이 아니라, 주어진 스토리를 완결하기 위하여 마지막 문장을 선택하는 태스크를 해결하게 됩니다.

또, Story Cloze Test를 다루기 위해서 다양한 실험을 진행했습니다.
실험 결과는 랜덤 혹은 constant-choose의 성능을 뛰어넘기 위해서는, 스토리의 풍부한 semantic representation과 깊은 수준의 semantic space 모델링이 필요하다는 것을 의미합니다.

A Corpus of Short Commonsense Stories

Goal of New Corpus

저자들이 제시하는 새로운 코퍼스의 목적은 아래와 같습니다.

The corpus contains a variety of commonsense causal and temporal relations between everyday events. This enables learning narrative structure across a range of events, as opposed to a single domain or genre.

The corpus is a high quality collection of non-fictional daily short life stories, which can be used for training rich coherent story-telling models

정리하자면,

코퍼스는 일상 이벤트 간의 인과와 시간적 관계의 commonsense를 포함해야 한다. -> 하나의 도메인이나 장르에 국한되지 않고, 다양한 구조를 갖는 이벤트의 내러티브를 학습할 수 있음.
코퍼스는 일상의 high quality 스토리를 포함한다. -> 풍부하고 일관된 스토리텔링 모델을 훈련할 때 사용될 수 있음.

Definition of narrative or story : anything which is told in the form of a causally (logically) linked set of events involving some shared characters. = 어떤 공통된 인물이 포함된, 인과적으로(혹은 논리적으로) 연결된 일련의 이벤트 형태로 이야기되는 모든 것.
저자들은 드라마틱한 사건에 초점을 맞추는 것이 아니라, 일상에서 일어나는 인과적으로 의미가 있는 사건들에 주목하게 됩니다.

Data Collection Methodology

데이터셋 구축을 위해서 AMT(Amazon Mechanical Turk)를 통해 크라우드 소싱을 진행했습니다.
- 크라우드 소서들에게 총 5개의 novel five-sentence stories를 작성하도록 함.
- 다양성 및 규모 확보
  - 이 때, 주제를 명시하는 것보다 크라우드 소서들이 생각하는 주제를 아무거나 택하여 스토리를 작성하도록 했을 때 더 좋은 결과를 얻음.

데이터셋의 instruction과 constraints에 대해서 이야기를 해보자면,

데이터셋의 key property는 다음과 같습니다. : the story should read like a coherent story, with a specific beginning and ending, where something happens in between.
또한, 스토리 생성 이후에 3명의 감독관들이 manual check를 통해, 일정 수준 이상의 (1) 일관성을 갖지 않거나, (2) 허구성을 띄거나, (3) 공격적인 스토리의 개수를 카운팅하게 됩니다.
- 이러한 기준에 의거하여, 3명의 감독관이 모두 동의한 경우만 스토리를 채택하게 됩니다.

구체적으로, 저자들이 crowd worker에게 제시한 instruction과 constraints는 아래와 같습니다.

추가로, 한 문장은 70자 이내로 제한
이야기의 제목도 따로 작성하도록 함
또, 인용문, 속어, 비속어 사용 금지 !

위의 instruction을 잘 준수한 문장은 아래와 같이 narrative chain을 형성하게 됩니다.

예시 문장) Bill thought he was a great basketball player. He challenged Sam to a friendly game. Sam agreed. Sam started to practice really hard. Eventually Sam beat Bill by 40 points. *narrative chain) * X challenge Y ➯ Y agree play ➯ Y practice ➯ Y beat X

품질 검증을 위해서는 AMT의 qualification test를 이용했습니다.
데이터셋은 여기서 확인해볼 수 있습니다!

Statistics of New Corpus

다음은 수집한 데이터셋에 대한 통계 분석 파트입니다.

1. Number of Tokens

첫 문장은 캐릭터나 첫 설정을 소개하기 때문에 아무래도 짧은 경향이 있습니다.
마지막 문장일수록, 토큰의 길이가 커지는 경향성도 있습니다.
- 근데 이 보라색은 뭘까?

2. Crowdsourcing Effort

crowdsourcing woker에 대한 통계 자료 입니다.

3. Distribution of the most frequent 50 events

event는 WordNet 에서 정의한 것을 가져와서 사용함.
가장 많이 발생하는 이벤트인 go 와 get은 모두 전체 이벤트에서 1% 정도를 차지함 -> 따라서, 제안하는 데이터셋에서 발생하는 이벤트의 다양성을 확인할 수 있습니다.

4. n-gram of story titles

radial path는 n-gram sequence를 의미.
토큰 개수의 평균은 9.8, 중간값은 10이며, n을 5로 설정했습니다.
데이터셋이 다양한 주제를 포함하고 있음을 확인할 수 있습니다.
풀 버전을 공개한다고 했는데, 알려준 사이트에 들어가보니 볼 수 없었다 ..

Temporal Analysis

저자들은 시간 분석을 강조하고 있습니다. 이벤트를 시간순으로 정렬한다는 것은, 즉 스토리에 대한 완벽한 서술적 이해의 전제이기 때문입니다.
저자들은 총 두 가지의 관점에서 이벤트의 시간순 정렬의 특성에 대하여 분석을 진행했습니다.

1. Shuffling Experiment

Do the sentences follow the real-world temporal order of events? 라는 질문에서 시작하게 됩니다.
하나의 스토리에서 5개의 문장의 순서를 랜덤으로 섞고, 크라우드 소싱 참가자들에게 이를 시간순으로 배열하도록 했습니다.
데이터셋은 좋은 스토리를 포함하는 Good-Stories_50 과, 랜덤으로 선택된 Random-Stories_50, 두 가지 타입으로 구성됨.

결과는 아래와 같습니다. 1행의 경우, 5명의 crowdsourcing woker의 과반수 합의를 최종 결과로 본 경우. 2행은 크라우드 워커 각각의 결정을 최종 결과로 본 경우 (5*50 = 200).
Good-Stories_50 의 경우, 높은 정확도로 시간순 정렬이 되는 것을 확인할 수 있음.
전체 스토리 데이터셋에는, 사람들이 순서를 추론하는 데 도움이 되는 'first', 'then'과 같은 부사들이 거의 없었기 때문에 저자들은 성공적인 정렬 원인을 추가로 분석해봤습니다.
- 1. 상식적인 (commonsensical) 이벤트 사이의 시간 및 인과관계 (즉, 내러티브 스키마)
- 1. 자연스러운 이야기 전개 방식. (예를 들면, 소개에서 시작하여 이야기를 종결하는 방식)
    - 특히 이 이야기 전개 방식은, 첫 문장과 마지막 문장은 비교적 잘 정렬되는 것을 확인할 수 있는 표 4행의 결과로 뒷받침됨.

2. TimeML Annotation

왜 했나요? TimeML 기반 분석은, 코퍼스에 포함된 이벤트의 시간적 측면에 대한 통찰력을 제공해주기 때문입니다.
TimeML은 뭔가요 ? 이벤트 및 시간 표현에 대한 마크업 언어.

저자들은 20개의 스토리 샘플을 추출하고, 단순화된 TimeML 기반 전문가 어노테이션 진행했습니다.
그 결과, 주석이 달린 모든 시간적 링크(TLINK)중 62%는 'before'이었고, 10%는 'simultaneous' 였음.
또한, 텍스트 순서가 실제 이벤트 순서를 반영하는지 확인하기 위해 문장 순서와 TimeML 순서를 비교해봄. 그 결과, 55%만 일치하였음.
즉, 이야기의 시간 및 인과관계에 대한 포괄적인 연구는, 이벤트 사이의 복잡한 commonsense를 잘 파악해야 한다는 것이겠죠..

A New Evaluation Framework

그래서, 저자들은 이 모델이 스토리의 commonsense를 잘 파악했는지를 판단할 수 있는 새로운 프레임워크를 제안하게 됩니다.

Background

Cloze Test는 문장에서 임의의 단어를 제거하고 시스템이 공백을 채우도록 시도함으로써 언어 능력에 대한 시스템(또는 인간)을 평가하는 데 사용되는, 오래된 역사의 테스트입니다.

기존에도, Narrative Cloze Test라는 스크립트를 평가하기 위한 프레임워크가 존재했음
- 앞서 이야기했지만, 어떤 이벤트 시퀀스가 주어졌을 때 누락된 이벤트에 대한 랭크를 생성하는 시스템
- Goal : Narrative knowledge 평가
- 그러나, narrative knowledge learning이 잘 설명되지 않는다는 문제 발생
  - 예를 들면, 단순한 빈도 기반의 예측이 가장 높은 성능을 보임.
따라서, 스토리의 이해를 평가할 수 있는 더 좋은 방법이 필요함!

Story Cloze Test

저자들이 제안하는 새로운 test입니다.
4개의 문장으로 구성된 context가 제공되고, 그 다음 두 개의 엔딩이 제시됨 -앞선 context를 entailing하는 *right ending와, contradicting하는 *wrong ending.
따라서 앞선 네 문장의 context를 보고, 이어서 등장하게 될 right ending를 선택하는 task. 예시는 아래와 같습니다.
저자들은 이러한 test가 story understanding이 정말 잘 이루어졌는지 평가하는 프레임워크라고 이야기하며, 우리가 관심있는 story generation 등에도 응용할 수 있다고 이야기함.
- 예를 들면, 스토리 생성 모델이 생성한 두 개의 엔딩에 대한 log-likelihoods 계산을 통해 좋은 스토리를 생성할 수 있음.

Data Collection Methodology

위 테스트를 위해서는, 태스크에 적합한 데이터셋을 만들어 주는 작업이 선행되어야 합니다.
저자들은 앞서 구축한 ROCStories Corpus에서 랜덤으로 13,500개의 샘플을 추출하게 됩니다.
그 다음, AMT worker에게 앞선 4개의 문장만을 제시하고, 각각의 스토리마다 right ending과 wrong ending을 작성하도록 했습니다.

Quality Control

저자들은 생성한 데이터셋에 대한 2-step Quality Control을 진행 *1. Qualification Test: *

worker들은 ending writing 과정에서 두 개의 조건을 만족해야 했는데, **(1) 엔딩에는 적어도 앞서 등장한 인물 한 명 이상을 공유해야 함. (2) 엔딩 문장은 그 문장 자체만으로도 현실적이여야 하고, 합리적이야 함.** 모든 worker들은 이 두 가지 조건을 만족했는지 여부를 선택하도록 하는 qualification test를 진행했음.

2. Human Verification

**2-1.** 13,500샘플에 대한 2개의 엔딩을 만들었으므로, 13,500*2 = 27,000개의 full-five stories를 생성.
**2-2.** 하나의 문장마다, 3명의 crowd workers에게 다섯 개의 문장으로 구성된 스토리가 **의미있고 일관됐는지**에 대한 척도를 {-1,0,1}로 측정하도록 함. 
**2-3.** 3명의 workers들이 만장일치로 1과 0의 레이팅을 준 케이스만 선정함.

최종적으로 3,742개의 테스트 케이스가 생성됨. 최종 테스트 케이스에 대한 통계는 아래에 있습니다.

Story Cloze Test Model

저자들이 제안한 Story Cloze Test는 네러티브에 대한 이해 없이, shallow한 접근 방식으로는 좋은 성능을 낼 수 없다고 합니다. 이를 뒷받침하기 위해, 섹션 5는 이러한 shallow 접근법에 대한 다양한 실험을 진행해보고, 결론적으로 결과가 좋지 않음을 이야기하는 내용입니다. 실험을 조금 많이 진행했습니다 ..

1. Frequency

context를 고려하지 않은 baseline.
예를 들어 이러한 두 문장이 있다고 가정해보자.

He was mad after he won. He was cheerful after he won.
- 앞의 문장은 실제로 발생할 가능성이 적은 문장임.
Frequency baseline은 문장에서 semantic roles과 함께 메인 이벤트인 동사의 구글의 검색 엔진 조회수가 더 높은 케이스를 선택하게 됩니다.
semantic roles은 ‘I*poison(독을 주입?)*flowers’ vs ‘I*nourish(키우다)*flowers’ 이런 것을 의미한다고 합니다.
TRIPS semantic parser 사용.

2. N-gram Overlap

간단하게, context와 더 많은 n-gram을 공유하는 엔딩을 선택.
여기서는 4-gram overlap을 계산하는 Smoothed-BLEU Score를 사용.

3. GenSim: Average Word2Vec

Context의 word2vec 임베딩과 각 엔딩의 임베딩을 계산하여, 임베딩이 더 가까운 문장을 선택.
이 베이스라인은 semantic similarity을 고려하기 때문에, 위의 n-gram overlap보다 조금 더 좋은 베이스라인임.

4. Sentiment-Full

Context의 average sentiment와 일치하는 엔딩을 선택하였음.
이 당시 SOTA였던 Manning의 모델을 사용함. (감정을 1~5의 digit으로 표현)

5. Sentiment-Last

위와 동일하게 sentiment digit을 사용했지만, context 전체가 아니라 Last context의 average sentiment와 일치하는 엔딩을 선택하였음.

6. Skip-thoughts Model

3번과 비슷한데, 임베딩 방식이 달라짐. 임베딩으로는 Skip-thougts' Sentence2Vec 임베딩(Kiros et al.,2015)을 사용했음.
- Skip-thougts' Sentence2Vec : 11,000권 이상의 book corpus로 학슴됨.

7. Narrative Chains-AP

Chambers and Jurafsky(2008)의 사전 연구를 기반으로 하는, 일련의 내러티브 이벤트 학습에 대한 표준 접근 방식.
이 모델에서 이벤트는 a verb and a typed dependency로 표현됨. coreferring entity를 기준으로 최소 2번이상 발생하는 이벤트 페어에 대한 PMI 계산. PMI 점수를 기준으로 높은 엔딩을 결과로 선택하게 됨.
이벤트 페어는 Associate Press (AP) portion of the English Gigaword Corpus를 기준으로 학습됨.

Pointwise mutual information (PMI) : a real-number score produced by a pointwise mutual information measure (that ranks the statistical dependence between two random variables). 값이 0이면 상호 영향을 미치지 않는, 독립 관계

8. Narrative Chains-Stories

위와 동일하지만, ROCStories에서 학습됨.

9. Deep Structured Semantic Model

Huang et al., (2013)의 연구에서 제안된 모델을 사용.
두 개의 임베딩을 사용 : 1) context로만 구성 2) context와 다섯 번째 문장으로 구성.
따라서, 각각의 임베딩을 학습하기 위한 두 개의 개별 뉴럴 네트워크를 구성.
각각 두개의 레이어로 구성, 히든 레이어의 차원은 1000, 임베딩 벡터 차원은 300.
코사인 유사도를 기준으로, 가장 가까운 엔딩을 선택!

이 외에도 추가적으로 그냥 랜덤으로 선택하는 경우와, 사람이 평가한 결과를 추가하여 총 11번의 실험을 진행했다.

결과!

NN을 사용한 DSMM의 Test 성능이 가장 좋다. 그러나 랜덤으로 선택한 경우보다 겨우 7.2%만 높은 것을 확인할 수 있음.
이러한 결과는, 이벤트 기반의 언어 모델들은 이러한 태스크에 충분하지 않음을 의미.
예를 들면, 종종 스토리의 마지막 엔딩은 ‘Bill was highly unprepared’ or ‘He had to go to a homeless shelter’ 등이 있을 수 있음.
- 그런데 이런 경우, 이벤트 기반 언어 모델은, 'was-object'나, 'go-to'와 같은 동사나 구문 관계만 봄.
- 즉, going to a homeless shelter와, same as going to the beach는 같은 경우로 판단됨.
결론적으로, 이는 내러티브에서는 이벤트에 대한 더 풍부한 의미론적 표현의 해석이 필요함을 시사함. 따라서 저자들은 많은 연구자들이 이 테스트에 참여해보는 것을 권장하며 이 섹션을 마무리하고 있다..

그렇다면 실제로 Story Cloze Test는 진행되고 있나요?

네! 진행되고 있습니다! 최근까지도 활발하게 많은 연구 팀들이 evaluation에 참가하고 있고, 결과는 여기 리더보드에서 확인해볼 수 있다. The End is Never임을 알 수 있다 ... 실제로 테스트에 참가하고 있는 팀들의 결과도 확인할 수 있으며, 회색 바를 통해 지금까지도 꾸준히 submissions이 이루어지고 있는 것을 확인할 수 있다. 심지어! 2022년 6월에는 타이기록이 달성되었음을 확인할 수도 있다. 우리도 로그인 후 competition에 참여할 수도 있지만, 자세히 보지는 않았다. 관심 있는 분들은 자세하게 살펴보시길..

후기

돈이 꽤나 많이 들었겠다 .
2016년 논문인데, Competition이나 test set도 비교적 유지관리가 잘 되고 있는 듯 하다.
ROC 어쩌고 데이터셋 만들 때 일상의 데이터셋이 목적이라고 했는데.. 실제 데이터셋 만들 때 그런 제약조건이 있었나? 누가 막 중세시대 이야기 하고 이런거는 필터링됐을까 ..??..
2저자가 미국 해군사관학교 소속이다. 어라 탑..건..?

Reference

Paper : https://arxiv.org/pdf/1604.01696.pdf https://competitions.codalab.org/competitions/15333

Archive

[#1] LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

KEY IDEA

INTUITION

[OpenCV error] contours data type = 17 is not supported

Problem

Solve

[Story Generation] AESOP: Abstract Encoding of Stories, Objects, and Pictures (ICCV, 2021)

CONTRIBUTION

다른 논문들과의 차별점 ?

AESOP DATASET

principles

data acquisition setup

AESOP Vs. Others

AESOP Model

1. Abstract Visual Representation

2. Story Encoder

3. Panel Decoder

Baseline

Evaluation & Result

1. Automatic metric

2. Human Evaluation

Discussion & Remark

Link

A Character-Centric Neural Model for Automated Story Generation (AAAI, 2020)

들어가기 전

Abstract

Introduction

[CV Study] WEEK04- Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

들어가기 전

1. Purpose

ViT의 한계

Purpose of Swin Transformer

2. Notation

3. Background

4. Solution

1. Local Window

2. Low Complexity

5. Method

Patch Merging

Swin Transformer Block

[Story Generation] Paper Review : A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories

정리

1. Commonsense

2. ROCStories

3. Story Cloze Test

Introduction

Story Understading

A Corpus of Short Commonsense Stories

Goal of New Corpus

Data Collection Methodology

Statistics of New Corpus

Temporal Analysis

1. Shuffling Experiment

2. TimeML Annotation

A New Evaluation Framework

Background

Story Cloze Test

Data Collection Methodology

Quality Control

Story Cloze Test Model

결과!

그렇다면 실제로 Story Cloze Test는 진행되고 있나요?

후기

Reference