[Paper Review] Language Models are Unsupervised Multitask Learners

[Paper Review] Language Models are Unsupervised Multitask Learners

2022. 10. 7. 10:19ㆍPaper Review

Abstract

이번 연구에서는, (수백만 개 웹페이지로 이루어진) WebText로 학습한 언어 모델이 지도 학습 없이 여러 가지 테스크(e.g., QA, translation)를 수행할 수 있음을 보여준다.

모델 크기가 증가할수록 여러 테스크 성능이 덩달아 향상되기에, 모델 크기는 zero-shot task transfer의 핵심 요소라 할 수 있다.

이러한 실험 결과들을 통해, 자연어 테스크 설명(=입력 토큰)으로 테스크를 학습하여 수행하는 language processing systems을 만듬으로써, 새로운 방향성을 제시한다.

We demonstrate that language models begin to learn these tasks without any explicit supervision when trained on a new dataset of millions of webpages called WebText.

The capacity of the language model is essential to the success of zero-shot task transfer and increasing it improves performance in a log-linear fashion across tasks.

These findings suggest a promising path towards building language processing systems which learn to perform tasks from their naturally occurring demonstrations.

1. Introduction

이번 연구에서는, (많은 테스크를 수행하는) 일반적인 시스템을 만들고자 한다.

단일 도메인 데이터로 단일 테스크를 학습하는 것이 모델 일반화에 약영향을 준다고 생각하기 때문이다.

다중 작업 학습은 잘 알려진 일반 성능(?) 향상 방법이다. 하지만 그 당시 다중 학습 기술은 수많은 dataset-objective 쌍을 필요로 했다.

이는 매우 힘든 작업이기에, 다른 방식의 다중 작업 학습을 고안해야 했다.

현재, 1). pre-training & fine-tuning 기법은 모델 구조 변경 없이 가중치 변환만으로 최고 성능을 내고 있다. 하지만, 이 기법도 어느 정도의 지도 학습을 필요로 한다. 그에 반해, 최근 연구에서, 2). 지도 학습 없이 데스크를 수행할 수 있는 모델을 선보였다.

이번 연구에서는, 이 두 가지 연구(1. 모델 구조 고정, 2. 지도 학습 없이 테스크 수행)를 가지고 더 일반적인 전의(=transfer) 방법을 찾을 것이다. 즉, 언어 모델이 제로샷 상황(= 파라미터와 모델 구조 고정)에서 다운스트림 테스크를 수행할 수 있음을 보일 것이다.

[Paper Review] Scaling Language Models: Methods, Analysis & Insights from Training Gopher (0)	2023.08.28
[Paper Review] Language Models are Few-Shot Learners (0)	2022.10.26
[Paper Review] Zero-Shot Text-to-Image Generation (0)	2022.08.19
[Paper Review] Neural Discrete Representation Learning (0)	2022.08.02
[Paper Review] Auto-Encoding Variational Bayes (0)	2022.07.20

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

강정노트

최근글

Abstract

1. Introduction

2. Approach

2.1. Training Dataset

2.2. Input Representation

2.3. Model

3. Experiments

3.1. Language Modeling

3.2. Children's Book Test

3.3. LAMBADA

3.4. Winograd Schema Challenge

3.5. Reading Comprehension

3.6. Summarization

3.7. Translation

3.8. Question Answering

4. Generalization vs Memorization

6. Discussion

7. Conclusion

'Paper Review' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역