[Paper Review] Scaling Language Models: Methods, Analysis & Insights from Training Gopher

[Paper Review] Scaling Language Models: Methods, Analysis & Insights from Training Gopher

2023. 8. 28. 16:12ㆍPaper Review

Abstract

이번 연구에서는, 트랜스포머 기반의 언어 모델 성능을 다양한 크기에서 분석해볼 것이다.

모델 크기 확장으로 얻은 성능 향상은 독해 이해, 사실 확인, 혐오 표현 식별과 같은 테스크가 가장 크다. 반면에, 논리적이고 수학적인 추론 테스크가 상대적으로 낮다.

we present an analysis of Transformer-based language model performance across a wide range of model scales
Gains from scale are largest in areas such as reading comprehension, fact-checking, and the identification of toxic language, but logical and mathematical reasoning see less benefit.
We provide a holistic analysis of the training dataset and model's behaviour, covering the intersection of model scale with bias and toxicity.

1. Introduction

자연어 기반의 소통은 인간 혹은 AI에게 생각 (or 지식)을 효율적으로 전달해주는 수단이다. 때문에, 자연어 기반의 소통은 지능(=정보 수집)의 핵심이다. 언어의 일반성(=언어 표현의 다양성)은 입력값과 출력값을 자연어로 표현하는 방식으로 지적인 테스크를 명시할 수 있게 해준다.

자기 회귀 언어 모델링 즉, 이전 텍스트를 기반으로 다음 텍스트를 예측하는 방식은 간단하지만, (자연어로 표현된 수 많은 지적 테스크를 이해 (or 인지)할 수 있는) 강력한 목표 함수다.

하지만, 이러한 목표 함수는 구체적인 목표 함수의 근사 함수에 불과하다. 왜냐하면 구체적인 목표에 맞는 측면에서 예측하지 않고, 모든 것을 시퀀스로 예측하기 때문이다. 하지만, 신중하고 적절히 모델을 다루면, 인간의 지능을 가진 강력한 툴이 될 수 있으러가 믿는다.

언어 모델을 지능의 요소로 활용하는 연구는 초기 연구(텍스트를 제한된 대역폭의 통신 채널에 텍스트를 전송하는 연구)와 대조된다.

Shannon은 언어 모델의 cross entropy을 측정하는 것과 압축을 측정하는 것은 동일함을 보이면서, 통계적 언어 모델링과 압축을 연결시켰다.

Shannon은 (모델 복잡도와 연관 있는) 텍스트 통계 테이블을 통해 언어 모델을 실제 데이터에 적용시켰다. 이는 텍스트 압축을 향상시킴과 동시에 더 현실적인 텍스트를 생성한다.

Shannon은 충분히 복잡한 모델(더 좋은 텍스트 통계 테이블?)은 사람의 소통을 모방할 수 있다고 주장했다.

(무슨 말인지 정확히 이해되지 않는다ㅜㅜ)

그 후 계산 속도가 기하급수적으로 발전하면서, 언어 모델의 관점이 (압축에서) capacity(=its ability to fit a wide variety of functions)와 예측 능력으로 이동했다.

1990년대 ~ 2000년대, n-gram 모델이 크기 확장과 이로 인한 성능 향상을 보였다. 하지만, 텍스트 길이가 길어질수록 통계적으로 연산적으로 매우 비효율적으로 변해, 불가피하게 텍스트 길이를 제한했다. 이는 모델링할 수 있는 언어의 지식 크기를 제한한다.

지난 20년간, 언어 모델은 (언어 구조를 임의적으로 파악하는 즉, 언어의 통계적 지식을 임의의 함수로 표현할 수 있는) 인공 신경망을 통해 많이 발전해왔다. 이 발전은 모델 크기 확장과 신경망 구조에 기반한다.

이전 연구에서는 트랜스포머와 RNN의 모델 크기와 cross-entropy 손실값의 관계가 power-law를 따른다는 것을 발견했고, 이러한 예측은 GPT-3를 통해 기정 사실화가 됐다.

이번 연구에서는, SOTA 언어 모델 학습 프로토콜을 설명하고 2800억 파리미터 모델 Gopher를 발표할 것이다.

Gopher는 81% 테스크에서 현재 SOTA 성능을 보이며, knowledge-intensive(=외부 지식 없이는 해결하기 힘든) task에 강점을 보인다.

뿐만 아니라, 편견과 혐오에 관해 조사할 것이며, 특히 모델 크기 확장이 이러한 속성에 어떤 영향을 주는지 집중적으로 분석할 것이다.

[Paper Review] Training Compute-Optimal Large Language Models (0)	2023.09.19
[Paper Review] Training language models to follow instructions with human feedback (0)	2023.09.06
[Paper Review] Language Models are Few-Shot Learners (0)	2022.10.26
[Paper Review] Language Models are Unsupervised Multitask Learners (0)	2022.10.07
[Paper Review] Zero-Shot Text-to-Image Generation (0)	2022.08.19

강정노트

최근글

Abstract

1. Introduction

2. Background

3. Method

3.1. Models

3.2. Training

3.3. Infrastructure

3.4. Training Dataset

4. Results

4.1. Task Selection

4.2. Comparisons with State of the Art

4.3. Performance Improvements with Scale

5. Toxicity and Bias Analysis

5.1. Toxicity

5.1.1. Generation Analysis

5.1.2. Classification Analysis

5.2. Distributional Bias

5.2.1. Gender and Occupation Bias

5.2.2. Sentiment Bias towards Social Groups

5.2.3. Perplexity on Dialects

6. Dialogue

6.1. Prompting For Dialogue

6.2. Fine-tuning for Dialogue

6.3. Dialogue & Toxicity

8. Conclusion

'Paper Review' 카테고리의 다른 글

관련글

티스토리툴바