Paper Review(8)
-
[Paper Review] LLaMA: Open and Efficient Foundation Language Models
Abstract 이번 논문에서는 LLaMA(=6B부터 65B까지의 파리미터를 가진 언어 모델 컬렉션)를 소개할 것이다. LLaMA는 공개 데이터셋만으로 만들어진 조 단위의 토큰을 학습하여, SOTA를 달성했다. 특히, LLaMA-13B는 GPT-3 (175B)을 능가했고, LLaMA-65B는 Chinchilla-70B와 PaLM-540B와 비등한 성능을 보였다. 더보기 We introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to train state-of-t..
2023.11.20 -
[Paper Review] Improving alignment of dialogue agents via targeted human judgements
Abstract 이번 연구에서는 정보-검색 대화형 agent인 Sparrow를 소개할 것이다. 이는 타 프롬프트 기반 언어 모델에 비해 유용하고, 무해하고, 정확하다. 모델을 학습시키기 위해 RLHF을 사용하였으며, 이때 두 가지 새로운 요소를 추가했다. 첫번째, 유용하고 무해하게 만들기 위해, 요구사항들을 여러 규칙으로 세세하게 나눴다. 이는 agent 행동의 특정 기준에 집중한 사람 판단(=targeted human judgement)을 수집할 수 있다. (즉, 구체적이고 세세한 규칙은 특정 기준에 집중하여 판단할 수 있게 만들어 준다.) 그리고, 더 효율적인 규칙 조건부 보상 모델(=규칙 조건에 따라 보상이 다른 모델)을 만들 수 있다. 두번째, agent는 생성 텍스트에 대한 선호 판단을 수집할 ..
2023.10.21 -
[Paper Review] PaLM: Scaling Language Modeling with Pathways
1. Introduction 이번 연구에서는, 언어 모델링 개선을 위한 모델 크기 확장 추세를 이어가기 위해, 540B 개의 파라미터를 가진 트렌스포머(=PaLM)를 780B 개의 양질 토큰으로 학습시킬 것이다. 이때, Pathway라는 새로운 ML 시스템을 사용했는데, 이는 수천 개의 가속기로 매우 거대한 인공신경망을 매우 효율적으로 학습시켜주는 ML 시스템이다. 위와 같은 방식으로 만들어진 PaLM은 수백 가지의 테스크(자연어, 코드, 수학적 추론)에서 SOTA 성능을 달성했다. 위 연구의 핵심 내용은 다음과 같다. 1. 효율적인 확장 - Pathway를 통해, 매우 효율적으로 6144개의 TPU v4을 이용해, 540B 개의 파라미터를 가진 언어 모델을 만들었다. 위 효율성(모델 FLOPs 활용률 ..
2023.09.28 -
[Paper Review] Training Compute-Optimal Large Language Models
1. Introduction 대부분의 경우, 모델을 학습시킬 때 제한된 컴퓨팅 자원(=GPU 개수 및 기간)을 지원받는다. 그렇기 때문에, 제한된 컴퓨팅 자원에서 학습 가능한 최적의 파라미터 개수를 파악하는 것은 매우 중요한 문제다. Kaplan는 처음으로 파라미터 개수와 모델 성능 간의 관계가 power-law임을 보였다. 이에 영향을 받아 최근에는 컴퓨팅 자원이 증가하면 토큰 개수는 거의 고정(=300B)채 모델 크기만 증가시키는 방향으로 모델들은 학습시키고 있다. 이번 연구에서는 한정된 FLOPs 지원이 주어졌을 때, 최적의 모델 크기와 토큰 개수는 무엇인지 살펴볼 것이다. (여기서 토큰 개수란 학습 도중에 본 토큰 개수를 의미한다. 즉, 같은 토큰을 또 봐도 카운트한다.) (이 연구는, 한정된 D..
2023.09.19 -
[Paper Review] Training language models to follow instructions with human feedback
Abstract 언어 모델 확장이 사용자 의도 (or 요구)에 부합한 텍스트 생성을 장려하지 않는다. (예를 들어, 사용자가 대화 task를 요구한다고 가정할 때, 언어 모델 확장은 대화 task의 수행 능력 향상의 본질적인 해결책이 아니다. 왜냐하면 언어 모델이란 학습 데이터를 재현해주는 모델이지, 대화 task를 수행하기 위해 만들어진 모델이 아니기 때문이다. 즉, 언어 모델을 확장하면 학습 데이터를 더 잘 재현할 뿐, 사용자의 의도에 부합한 텍스트를 더 잘 생성하는데 본질적으로 도움을 주지 못한다.) 다시 말해, 기존 언어 모델은 사용자에게 맞춰져 있지 않다. 즉, 사용자 맞춤이 아니다. 이번 연구에서는, 어떻게 하면 언어 모델이 사용자 의도(=광범위한 task)에 맞춰질 수 있는지에 대한 방법론(..
2023.09.06 -
[Paper Review] Scaling Language Models: Methods, Analysis & Insights from Training Gopher
Abstract 이번 연구에서는, 트랜스포머 기반의 언어 모델 성능을 다양한 크기에서 분석해볼 것이다. 모델 크기 확장으로 얻은 성능 향상은 독해 이해, 사실 확인, 혐오 표현 식별과 같은 테스크가 가장 크다. 반면에, 논리적이고 수학적인 추론 테스크가 상대적으로 낮다. 더보기 we present an analysis of Transformer-based language model performance across a wide range of model scales Gains from scale are largest in areas such as reading comprehension, fact-checking, and the identification of toxic language, but logic..
2023.08.28