전체 글(108)
-
[DB] 3. 질의 수행(Query Evaluation)
이번 글에서는 질의 수행 개요 즉, 질의를 어떻게 처리하는지에 대해 설명할 것이다.1. 시스템 카탈로그(System Catalog)관계형 DBMS는 파일의 메타데이터(metadata)를 시스템 카탈로그라는 테이블 집합에 저장 및 관리한다. 파일은 크게 테이블 파일과 인덱스 파일의 두 가지 유형이 존재한다. - 테이블 파일의 메타데이터: 테이블의 스키마와 튜플의 통계 정보(튜플 수, 분포)- 인덱스 파일의 메타데이터: 인덱스의 구조, 탐색 키, 인덱스 통계 정보(인덱스 크기, 높이, 범위) 시스템 카탈로그에는 계정 및 권한 정보와 같은 사용자 정보도 포함하고 있다.카탈로그 테이블에는 자신에 대한 정보도 기술하고 있다. (아래 표 1~4번 행 참고) 2. 연산자 수행(Operation Evaluation)..
2024.12.14 -
[DB] 2. 디스크 & 파일(Disk & File)
1. 디스크(Disk)- 디스크는 순차 접근(sequential access)가 아닌 직접 접근(direct access)를 지원한다.- 디스크는 데이터를 블록(block) 단위로 저장하며, 디스크와 메모리 간 데이터 전송도 블록 단위로 이루어진다. 접근 시간(I/O 비용) = 탐색 시간(Seek Time) + 회전 지연(Rotational Delay) + 전송 시간(Transfer Time)- 탐색 시간(Seek Time): 디스크 헤드가 원하는 블록의 트랙으로 이동하는 시간 (일반적으로 플래터의 지름에 비례)- 회전 지연(Rotational Delay): 원하는 블록이 디스크 헤드 아래로 올 때까지 플래터가 회전하는 시간- 전송 시간(Transfer Time): 블록의 데이터를 읽거나 쓰는 시간위 수..
2024.12.12 -
[DB] 1. 인덱싱(Indexing)
파일 구성(File organization)은 파일 내의 데이터 레코드(data record)를 배치하는 방법을 의미한다. 파일 구성 방법마다 효율적인 연산과 비효율적인 연산이 존재한다. 0. 디스크에 저장되는 데이터- 디스크의 입출력 단위는 페이지(page)다. 페이지의 I/O cost가 대부분의 DB 연산 비용을 차지하기 때문에, 해당 비용을 최소화하도록 BD를 최적화 해야 한다.- 디스크의 임의의 페이지 접근 비용은 모두 거의 동일하다. 다만, 순차적으로 나열되어 있는 여러 페이지는 무작위로 배치되어 있는 여러 페이지보다 빠르게 접근할 수 있다.- 각 데이터 레코드는 rid(record-id)라 불리는 식별자(identifier)를 가지고 있다. 이를 가지고 데이터 레코드를 포함하고 있는 페이지의 ..
2024.08.29 -
[NLP] Transformer
Transformer는 long-term dependency 문제를 해결하기 위해 RNN의 순환 구조를 버리고 attention 기법을 적극 활용한 모델이다. Encoder-Decoder AttentionRNN의 순환구조는 최근 입력 embedding vector에 치중된 context vector만 디코더로 넘겨준다. Attention 기법은 각 출력 시점마다 필요한 입력 embedding vector를 파악하고 이들로 context vector를 생성해 디코더로 전달한다. 구체적으로, 각 출력 시점마다 각 입력 embedding vector가 얼마나 중요한지를 파악(by dot product & softmax)하고, 중요도가 높은 입력 embedding vector에 더 큰 가중치를 부여하는 방식(..
2024.08.19 -
[Probability] Conditional probability: causality, spurious correlation
조건부확률 P(A|B)는 사건 B가 일어날 상황에서 사건 A가 발생할 확률을 의미한다.인과 관계조건부확률로 두 변수 간의 상관관계(correlation)를 추론할 수 있지만 이를 인과관계(causality)로 추론하는 것은 매우 위험하다.그렇기 때문에, 데이터에서 추론할 수 있는 관계, 데이터 생성 원리, 도메인 지식을 기반으로 인과관계를 정확히 추론해야 한다. 인과관계를 짚고 넘어가는 이유는 데이터 분포 변화에 강건한 예측 모델을 만드는데 필요하기 때문이다.아래 그럼처럼, 상관관계 기반 예측 모델은 데이터 분포 변화에 취약한 모습을 보이는 반면, 인과관계 기반 예측 모델은 강건한 모습을 보인다.반면, 안과관계만으로는 높은 성능을 담보할 수 없다. 중첩 요인 (Confounding facto..
2024.08.03 -
[NLP] LoRA: Low-Rank Adaptation of Large Language Models
AbstactLoRA는 pre-trained 모델로 downstream task를 학습할 때 pre-trained weight 전체를 학습시키는 대신 각 transformer layer마다 rank decomposition matrix를 추가하여 학습시키는 기법으로 학습 파라미터 개수를 크게 줄여준다. LoRA는 기존 fine-tuning 기법에 비해 학습 파라미터 개수가 적고 학습 처리량이 높음에도 불구하고 동등하거나 더 나은 성능을 보인다. 그 뿐만 아니라, 타 adaptation 기법과 다르게 추론 지연이 없다.Introduction기존에는 pre-trained 모델을 fine-tuning할 때 pre-trained weight를 모두 학습하는 비효율적인 방식을 사용했다.효율을 높이기 위해 일부 파..
2024.05.29