Spring Lab

[논문 리뷰] LoRA: Low-Rank Adaptaion of Large Language Models

이 글에서는 2022년 ICLR에서 발표된 논문인 LoRA: Low-Rank Adaptaion of Large Language Models에 대해 간략히 살펴볼 예정이다. 본 논문은 Microsoft로부터 발표되었으며, 논문 링크와 Github 링크는 다음과 같다. 논문 링크: https://openreview.net/forum?id=nZeVKeeFYf9 LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks..

Natural Language Processing 2023.06.18

[논문 리뷰] LIMA: Less Is More for Alignment

이 글에서는 2023년 5월 18일 발표된 논문인 LIMA: Less Is More for Alignment에 대해 간략히 살펴볼 예정이다. 본 논문은 LLaMa 논문을 발표한 Meta AI로부터 발표되었으며 현재는 arxiv에만 올라온 상태이다. 논문 링크: https://arxiv.org/abs/2305.11206 LIMA: Less Is More for Alignment Large language models are trained in two stages: (1) unsupervised pretraining from raw text, to learn general-purpose representations, and (2) large scale instruction tuning and reinforc..

Natural Language Processing 2023.05.23

[논문 리뷰] InstructGPT: Training language models to follow instructions with human feedback

이 글에서는 InstructGPT를 제안한 논문인 Training language models to follow instructions with human feedback에 대해 살펴볼 것이다. 본 논문은 GPT-1, GPT-2, GPT-3 논문을 발표한 OpenAI로부터 2022년 NeurIPS에 발표되었다. 논문 링크: https://arxiv.org/abs/2203.02155 Training language models to follow instructions with human feedback Making language models bigger does not inherently make them better at following a user's intent. For example, large..

Natural Language Processing 2023.04.28

우분투 서버에서 특정 GPU를 사용하고 있는 컨테이너를 찾아내는 방법

nvidia-smi 보통 nvidia-smi 를 사용하면 다음과 같은 화면이 나온다. 현재 GPU가 0 / 1 / 2 / 3 총 4개가 있는 것을 알 수 있고, 실행 중인 프로세스는 0번 GPU에 2개, 3번 GPU에 1개가 있는 것을 알 수 있다. 현재 이 서버는 도커를 기반으로 사용자가 각자 컨테이너에서 작업하고, GPU를 사용하도록 구성되어 있다. 그렇다면 0번 GPU에서 3824MB 메모리를 사용하고 있는 사용자를, 컨테이너를 찾아내 알아보자. pstree 우선 이 프로세스의 PID는 '349842'이다. 이를 이용하여 찾아볼 것인데, 기본적으로 'pstree' 명령어를 이용할 것이다. pstree -aps 349842 | grep id 다음과 같은 명령어를 사용하게 되면 다음과 같은 줄이 나오는..

코딩 2023.04.18

강화학습과 지도학습은 어떻게 다를까?

1. 강화학습과 지도학습 강화학습은 머신러닝의 한 종류이지만 지도학습, 비지도학습과 학습 방식이 조금 다르다. 책에서 분류한 바와 같이 지도학습, 비지도학습, 강화학습에는 겹치는 부분이 있긴 하지만 엄연히 차이점이 존재한다. 이 글에서는 그 중에서도 지도학습과 강화학습의 차이점을 나만의 방식으로 풀어보려 한다. 2. 각각의 관점으로 본 강화학습 위 이미지는 InstructGPT에 사용된 Reinforcement Learning with Human Feedback(이하 RLHF)를 설명하기 위해 만든 PPT 페이지이다. 이미지의 상황은 Model이 Prompt를 Input으로 받고 Answer(Completion)을 Output으로 내는데, Output이 가지는 Reward를 최대화하는 쪽으로 학습하는 강..

Reinforcement Learning 2023.04.11

Spring Lab

전체 글 14

티스토리툴바

« 2024/11 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30