전체 글 14

[논문 리뷰] LoRA: Low-Rank Adaptaion of Large Language Models

이 글에서는 2022년 ICLR에서 발표된 논문인 LoRA: Low-Rank Adaptaion of Large Language Models에 대해 간략히 살펴볼 예정이다. 본 논문은 Microsoft로부터 발표되었으며, 논문 링크와 Github 링크는 다음과 같다. 논문 링크: https://openreview.net/forum?id=nZeVKeeFYf9 LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks..

[논문 리뷰] LIMA: Less Is More for Alignment

이 글에서는 2023년 5월 18일 발표된 논문인 LIMA: Less Is More for Alignment에 대해 간략히 살펴볼 예정이다. 본 논문은 LLaMa 논문을 발표한 Meta AI로부터 발표되었으며 현재는 arxiv에만 올라온 상태이다. 논문 링크: https://arxiv.org/abs/2305.11206 LIMA: Less Is More for Alignment Large language models are trained in two stages: (1) unsupervised pretraining from raw text, to learn general-purpose representations, and (2) large scale instruction tuning and reinforc..

[논문 리뷰] InstructGPT: Training language models to follow instructions with human feedback

이 글에서는 InstructGPT를 제안한 논문인 Training language models to follow instructions with human feedback에 대해 살펴볼 것이다. 본 논문은 GPT-1, GPT-2, GPT-3 논문을 발표한 OpenAI로부터 2022년 NeurIPS에 발표되었다. 논문 링크: https://arxiv.org/abs/2203.02155 Training language models to follow instructions with human feedback Making language models bigger does not inherently make them better at following a user's intent. For example, large..

우분투 서버에서 특정 GPU를 사용하고 있는 컨테이너를 찾아내는 방법

nvidia-smi 보통 nvidia-smi 를 사용하면 다음과 같은 화면이 나온다. 현재 GPU가 0 / 1 / 2 / 3 총 4개가 있는 것을 알 수 있고, 실행 중인 프로세스는 0번 GPU에 2개, 3번 GPU에 1개가 있는 것을 알 수 있다. 현재 이 서버는 도커를 기반으로 사용자가 각자 컨테이너에서 작업하고, GPU를 사용하도록 구성되어 있다. 그렇다면 0번 GPU에서 3824MB 메모리를 사용하고 있는 사용자를, 컨테이너를 찾아내 알아보자. pstree 우선 이 프로세스의 PID는 '349842'이다. 이를 이용하여 찾아볼 것인데, 기본적으로 'pstree' 명령어를 이용할 것이다. pstree -aps 349842 | grep id 다음과 같은 명령어를 사용하게 되면 다음과 같은 줄이 나오는..

코딩 2023.04.18

강화학습과 지도학습은 어떻게 다를까?

1. 강화학습과 지도학습 강화학습은 머신러닝의 한 종류이지만 지도학습, 비지도학습과 학습 방식이 조금 다르다. 책에서 분류한 바와 같이 지도학습, 비지도학습, 강화학습에는 겹치는 부분이 있긴 하지만 엄연히 차이점이 존재한다. 이 글에서는 그 중에서도 지도학습과 강화학습의 차이점을 나만의 방식으로 풀어보려 한다. 2. 각각의 관점으로 본 강화학습 위 이미지는 InstructGPT에 사용된 Reinforcement Learning with Human Feedback(이하 RLHF)를 설명하기 위해 만든 PPT 페이지이다. 이미지의 상황은 Model이 Prompt를 Input으로 받고 Answer(Completion)을 Output으로 내는데, Output이 가지는 Reward를 최대화하는 쪽으로 학습하는 강..