검색 본문
ostin.tistory.com Ostin X ReFT: Representation Finetuning for Language Models Abstract 가중치 대신 표현을 수정하는 Representation Fine-Tuning (ReFT)의 개념과 low-rank를 활용하여 효율적으로 표현에 개입할 수 있는 LoReFT 제안 [Github] [arXiv](2024/04/08 version v2) ReFT 용어 정의: 입력 시퀀스 x = (x1, ..., xn)는 layer l에서 hidden state hn(l)로 임베딩된다. m layer transformer... 2024.04.09 블로그 검색 더보기 chanmuzi.tistory.com chanmuzi <RL, Fine-Tuning> [ByteDance] ReFT - Reasoning with Reinforced Fine-Tuning (2024.01) 1. Introduction 지금까지 수학 문제를 푸는 모델을 만드는 가장 좋은 방식은 Chain-of-Thougt (CoT) annotations를 활용하여 Supervised Fine-Tuning 하는 것으로 알려져 있습니다. 그런데 일반적으로 이런 데이터는 질문 하나당 한 개의 annotation만 존재하므로 일반화 성능이 떨어질 수밖에 없다는 문제점을 안고 있습니다. CoT와 같은 형태의 annotation은 만들기도 쉽지 않지만, 한 문제에 대해 여러 답변이 존재할 수 있다는 가능성이 배제되고 있는 추가적인 문제가 발생하고 있는 것이죠. 본 논문에서는 2. Related Work Math Problem Solving Python program as CoT prompt, increasing the amount of CoT data Reinforcement Learning PPO, Direct Preference Optimization (DPO), Identity Preference Optimization (IPO), Kahneman-Tversky Optimization (KTO) 3. Method 위에서 설명한 것처럼 Warm-up과 Reinforcement Learning, 두 단계로 구성됩니다. 여기에 사용되는 개념들이 상당히 많고 복잡한데, 자세한 이해를 원하시는 경우 논문을 직접 참고하시는 게 좋을 것 같습니다. (이걸 다 정리하다가는 시간이 너무 많이 날아가는 관계로 간단히 포인트만 정리하고 넘어가고자 합니다) Warm-up (question, CoT)의 튜플로 구성된 $(x, e)$ 데이터셋을 사용해 policy를 fine-tuning 합니다. policy $\pi_{\theta}(\cdot |s_{t})$에서 $ 4. Experiments Datasets GSM8K, SVAMP: 정답이 숫자(값)인 벤치마크입니다. MathQA: 여러 개 선택지(ABCD) 중에 하나를 고르는 형태의 벤치마크 입니다. GPT-3.5-turbo few-shot prompting N-CoT, P-CoT annotation을 둘 다 획득 (자연어, 프로그래밍어) Baseline ReFT with SFT vs self-training Offline Self-Training (Offline-ST), Self-Training (Online-ST) Models Galactica-6 5. Insights 가장 먼저 든 생각은 '강화학습 공부 좀 해야겠다..'였습니다. 사실 RLHF가 주목을 받았을 때 미리 잘 해뒀으면 좋을 것을 많이도 미뤄왔네요.. 개인적으로 개선 여지가 많은 포인트는 reward hacking이라고 생각합니다. 논문에서 limitation으로 언급했던 것처럼, sampling된 CoT들이 정답에 해당하는지 아닌지는 최종 결과만 가지고 판단하다보니 중간에 잘못된 내용이 포함되어도 이를 걸러내지 못하는 문제점이 있습니다. 가장 단순하게는 뭐 중간 과정도 타당한지를 확인할 수 있도록 decomposition하고 off 6 Datasets GSM8K, SVAMP: 정답이 숫자(값)인 벤치마크입니다. MathQA: 여러 개 선택지(ABCD) 중에 하나를 고르는 형태의 벤치마크 입니다. GPT-3.5-turbo few-shot prompting N-CoT, P-CoT annotation을 둘 다 획득 (자연어, 프로그래밍어) Baseline ReFT with SFT vs self-training Offline Self-Training (Offline-ST), Self-Training (Online-ST) Models Galactica-6 NLP PPO reinforcement learning paper review LLM ByteDance ReFT Reinforced Fine-Tuning 2024.01.30 blog.naver.com 김강열 블로그 REFT 2 https://github.com/stanfordnlp/pyreft GitHub - stanfordnlp/pyreft: ReFT: Representation Finetuning for Language Models ReFT: Representation Finetuning for Language Models - stanfordnlp/pyreft github.com https://www.clioapp.ai/research/reft Representation Finetuning for Language Models | Clio AI... 2024.05.08 blog.naver.com 조원호의 행복공간 [ML] ReFT: Representation Finetuning for Language Models (PR-237) 7 매개변수 효율적인 미세 조정(PEFT) 방법은 소수의 가중치를 업데이트하여 대규모 모델을 조정하려고 합니다. 저희는 ReFT 제품군의 강력한 인스턴스인 Low-rank Linear Subspace ReFT(LoReFT)를 정의합니다. LoReFT는 기존 PEFT를 대체하는 drop-in 방식으로, 이전의 최첨단 PEFT보다 매개변수 효율이 10배~50배 더... 2024.04.07 gall.dcinside.com mgallery stellive reft light의 의미에 대해 araboja reft 동사 REAVE의 과거·과거분사 reave 1.동사 약탈하다, 강탈하다; [보통 수동형으로] …에게서 빼앗다(bereave) ((of, from)) 2. 자동사 빼앗다 reave 타동사, 자동사 [고어] 찢다(rend), 부수다(break... 2023.09.28 웹문서 검색 더보기 왼갈 왜 Reft 임 ㅋㅋㅋㅋㅋ 왼갈은 왜 Reft_DaeGal이지 adventure-time.tistory.com Adventure-time Reft 파밍 스트레스 해소 fect.템복사 본 문서는 Strem Reft 에 한정됩니다. 1. Save 파일 복사 중괄호 {} 안의 경로는 본인의 환경에 맞게 수정하셔야 합니다. C://user/{윈도우로그인아이디}/AppData/LocalLow a. C 경로는 내PC 에서 찾을수 있습니다. b. user 경로는 한글 windows 에서 볼때 사용자 로 보입니다. c. AppData 가 보이지 않을경우 파일... 2023.11.27 통합웹 더보기
서비스 안내 스토리의 글을 대상으로 검색결과를 제공합니다. 자세히보기 wkddls.tistory.com 장인의 마음으로 (김유선) 중고거래사이트 만들기 1일차 - 기획하기 시작 중고거래사이트를 만들어보면서 csr(클라이언트 사이드 렌더링)을 구현할 것이다. csr의 장점인 서버비용과 데이터비용의 절감을 극대화하기 위해 spa(싱글 페이지 애플리케이션)을 구현할 수 있도록 할 것이고, 필요에 따라(로그인 기능과 같은 중요한 기능들을 위해) ssr을 병행할 수도 있을 것이다. 요구사항 분석 구매자이면서 판매자로 활동할 수 있는 사용자들끼리 물건을 구매하고 판매할 수 있도록 하는 사이트를 구현할 것이다. - 사용자 - 판매글 업로드 기능 판매글 열람 기능(업로드 시간, 상품명, 설명내용, 사진, 올린 사람의 아이디, 카테고리, 가격 등을 열람) 판매자와 채팅 기능 로그인 기능 안전결제 기능(수수료를 주고 중간에서 돈을 맡아주는 기능) 후기 작성 기능 구현되어야 하는 기능 회원가입과 로그인 기능 판매하고 싶은 물건을 업로드하고 글을 작성할 수 있으며(게시판 기능) 구매하고 싶은 물건을 판매 중인 판매자에게 원하는 제품과 채팅을 보내고 판매자와 서로 대화할 수 있음 찜 버튼을 통해 원하는 물건들을 위시리스트에 저장해놓을 수 있음 검색 기능을 통해 원하는 물건들을 찾아볼 수 있음 카테고리 기능을 통해 원하는 물건의 종류를 지정할 수 있음 api 명세서 api 기능 method 권한 / 쇼핑몰 메인 페이지 get 누구나 /login 로그인화면 보기 get 누구나 /login 로그인 하기 post 누구나 /logout 로그아웃하기 post 로그인한 사람 /register 회원가입 화면 보기 get 누구나 /register 회원가입 하기 post 누구나 /signout 탈퇴하기 post 로그인한 사람 /:user 유저 보기(올린 상품, 달린 후기 등) get 누구나 /chatlist 채팅 목록 보기 get 로그인한 사람 /chat/:user 유저와 사용 기술 스택 html - 하이퍼텍스트 마크업 언어는 웹페이지의 구조를 정의하는 웹을 위한 마크업 언어 css - html을 꾸며줌 javascript - 화면에 움직임을 부여함(csr를 구현하기 위해 사용하기도 함) node.js - 자바스크립트 언어로 서버를 구현하기 위해 사용 express - 서버를 더 쉽게 구현할 수 있도록 도와주는 도구(노드제이에스를 간결하게 작성하게 해줌) mongodb - 데이터를 저장할 수 있게 해주는 데이터베이스 도구 aws - 아마존에서 제공하는 클라우드 컴퓨팅 플랫폼을 구성하는 원격 컴퓨팅 서비스(웹 서비스라 디자인 기획 (캔바) 수정(04.09.02:13)----- 웹사이트 디자인 기획한 디자인에 맞게 프레임워크 없이 쌩으로 HTML으로 웹사이트를 디자인했다. 새벽 2시가 다 되어가서 힘들다... 확실히 html은 하면 할수록 실력이 느나보다. 이젠 어렵지는 않은데 시간이 좀 걸리긴 걸린다. 점점 빨라지고 있지만 그리고 html은 배움의 끝이 없다... 이번에도 사이트들을 분석하다가 새로운 것을 배웠다. 그것이 바로 flex 속성 <div class="product_boxing"> <p class="product_price">5,000원</p> 8 중고거래사이트를 만들어보면서 csr(클라이언트 사이드 렌더링)을 구현할 것이다. csr의 장점인 서버비용과 데이터비용의 절감을 극대화하기 위해 spa(싱글 페이지 애플리케이션)을 구현할 수 있도록 할 것이고, 필요에 따라(로그인 기능과 같은 중요한 기능들을 위해) ssr을 병행할 수도 있을 것이다. 2024.04.08 티스토리 검색 더보기 story.kakao.com 김태양 김태양 - 카카오스토리 심장질환 위험 크다" 부산시, 공영주차장 임산부 차량 정기권 우선 배정 하루 한단어 bereft [bɪreft] [형용사] ~이 전무한; ~을 상실한 , 상실감에 빠진 bereft of ideas / hope 아이디어가 전무한/희망을 상실... 2016.11.17 카카오스토리 검색 더보기 brunch.co.kr 지다원 10. 1분에 5억리터, 마침내 빅토리아 폭포. - '11개국 친구들과 떠난 20일간의 아프리카 횡단기 마지막 이야기' 28 밀착시키며 로프를 붙잡아야 한다. 가이드가 'UP'을 외치면 신속하게 일어나 패들링을 하면 된다. 그리고 'FORWARD'를 외치면 정면을 향해 패들링을 하면되고 REFT를 외치면 오른쪽 줄은 앞으로 젓고 왼쪽줄은 뒤로 저어 보트가 왼쪽방향으로 이동한게 한다. (오른쪽은 반대로) 드디어 첫번째 코스에 진입했다. 물살이... 아프리카 세계여행 트럭킹 2017.10.13 브런치스토리 검색 더보기
Reft Hook Right Upper blog.naver.com/dongceolman 네이버 블로그 우리는 한방을 노린다..
서비스 안내 Melon Company가 운영하는 음악 서비스입니다. 다른 사이트 더보기 Reft The Common Men 앨범 Let It Burn 2011.08.30. Rebellion Remix (Feat. Bill Ric, IJ, GENM, Young WId G, CHRIS GUARDY, RYSIC, CRE.D, Chosen 1, ReFT) 태민 (tmmn) 앨범 Rebellion R... 2021.11.26. Lawal (3reft Trap) Don Bigg 앨범 ٤in 2023.01.03. 3reft en ana kont sah DimmyDee 앨범 3reft en an... 2024.02.20. E'reft Tkhalini Hebbak Wissam Al Ameer 앨범 Tallet Amar 2009.01.07. E'reft Tkhalini Hebbak Wissam Al Ameer 앨범 Lebanese Re... 2010.10.20.