검색 본문
카카오브레인 www.kakaobrain.com/ 인공지능연구소 카카오브레인. 회사소개, 영입, 블로그, 뉴스룸. 전화고객센터: 031-606-7780 장소
moonlight314.tistory.com MoonLight's Archive Honeybee - 카카오브레인의 Multimodal LLM 13 안녕하세요, MoonLight입니다. 이번 Post에서는 지난 달 카카오브레인에서 발표한 Multimodal LLM Honeybee에 대해서 알아보도록 하겠습니다. Multimodal Model이란 다양한 입력의 형태를 받아들여서 결과를 내는 Model을 뜻합니다. 예를 들어, 이미지, 텍스트, 소리 등의 입력을 받아서 학습한 Model을 뜻합니다... NLP prompt transformer GPT 허니비 honeybee vqa LLM kakaobrain 카카오브레인 2024.02.21 블로그 검색 더보기 bo-10000.tistory.com IBOK 카카오브레인 Multimodal LLM Honeybee 논문 리뷰 1. 배경 MLLM (Multimodal LLM)은 vision encoder, LLM, projector 세가지로 구성되어 있다. vision encoder과 LLM은 각각 따로따로 사전학습된 것을 사용한다. 따라서 두 모델을 연결해주기 위해 projector가 필요하다. projector은 vision encoder에서 나온 visual feature을 LLM의 feature space로 매핑해주는 역할을 한다. 일반적으로 vision encoder과 LLM은 고정해두고 projector을 학습하는 방식으로 학습이 진행된다. 따라서 이 p 2. Honeybee Honeybee의 전체 구조는 위와 같다. vision encoder에서 visual feature을 추출 후 projector을 거쳐 visual token으로 변환하고, text token과 함께 LLM의 input으로 넣는다. 여기까지는 여타 MLLM들과 동일한 구조이고, 핵심 구조는 새롭게 제안한 projector인 C-abstractor과 D-abstractor이다. C-Abstractor은 local context를 잘 포착하는 convolution을 이용다. ResNet을 여러개 쌓아 visual token을 추출한다. 3. 학습방법 학습은 두단계로 진행된다. 첫번째로 vision encoder과 LLM은 freeze하고 abstractor만 학습한다. 그 다음으로 freeze를 풀고 모든 parameter을 세부 조정하는 단계를 거친다. LLM으로는 Vicuna-v1.5 (7B, 13B) 두가지 크기의 모델을 이용했고, vision encoder은 CLIP ViT-L/14 모델을 이용했다. 4. 실험결과 결과 요약 - 5개 bench에서 SoTA를 달성했다. 참고로 각 bench의 예시는 다음과 같다. 솔직히 사람이 봐도 좀 어렵다. 보다 자세한 결과 지표는 다음과 같다. Qwen이나 LLaVA 등은 더 큰 vision encoder / image resolution / 더 많은 visual token을 이용했지만 Honeybee의 성능이 더 높았다고 한다. Honeybee도 이렇게 image resolution과 visual token 수를 높이면 성능이 더 상승한다고 한다. 다음은 실험단계에서 세운 각 가설에 대한 검증이다. C 13 MLLM (Multimodal LLM)은 vision encoder, LLM, projector 세가지로 구성되어 있다. vision encoder과 LLM은 각각 따로따로 사전학습된 것을 사용한다. 따라서 두 모델을 연결해주기 위해 projector가 필요하다. projector은 vision encoder에서 나온 visual feature을 LLM의 feature space로 매핑해주는 역할을 한다. 일반적으로 vision encoder과 LLM은 고정해두고 projector을 학습하는 방식으로 학습이 진행된다. 따라서 이 p Multimodal mllm 2024.03.02 thebell.co.kr free content [카카오 다운사이징]카카오브레인의 교훈, 분사 통한 성장 추구 '실패' 에 표출된 기사입니다. 카카오는 계열사 정비 과정에서 핵심 사업 영역인 인공지능(AI)에 속한 카카오브레인에도 메스를 댔다. 계열사 다운사이징을 하는 과정에 대상 기업의 사업성, 실적 등을 면밀히... 15시간전 v.daum.net 블로터 블로터 편견없는 경제뉴스, 몰입하는 자본시장 정보 2024.05.02 카카오, 본사가 직접 AI 모델 만든다…카카오브레인 통합 속도 - 콘텐츠뷰 2023.06.12 카카오브레인, 각자 대표 체제로…김병학 신임 대표는 누구? - 콘텐츠뷰 2023.03.13 카카오브레인, ‘칼로 100X 프로그램’ 참여 스타트업 모집 - 콘텐츠뷰 post.naver.com 그리다소프트 카카오, 카카오브레인 합병 검토하는 이유는? 5 이후 지속적인 적자로 어려움을 겪어왔습니다. 지난해 영업적자는 752억원에 달했으며, 결손금은 1600억원을 넘어섰습니다. 업계에서는 이번 합병 검토가 카카오브레인의 누적 적자를 해소하기 위한 경영 효율화 방안으로 볼 수 있다고 분석합니다. 또한, 카카오가 최근 sLLM 개발 방향으로 선회하고 있다는 점도 영향을... 카카오 카카오브레인 2024.04.17 통합웹 더보기
서비스 안내 스토리의 글을 대상으로 검색결과를 제공합니다. 자세히보기 카카오 정책산업 연구 IT 분야 크리에이터 오픈소스로 AI 생태계에 기여하는 카카오브레인의 노력 - < Tech Ethics 7호> 6 모델 버트(BERT)를 오픈소스로 개발하여 AI 분야에 기여했습니다. 메타(구 페이스북) 역시 대규모 언어 생성 모델인 LLaMA를 오픈소스로 공개했습니다. 카카오브레인의 적극적 오픈소스 참여…40여 건 공유 카카오브레인 역시 생성형 AI 오픈소스 생태계 활성화를 위해 카카오브레인의 연구 개발 성과물을 적극적으로... 오픈소스 소스코드 2023.12.28 브런치스토리 검색 더보기 benjamin-info.tistory.com Ben's Tech Story 카카오브레인, '허니비' 멀티모달 LLM 오픈소스로 공개 4 인공지능(AI)이 자리 잡고 있으며, 특히 '멀티모달 언어 모델(MLLM, Multimodal Large Language Model)'이라는 새로운 영역이 주목받고 있습니다. 오늘은 카카오브레인이, '허니비'(Honeybee)라는 새 멀티모달 LLM을 오픈소스로 공개한 소식을 전해드리겠습니다. Github : https://github.com/kakaobrain/honeybee Paper... 인공지능 Ai 허니비 Honeybee 카카오브레인 multimodal 멀티모달 MLLM 멀티모달언어모델 2024.01.21 티스토리 검색 더보기 IT 크리에이터 보기
카카오 브레인 채용 recruit.kakaobrain.com/ 신청자 작성 카카오 브레인과 세상의 문제를 풀어갈 인재를 찾습니다. 인공지능. B DISCOVER bdiscover.kakaobrain.com/ 카카오브레인 인공지능 기반 이미지 생성, 공유 플랫폼. 비 디스커버 소개, 앱 다운로드 제공. 구글플레이 앱스토어 칼로 karlo.ai/ 카카오브레인 운영 이미지 생성 AI 서비스 Karlo. 사이트 더보기
서비스 안내 Kakao가 운영하는 책 서비스 입니다. 다른 사이트 더보기 시를 쓰는 이유 저자 슬릿스코프 편집부, ... 출간 2022.8.8. 도서 9,000원 (주)카카오는 상품판매의 당사자가 아닙니다.법적고지 안내 (주)카카오는 통신판매중개자로서 통신판매의 당사자가 아니며 상품의 주문 배송 및 환불 등과 관련한 의무와 책임은 각 판매자에게 있습니다.