검색 본문
gall.dcinside.com mgallery sigularity_point 아직도 논문리뷰가 뭔지도 모르는 애들이 왜이리 많냐 논문을 리뷰하는게 검증이 아닌데 무슨 검증절차를 하는걸로 착각하는 애들이 아직도 있다는게.. 논문을 리뷰할때 중점은 논문이 구성에 맞는지 제시하는 데이터가 충분하고 합당한지를 보는거지 이게 뭐 기존... 2024.05.04 웹문서 검색 더보기 [논문리뷰]24편 : 비햅틱스 햅틱 솔루션 리뷰 15편 : 바이브 XR 엘리트, 어디서든! 누구든! · [스압]16편 : 미래의 시작. 메타 퀘스트 3 · [논문리뷰]17편 : 엑스리얼 에어 2 국내 최초 리뷰 · [논문리뷰]18편 : 오큘러스 리프트 DK2. VR의 태동... [논문리뷰]24편 : 닌텐도 버추얼 보이 [시리즈] VR AR 하드웨어 논문리뷰 시리즈 · 메타 퀘스트 프로 리뷰 리뉴얼 1편 · 메타 퀘스트 프로 리뷰 리뉴얼 2편 · (데이터 주의)S0NY 모션캡쳐 센서 모코피 리뷰 · 리뷰 10편 : 태초에 VR이 있었다... kk-yy.tistory.com Yoonstory [논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 의의 (자세한 내용은 아래 구조에 대한 설명에서 더 자세하게 알아보자) 1. 계층적 Feature map을 통해 '계층적 표현'이 가능해지고, '선형 계산 복잡도'를 달성했다. 기존 ViT는 단일 해상도의 Feature map을 생성하고, 2차 복잡도를 가짐→ 이미지 특성이 고려되지 않은 모델, 해상도에 따라 연산량이 2차 증가 형태 CNN의 Pooling 구조를 Transformer에 도입, 줄어든 해상도에서 Attention 연산을 수행하므로 속도적 이점 2. Shifted window 방식을 통해 모델링 능력을 크게 향상했다. 기존 Strage 구조 입력 이미지 : (H, W, 3) Patch Partition Patch 크기 : 4 x 4 ViT와 동일한 방식으로 이미지를 겹치지 않게 각각의 이미지 패치로 나눔 각 패치의 feature 차원은 4×4×3=48 Stage 1 Linear Embedding- Transformer 학습을 위해 사용자가 정의한 C차원으로 매핑 Swin Transformer Block- 2개로 구성된 Swin Transformer Block으로 입력되어 동일한 차원 출력 Stage 2 Patch Merging- 해상도가 줄어듦 Swin Transfor Patch merging 특징 계층적 표현을 생성하기 위해, 네트워크가 깊어짐에 따라 패치 병합으로 토큰 수를 줄인다. Patch merging 수행 Stage 1의 출력인 𝐻/4 ∗ 𝑊/4 ∗ 𝐶 의 차원을 2 * 2 그룹으로 나눔 그룹의 각각은 𝐻/8 ∗ 𝑊/8 ∗ 𝐶 의 차원을 가지고, 4개의 그룹을 각채널을 기준으로 병합(Concat). 병합된 𝐻/8 ∗ 𝑊/8 ∗ 4/𝐶 의 차원 축소를 위해 절반인 2𝐶의 차원으로 축소 위 과정들은 모든 Stage에서 동일하게 작용 ㄴ[Swin Transformer Block] 특징 기존 Transformer의 M Window - MSA Local Window를 모델에 적용했다. 윈도우 안에서 attention 연산을 수행 4개의 Stage를 지나며 패치의 크기가 4배씩 커지고, 패치의 개수는 1/4로 줄어듦 장점 : 기존 ViT에 비교하여 다양한 계층과 해상도 가짐→ Segmentation, Detection task에 적합한 Backbone 형태 수식 * Ω 기호는 연산에 얼마나 시간이 걸리는지 측정한 기준 (1) ViT- 해상도에 따라 2차원적으로 계산량이 증가- 해상도가 올라가면 계산량이 기하급수적으로 증가 (2) Swin Transformer- 윈도우의 Shift window - MSA 특징 연산 속도의 이점이 있다. Window 끼리의 상호작용을 충분히 할 수 있게 한다. ↔ 단순히 Window로 쪼개서 연산하는 방식은 연산속도에 큰 이점이 있지만, Window 끼리의 상호작용이 부족하다. 왼 : 기존 Window 방식 / 오 : Shifted Window 방식 Shift window 수행 ⌈ℎ/𝑀 ∗ 𝑤/𝑀⌉ 개의 Window들에 대해 각각 독립적으로 Self-attention을 시행한다. 이후 ⌈(ℎ/𝑀+1)⌉ * ⌈(𝑤/𝑀+1)⌉ 개의 추가적인 Windows로 나눠 각각 독립적으로 Self-attentio Relative position bias Q의 위치를 기준으로 K의 상대적인 위치를 이용해 위치 임베딩으로 더해준다. 특징 기존의 Absolute Position Embedding을 대체하는 Relative Position Bias 방식을 도입했다.- Absolute Position Embedding : ViT에서 Positional Encoding 방식- Relative Position Bias : patch들간의 상대좌표를 더해주는 것 이전의 위치 임베딩 방식보다 좋은 성능을 보임- 이미지에서는 절대적인 위치보다 patch 간의 상대적인 위치가 object를 파악하는데 모델 버전 각 모델 크기와 계산 복잡도가 서로 다름- Swin-T와 Swin-S는 비교적 가벼운 모델로, ResNet-50 (DeiT-S)와 ResNet-101에 상응하는 복잡도- Swin-B와 Swin-L은 더 큰 모델로, 더 많은 계산 자원을 필요로 하지만 더 높은 성능을 기대 ViT-B/DeiT-B와 유사한 크기를 가지는 Swin-B를 기준 Swin-T, Swin-S, Swin-L은 각각 Swin-B보다 약 0.25배, 0.5배, 2배의 모델 크기와 계산 복잡도를 가짐 다양한 변형 모델들은 ImageNet 이미지 분류 작업에서 서로 실험 Vision Task Classification Object Detection Semantic Segmentation 그 외 실험 Relative PositionalBias 여부 Shifted Window 여부 Window적용 방법에 따른 속도 비교 Sliding Window와 Shifted Window비교 Classification (a) Regular ImageNet-1K trained models (1,000개 클래스) 비슷한 파라미터를 가진 모델 중, FLOPs가 가장 낮으며 정확도는 가장 높음 속도와 정확도 간에 더 나은 34 (자세한 내용은 아래 구조에 대한 설명에서 더 자세하게 알아보자) 1. 계층적 Feature map을 통해 '계층적 표현'이 가능해지고, '선형 계산 복잡도'를 달성했다. 기존 ViT는 단일 해상도의 Feature map을 생성하고, 2차 복잡도를 가짐→ 이미지 특성이 고려되지 않은 모델, 해상도에 따라 연산량이 2차 증가 형태 CNN의 Pooling 구조를 Transformer에 도입, 줄어든 해상도에서 Attention 연산을 수행하므로 속도적 이점 2. Shifted window 방식을 통해 모델링 능력을 크게 향상했다. 기존 2024.05.20 블로그 검색 더보기 [논문 리뷰] ViT(Vision Transformer), An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale aigaeddo.tistory.com 이게또오류 [논문 리뷰] YOLOv3(YOLOv3: An Incremental Improvement) 14 논문 : https://arxiv.org/pdf/1804.02767 이번 포스팅에서는 YOLOv3에 대한 논문리뷰를 하겠습니다. YOLOv2가 나온 이후 2년만에 나온 논문이며, 당시에 나온 좋은 기술들을 다시 YOLO에 적용했습니다. 이미지출처: https://www.mdpi.com/2504-4990/5/4/83 다음 글을 참조했습니다. https://kikaben.com/yolov3-2018/... 2024.05.20 [논문 리뷰] Fast R-CNN [논문 리뷰] Mask R-CNN hyeon827.tistory.com Data Science Study [X:AI] Taskonomy 논문 리뷰 23 Taskonomy: Disentangling Task Transfer Learning 논문 원본 : https://arxiv.org/abs/1804.08328 발표 자료 Taskonomy: Disentangling Task Transfer Learning Do visual tasks have a relationship, or are they unrelated? For instance, could having surface normals simplify estimating the depth of an image... 2024.05.21 [X:AI] Mask R-CNN 논문 리뷰 [X:AI] EfficientNet 논문 리뷰 dangingsu.tistory.com 단깅수 기술 블로그 MT-DNN 논문 리뷰 [2] Tasks 다음은 Task입니다. MT-DNN은 총 9가지의 GLUE Task에 대해 학습을 진행했습니다. 9가지의 GLUE Task를 크게 4가지로 또 분류하였고 그 4가지가 아래 사진의 왼쪽에 나와 있는 4 항목입니다. 2-1. Single-Sentence Classification Task1. Single-Sentence Classification 첫 번째로 Single-Sentence Classification을 수행했는데 이는 하나의 문장이 주어졌을 때 문장의 Class를 분류하는 Task입니다. 대표적으로 COLA, SST-2 Ta [3] Model Architecture MT-DNN Model Architecture 다음은 모델 Architecture & Training 부분입니다. MT-DNN은 크게 Shared Layers와 Task Specific Layers로 구성되어 있습니다. 모델 학습 시에는 무작위로 특정 Task의 Data를 Batch로 뽑아서 학습시켜주었고 이렇게 된다면 아래에 있는 Shared Layers는 계속 반복해서 학습이 되겠죠. 이러한 발상은 스키를 잘타는 사람이 그렇지 않은 사람보다 보드를 잘 탈 가능성이 높다는 생각으로 이렇게 했다고 합니다. 그리고 추가적으로 Lexi [4] Experiments Experiment1. GLUE Score 다음은 실험 부분입니다. 첫 번째 실험은 MT-DNN이 9가지 GLUE Task에 대해 학습을 시켰다고 위에서 얘기했습니다. 그에 대한 성능 평가이고 전체 총 Score는 BERT보다 약 2.2% 상승했구요. 이 표에서 검은색 Bold체로 표시되어 있는 부분은 당시 SOTA를 달성한 분야이고, 파란색 Bold체로 표시되어 있는 부분은 인간보다 더 뛰어난 성능을 보여준 분야입니다. 사실 사람보다 더 좋은 성능을 냈다는 게 이번 논문 발표를 준비하면서 가장 신기했던 부분인데,,, 아무튼 그렇습 [5] Conclusions MT-DNN은 Multi-Task DNN의 약자로 다양한 Task의 Supervised Dataset을 활용해 학습을 진행 특정 Task가 아닌 다양한 Task의 Dataset을 활용하기 때문에 데이터 양을 충당할 수 있었음 '스키를 잘 타는 사람이 보드도 잘 탈 것이다!' 라는 생각에서 이 아이디어가 비롯됨 9개의 GLUE Task 유형을 학습시켰고, 이를 또 다시 4개의 Task로 나누어서 학습을 진행 Pairwise Text Classification Task에서 SAN(Stochastic Answer Network) [6] References https://www.youtube.com/watch?v=wyQnuXmXOAs https://y-rok.github.io/nlp/2019/05/20/mt-dnn.html https://arxiv.org/abs/1901.11504 https://www.youtube.com/watch?v=v7diENO2mEA&t=1971s 10 Experiment1. GLUE Score 다음은 실험 부분입니다. 첫 번째 실험은 MT-DNN이 9가지 GLUE Task에 대해 학습을 시켰다고 위에서 얘기했습니다. 그에 대한 성능 평가이고 전체 총 Score는 BERT보다 약 2.2% 상승했구요. 이 표에서 검은색 Bold체로 표시되어 있는 부분은 당시 SOTA를 달성한 분야이고, 파란색 Bold체로 표시되어 있는 부분은 인간보다 더 뛰어난 성능을 보여준 분야입니다. 사실 사람보다 더 좋은 성능을 냈다는 게 이번 논문 발표를 준비하면서 가장 신기했던 부분인데,,, 아무튼 그렇습 논문 NLP AI Bert 자연어처리 딥러닝 DNN rnn 논문리뷰 MT-DNN 2024.05.23 [NLP] BERT 논문 리뷰 [NLP] BART 논문 리뷰 dalpo0814.tistory.com deeep [논문 리뷰] LLaVA, LLaVA-1.5 20 학습 데이터가 부족하기 때문이기도 하고, LLaVA-1.5 논문에서 탐구한 바와 같이 GPT-4o와 같이 512px 고해상도 이미지를 처리할 수 있는 vision encoder가 아니기도 하기 때문일 것입니다. 좀 더 고성능의 한국어 multimodal model들이 등장하기를 기대해보면서 LLaVA 논문 리뷰를 마치겠습니다. 읽어주셔서 감사합니다... 논문리뷰 Multimodal LLaVA llava-1.5 llava-next visual language model chatgpt-4o 2024.05.29 [논문 리뷰] KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [논문 리뷰] Direct Preference Optimization (DPO) Explained! 통합웹 더보기
서비스 안내 스토리의 글을 대상으로 검색결과를 제공합니다. 자세히보기 데이터파머 DataFarmer IT 분야 크리에이터 [논문 리뷰] Multirobot, PM (1) 4 이렇게라도 제 일과 관련된 얘기를 계속 적어가 봅니다~ 독자님들 양해 부탁드립니다^^ 오늘부터는 Process Mining과 로봇과 관련된 논문을 찾던 중에 하나의 논문을 리뷰해보려고 합니다. 그 이유는 저도 병원에서 서비스 로봇을 분석하고 있고, 이 결과를 가지고 내년에 논문을 출판하려고 합니다. 많은 작가님들은 책... 프로세스 마이닝 로봇 2023.12.06 브런치스토리 검색 더보기 aigaeddo.tistory.com 이게또오류 [논문 리뷰] Mask R-CNN Instance segmentation segmentation기법에는 semetic segmentation과 Instance segmentation가 있습니다. sementic segmentation은 객체의 카테고리 자체를 구분하지만 객체의 Instance 자체는 구분하지 않습니다. Instance segmentation은 객체의 종류뿐만 아니라 Instance까지 구분합니다. 예를들어 sementic segmentation은 cube 3개를 하나로 묶어 segmentation하지만 instance segmentation은 같은 종류의 cube라도 각각의 객체로 분 Mask R-CNN Mask R-CNN은 Object instance segmentation task에 일반적으로 사용한다고 합니다. 메인 아이디어는 Faster R-CNN에 segmentation mask를 예측하는 mask branch를 추가한 것입니다. 이로서 Faster R-CNN의 바운딩 박스 단위의 디텍팅을 좀 더 정교하게 fixel 단위로 잘라 객체를 탐지합니다. 1. Mask branch 아래 그림은 Faster R-CNN의 구조입니다. 다시 간단히 Faster R-CNN 구조에 대해 되짚어보자면 원본 이미지를 받아 pre-trained 모델을 거쳐 feature map을 생성합니다. 해당 feature map은 3x3 conv 층을 거친 후 1x1 conv층을 거쳐 각 classifiaction에 훈련될 feature map과 bounding box regressor에 훈련될 feature map으로 나누고 Region proposal를 진행합니다. 이 region proposal은 ROI pooling되어 Fas 2. RoIAlign 기존 Faster R-CNN에서의 RoIPooling에서의 동작을 보면 CNN을 통과한 feature map에서 sub-samping ratio 된 region을 projection해주고 얻어낸 RoI를 Pooling해줘 원하는 크기의 feature map을 얻어냅니다. 아래의 그림에서 보면 16x16 feature map에 200x145의 region을 뽑아내고 sub -sampling ratio을 32로 줘서 4.53, 6.25로 만들어 주었습니다. 다만 1픽셀 단위에서 소수점은 픽셀 이하 값이므로 분할이 불가해 4.53, 6. 3. Loss Function Faster R-CNN과 동일하게 Multi-task loss형태입니다. 다만 Lmask 로스가 추가되었습니다. Lmask는 binary cross entropy loss입니다. feature map의 각 cell에 sigmoid function을 적용한 후 loss를 구합니다. 여기서 softmax 가 아닌 sigmoid를 적용한 이유는 Lcls에서 객체의 종류에 대해 loss를 진행하고 분류하기 때문에 mask에서는 객체의 유무에 대한 이진분류만 처리하면 되기 때문입니다. 4. Backbone network Mask R-CNN은 Backbone으로 ResNet-FPN 모델를 사용했습니다. 5. Training Mask R-CNN 전체적인 구조는 Faster R-CNN을 기반으로 합니다. 하지만 FPN이 추가되었고 이미지, feature map에 대한 전처리, 후처리를 진행한다고 합니다. 1) input image preprocessing 이미지에 대한 전처리입니다. target size의 디폴트값은 800, maximum size 는 1333 입니다. 원본이미지의 width, height 중 짧은 쪽이 target size로 resize되고 큰 사이즈는 ratio rate로 조절됩니다. 만약 긴쪽이 maximun size보다 큰 경우 maximun size 7. 결과 RseNeXt-101-FPN을 backbone network로 사용하고, COCO 데이터셋을 학습에 사용하면서 AP값이 37.1까지 보였다고 합니다. 이는 당시 성능이 가장 좋았던 ResNet-101-C5-dilated backbone을 사용한 FCIS+++ +OHEM 모델보다 2.5%가 더 높은 결과입니다. 25 segmentation기법에는 semetic segmentation과 Instance segmentation가 있습니다. sementic segmentation은 객체의 카테고리 자체를 구분하지만 객체의 Instance 자체는 구분하지 않습니다. Instance segmentation은 객체의 종류뿐만 아니라 Instance까지 구분합니다. 예를들어 sementic segmentation은 cube 3개를 하나로 묶어 segmentation하지만 instance segmentation은 같은 종류의 cube라도 각각의 객체로 분 2024.05.13 티스토리 검색 더보기 story.kakao.com SK SK - 카카오스토리 5G 논문 리뷰 시작 - 2024.02.01 카카오스토리 검색 더보기 IT 크리에이터 보기
서비스 안내 Kakao가 운영하는 책 서비스 입니다. 다른 사이트 더보기 HSP 논문리뷰: 뇌호흡편(3판) 저자 뇌교육연구소 출간 2006.5.13. 보험학 50년 저자 한국보험학회 출간 2014.4.25. 도서 50,000원 (주)카카오는 상품판매의 당사자가 아닙니다.법적고지 안내 (주)카카오는 통신판매중개자로서 통신판매의 당사자가 아니며 상품의 주문 배송 및 환불 등과 관련한 의무와 책임은 각 판매자에게 있습니다.
에세이리뷰 essayreview.co.kr/ 영문교정, 영어 논문교정, 번역, SCI급 저널, 학위논문, 영어에세이, SOP, 이력서, 커버레터, 토플라이팅, 첨삭 서비스 제공. 전화고객센터: 1522-9180 채널 장소 Beyond the Lab sciencetech.tistory.com/ 신청자 작성 티스토리 과학, 공학 관련 기술과 논문의 리. Daily AI Archive dailyai.github.io 신청자 작성 하루에 하나의 당일에 발표된 AI 논문을 리뷰. 인공지능, 논문, 리뷰, 일간. 사이트 더보기