검색 본문
서비스 안내 Kakao가 운영하는 책 서비스 입니다. 다른 사이트 더보기 Security and Privacy Schemes for Dense 6g Wireless Communication Networks 저자 Imoize Agbo... 출간 2023.10.27. 도서 204,040원 Dense Atmosphere 저자 Eberle Diet... 출간 2015.8.28. 도서 135,460원 Dense + Green 저자 Birkhauser 출간 2016.4.26. 도서 57,970원 Dense + Green 도서 56,160원 Simple Dense Fluids 저자 HL Frisch 출간 2013.11.7. e북 85,840원 Dense Phase Carbon Dioxide 저자 Murat O Bal... 출간 2014.3.26. e북 209,160원 Dense Phase Carbon Dioxide 저자 Murat O Bal... 출간 2014.4.1. Ultra-dense Networks 저자 Zhang Haiju... 출간 2020.9.30. 도서 153,940원 Dense Sphere Packings 저자 Thomas Hales 출간 2012.12.21. 도서 80,170원 Dense Z-Pinches 저자 Kusse 출간 2021.1.1. 도서 151,370원 더보기 (주)카카오는 상품판매의 당사자가 아닙니다.법적고지 안내 (주)카카오는 통신판매중개자로서 통신판매의 당사자가 아니며 상품의 주문 배송 및 환불 등과 관련한 의무와 책임은 각 판매자에게 있습니다.
holy-jjjae.tistory.com Statistics.holic [NLP] DPR: Dense Passage Retrieval for Open-Domain Question Answering Overview DPR이 위의 목적을 달성하기 위해서는, 우선적으로 passage를 low-dimensional and continuous space로 mapping해주는 encoder가 필요하다. 논문에서는 해당 encoder를 passage dense encoder $E_p()$라고 한다. $E_p()$는 passage의 정보를 잘 담고 있는 passage representation을 만들어낸다. 또한, 질문(question)도 representation으로 변환해야만 두 representation의 유사도를 측정하여 relevant top-k Training (Metric Learning) DPR을 학습시킨다는 것은, representation을 잘 만들어내는 encoder가 되게끔 학습을 시키는 것이다. 즉, 질문과 passage 쌍이 서로 관련 있으면 더 작은 거리를 가지고, 관련이 없으면 더 먼 거리를 가지는 representation을 산출하는 encoder로 만들어간다는 것인데, 이를 위한 목적 함수 (loss function) 은 다음과 같다. where D= {⟨q_i,p+_i, p-_1,n,…,p-_i,n⟩} : m개의 training dataset q_i : question p+_i : relevant Positive and negative passages 그런데, 이 수식을 보다 보면 질문에 대한 negative passage를 어떻게 정할지에 대해 의문이 들게 된다. 실제로 이는 그동안 많이 간과되어 온 부분이며, 논문에서는 이에 대한 여러 옵션을 제안하고 뒷부분에서 비교 실험을 진행하였다고 한다. 우선, 기본적으로 논문에서 제안하는 negative passage sampling 옵션은 아래의 3가지이다. Random : passage corpus로부터 무작위로 추출 BM25 : BM25를 사용하여 return 된 passage 중에서, 답을 포함하고 있진 않지만, 질문과 matc In-batch negatives 하나의 mini-batch 안에 $B$개의 question이 있다고 가정할 때, 각각의 question은 positive(relevant) passage를 가진다. 이때, Q와 P를 각각 (B x d) 차원의 Question embedding matrix, Passage embedding matrix라고 하면, S = QP^T는 (B x B) 차원의 Similarity score matrix가 된다. 이때, 각각의 question과 passage를 q_i, p_i라고 할 때, i=j 이면 positive (relevant) pass Wikipedia Data Pre-processing 우선, passage는 Wikipedia data를 기반으로 한다. (Dec. 20, 2018 버전의 Wikipedia dump를 기반으로 preprocessing을 진행하여 passage set을 구축) 저자들은 DrQA에서 사용한 pre-processing code를 사용하여 semi-structured data와 disambiguation page들을 제거했다고 한다. 이후, 100 words를 기준으로 passage를 구축하여 총 21,015,324개의 passage를 구축하였다고 한다. 각각의 passage들은 해당 pas Question Answering Dataset 저자들은 아래와 같은 dataset을 사용했다고 한다 Selection of positive passage 그런데, 여기에서 TREC, WebQuestions, TriviaQA dataset에는 passage가 주어지지 않고, 오로지 질문과 답만 주어지기에, 저자들은 BM25를 통해 positive passage labeling을 진행하였다. 질문과 구축한 Wikipedia passage에 대해 BM25를 적용시켜, 답을 포함하고 있는 highest-ranked passage를 positive passage로 labeling 하였다. 다만, 답을 포함하고 있는 passage가 나오지 않는 경우도 있는데, 저자들은 이러한 경우엔 top-1 Main Result 이에 대한 결과는 아래와 같다 SQuAD dataset을 제외한 모든 dataset에서 DPR이 BM25에 비해 더 좋은 성능을 내는 것을 확인할 수 있다. Multiple dataset으로 학습한 경우, TREC과 같이 작은 크기의 dataset에서 성능 향상의 효과가 나타나는 것을 확인할 수 있다. 그와는 반대로, NQ나 WebQuestion과 같이 보다 큰 크기의 dataset에서는 Single setting에 비해 성능이 하락하는 것을 확인할 수 있다. 또한, BM25와 DPR 혼합 setting의 경우, 몇몇 dataset Sample Efficiency 먼저, 저자들은 good passage retrieval performance를 얻기 위해 얼마나 많은 training example이 필요한지에 대한 실험을 진행하였다. 해당 실험의 결과는 아래와 같다 단지 1000개의 training example을 사용한 순간부터도 DPR이 BM25의 성능을 능가함을 확인할 수 있다. 이러한 결과는 작은 수의 question-passage pair로도 high-quality dense retriever를 학습시킬 수 있다는 점을 시사한다. 또한, training example을 추가할수록 성능 In-batch negative training 이어서, 저자들은 각각 다른 training schemes들에 대해서 NQ dataset의 development set으로 성능 측정 및 비교를 진행하였다. 해당 결과는 아래와 같다. 결과표를 보면, 3개의 block으로 나눠져 있음을 확인할 수 있다. 이는 다음과 같은 기준으로 분류되었다 상단 블럭 : standard 1-of-N training setting 가운데 블럭 : Gold with In-batch negative setting 하단 블럭 : Gold with In-batch negative setting + 1 or Cross-dataset generalization 저자들은 DPR이 학습된 dataset이 아닌, test dataset에서도 잘 작동하는지, 즉, 일반화 성능이 어떤지에 대해서도 실험을 진행하였다. 이를 위해 DPR을 NQ dataset으로 학습한 뒤 WebQuestion, CuratedTREC dataset에 대해 성능 측정을 하였다 해당 실험 결과, 해당 dataset으로 fine-tuned 된 DPR에 비해 top-20 retrieval accuracy에서 3~5 point정도 성능 하락이 있었다고 한다. WebQuestions : 75.0 → 69.9 CuratedTREC Qualitative Analysis 저자들은 BM25와 DPR이 retrieve 하는 passage의 성격 차이에 대해서도 이야기한다. BM25는 키워드에 더 민감하게 반응하고, DPR은 의미적 관계나 어휘적 변형을 더 잘 포착했다고 한다. 아래는 두 Retriever가 같은 질문에 대해 retrieve 한 passage의 예시이다. 첫 번째 행은 DPR이 더 잘 retrieve한 경우이고, 두 번째는 BM25가 더 잘 retrieve한 경우이다. 첫 번째 예시의 경우, BM25는 England나 Ireland와 같은 keyword에만 집중하여 잘못된 passage를 12 DPR이 위의 목적을 달성하기 위해서는, 우선적으로 passage를 low-dimensional and continuous space로 mapping해주는 encoder가 필요하다. 논문에서는 해당 encoder를 passage dense encoder $E_p()$라고 한다. $E_p()$는 passage의 정보를 잘 담고 있는 passage representation을 만들어낸다. 또한, 질문(question)도 representation으로 변환해야만 두 representation의 유사도를 측정하여 relevant top-k 2024.05.26 블로그 검색 더보기 myavatar.tistory.com 연구원 이씨 Dense Layer & Batch & Epoch 1. Dense Layer 1. 입력 데이터의 차원 확인 - 입력 데이터의 특징 수에 맞춰 설정합니다. - 예: 이미지 데이터의 경우 픽셀 수(28x28 = 784), 텍스트 데이터의 경우 임베딩 벡터의 크기(예: 300). 2. 파워 오브 2(Power of 2) 사용 - 유닛 수는 32, 64, 128, 256, 512, 1024 등 2의 제곱수로 설정하는 것이 일반적입니다. - 이는 메모리 효율성과 계산 효율성 면에서 유리합니다. - 첫 번째 Dense Layer에 128 또는 256을 설정하는 것이 일반적입니다. 3. 일반적인 설정 2. 예시 코드 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Dropout # 모델 초기화 model = Sequential() # 첫 번째 Dense Layer: 512 유닛 (예: 큰 데이터셋의 경우) model.add(Dense(512, activation='relu', input_shape=(input_dim,))) # Dropout 레이어 추가 (과적합 방지) model.add(Dropout(0.5)) # 두 번째 De 3. 바이어스 (Bias) - 특정 Dense Layer에서 바이어스를 제거하고 싶다면 `use_bias=False'로 설정할 수 있습니다. # 바이어스가 없는 Dense Layer 예시 model.add(Dense(512, activation='relu', use_bias=False, input_shape=(input_dim,))) 4. Train / Validation / Test 모델을 훈련할 때 검증(validation)을 사용하는 것은 매우 중요합니다. 검증 데이터를 사용하면 모델이 훈련 데이터에 과적합(overfitting)되지 않고 일반화할 수 있는지 평가할 수 있습니다. Keras와 같은 딥러닝 프레임워크에서는 쉽게 검증 데이터를 사용할 수 있는 기능을 제공합니다. Keras에서 검증 데이터를 사용하는 방법 1. 훈련과 검증 데이터를 분리2. `validation_split` 사용3. `validation_data` 사용일반적으로 데이터셋을 훈련(training), 검증(validation), 테스 5. Batch 배치 크기는 한 번의 훈련 반복(즉, 번의 가중치 업데이트) 에서 모델에 공급되는 데이터 샘플의 수를 의미합니다. 배치 크기가 32라는 것은 , 훈련 데이터셋에서 32개의 샘플을 한 번의 가중치 업데이트를 수행한다는 뜻입니다. 만약 배치크기를 줄인다면, 가중치를 자주 업데이트 하고 학습 과정이 더 세밀합니다. 이는 더 많은 계산과 시간이 걸립니다. 반면에 배치크기가 크다면 학습은 더 빠리지만 각 배치에서 많은 데이터 샘플을 처리하기 때문에, 더 큰 메모리가 필요합니다. 또한 각 배치가 전체 데이터셋의 대표성을 더 잘... 6. Epoch & Iterator 출처: https://mole-starseeker.tistory.com/59 3 1. 입력 데이터의 차원 확인 - 입력 데이터의 특징 수에 맞춰 설정합니다. - 예: 이미지 데이터의 경우 픽셀 수(28x28 = 784), 텍스트 데이터의 경우 임베딩 벡터의 크기(예: 300). 2. 파워 오브 2(Power of 2) 사용 - 유닛 수는 32, 64, 128, 256, 512, 1024 등 2의 제곱수로 설정하는 것이 일반적입니다. - 이는 메모리 효율성과 계산 효율성 면에서 유리합니다. - 첫 번째 Dense Layer에 128 또는 256을 설정하는 것이 일반적입니다. 3. 일반적인 설정 batch 머신러닝 Epoch 딥러닝 denselayer 2024.05.23 blog.igooo.org igooo Elasticsearch - Dense vector field type 5 특징 및 누락 데이터를 위한 추가 처리가 필요하다. Elasticsearch kNN 이미지 검색 기술 검토 kNN 검색을 위해서는 데이터를 의미있는 벡터값으로 변환하여 dense_vector 필드의 값으로 문서를 추가하고, 쿼리는 동일한 차원에 벡터를 사용하여 쿼리한다. (유사성 메트릭을 기반으로 벡처를 디자인한다.) 이미지 Vector... Vector Search KNN ElasticSearch 5시간전 jordano-jackson.tistory.com Jordano CLIPSelf (ICLR 2024 spotlight, open-vocabulary dense prediction) Abstract ICLR 2024 spotlight open-vocabulary dense prediction task open-vocabulary object detection, semantic segmentation, panoptic segmentation CLIP ViT의 문제 개선 추가 데이터 없이 local image region까지 aware하는 CLIPSelf 제안 https://github.com/wusize/CLIPSelf Motivation open-vocabulary approach에서는 CLIP based model을 사용한다. Fig. 1을 보면, ViT-based CLIP model이 image representation에는 강하지만, dense feature를 이용해서 region recognition에는 어려움을 겪는 것을 볼 수 있다. Fig. 1(c)에서 CLIP ViT는 K-Means visualization을 해 봤을 때, CNN based model보다 성능이 떨어진다. CNN model과 다르게 ViT는 inductive bias가 떨어지므로 이런 Methods Image Representation vs. Dense Representation CLIP's Image Representation ViT-based CLIP의 image representation은 residual attention block을 사용한다. Equation 1. 여기서 $x$는 last residual attention block의 input으로 $x_0$는 class embedding이고 $\{x_i|x\in 1,2,\dots,h×w\}$는 image embedding이다. $c$는 constant이고 $Proj$ Results Enhancement of Dense Representation by CLIPSelf Application to Open-Vocabulary Tasks open-vocabulary dense prediction task에 사용하였다. 기존 SOTA module들의 CLIP ViT를 CLIPSelf로 바꿨을 경우 성능이 향상되었다. Discussion References [1] Wu, S., Zhang, W., Xu, L., Jin, S., Li, X., Liu, W., & Loy, C. C. (2023). Clipself: Vision transformer distills itself for open-vocabulary dense prediction. arXiv preprint arXiv:2310.01403. 12 ICLR 2024 spotlight open-vocabulary dense prediction task open-vocabulary object detection, semantic segmentation, panoptic segmentation CLIP ViT의 문제 개선 추가 데이터 없이 local image region까지 aware하는 CLIPSelf 제안 https://github.com/wusize/CLIPSelf 2024.03.29 halsw131313.tistory.com 화앙 [PyTorch] Sequential API - tokenizer(), Sequential(), Dense() 1. 전처리(Preprocessing) > Tokenizer() : 토큰화 & 정수 인코딩을 위해 사용 - 토큰화 : 문장을 이루는 단위는 여러가지가 있을 수 있으며 여기서 문장을 다시 일정한 단위로 끊어 컴퓨터가 받아들이도록 하는 작업 - 영어의 경우 NLTK, 한국어의 경우 KoNLpy, ETRI OPEN API 등으로 토큰화를 진행한다 - corpus(말뭉치) : 토큰화하기에 앞서 여러 문장들로 된, 토큰화 할 하나의 큰 대상 - 가장 쉬운 토큰화 : 공백을 기반으로 한 토큰화. 띄어쓰기로 인해 생기는 공백으로 끊어 각각의 조각(토큰)을 사전으로 만드는 것 - 사전 2. 워드 임베딩 (Word Embedding) : 텍스트 내의 단어들을 밀집 벡터(dense vector)로 만드는 것 - 밀집 벡터(dense vector) = 임베딩 벡터(embedding vector) - 인공 시경망의 용어로는 워드 임베딩이란 임베딩 층(embedding layer)를 만드는 역할을 함 - 정수 인코딩이 된 단어들을 입력을 받아서 임베딩을 수행함 원핫 벡터는 단어 집합의 크기만큼 벡터의 차원을 가지고, 단어 벡터 간 유사도를 구할 수 없다는 단점이 있었다. 하지만 워드 임베딩으로 얻은 임베딩 벡터는 상대적으로 저차원을 가지고, 모든 원소의 값이 실수이다. 3. Modeling > Sequential() : tensorflow의 keras API에서 제공하는 모델 생성 방식 중 하나로, 인공 신경망의 레이어들을 순차적으로 쌓아서 신경망을 구성할 수 있게 해준다. 각 레이어는 이전 레이어의 출력을 입력으로 받아 처리하고, 그 결과를 다음 레이어로 전달하는 방식으로 작동한다. from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Activation model = Sequential() # 첫 번째 D 4. Compile & Training > compile() : 모델을 기계가 이해할 수 있도록 컴파일 - 임베딩층, 은닉층, 출력층을 추가해 모델을 설계한 후 마지막으로 컴파일을 함 아래의 코드는 RNN을 이용해 이진 분류를 하는 코드이다. from tensorflow.keras.layers import SimpleRNN, Embedding, Dense from tensorflow.keras.models import Sequential vocab_size = 10000 embedding_dim = 32 hidden_units = 32 model = Sequentia 5. 평가(Evaluation)와 예측(Prediction) > evaluate() : 테스트 데이터를 통해 학습한 모델에 대한 정확도 평가 > predict() : 임의의 입력에 대한 모델의 출력값 확인 6. 모델의 저장(Save) & 로드(Load) > save() : 인공 신경망 모델을 hdf5 파일에 저장 - hdf5 파일 : 대량의 과학적 데이터를 저장하기 위해 사용되는 파일 포맷 중 하나. > load_model() : 저장해둔 모델 불러오기 3 > Sequential() : tensorflow의 keras API에서 제공하는 모델 생성 방식 중 하나로, 인공 신경망의 레이어들을 순차적으로 쌓아서 신경망을 구성할 수 있게 해준다. 각 레이어는 이전 레이어의 출력을 입력으로 받아 처리하고, 그 결과를 다음 레이어로 전달하는 방식으로 작동한다. from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Activation model = Sequential() # 첫 번째 D 2024.03.21 gall.dcinside.com mini labmed small dense LDL-C small dense LDL 콜레스테롤은 말 그대로 LDL 콜레스테롤중에서도 크기가 작고 밀도가 높은 LDL 콜레스테롤을 의미한다. 높은 동맥 혈 관벽 투과율, LDL 수용체에 대한 낮은 결합력, 긴 혈장 반감기, oxidative... 2024.05.21 웹문서 검색 더보기 Dense Adapt Reference dense-audio-adapt-reference-headphone-adapter-review.11926/ Dense Audio Adapt Reference Headphone Adapter Review This is a review and detailed measurements of the Dense Audio Adapt Reference DAC... 27인치 4k가 딱 내눈엔 pixel dense가 적당하더라 32인치 8k가 대중화 되기만을 fhd쓰면서 존버한다 통합웹 더보기
서비스 안내 스토리의 글을 대상으로 검색결과를 제공합니다. 자세히보기 story.kakao.com 찌니사랑 찌니사랑 - 카카오스토리 3 song, I don t think I can fit it all into one song Or maybe another verse or chorus can be the LP bar Songwriting isn t very clear, it s like walking through a dense fog You re my muse, apparently 2024.04.08 카카오스토리 검색 더보기
dense의 개발 일기 dense.tistory.com/ 티스토리 안녕하세요! 개발자 dense입니다. 수쇄 brunch.co.kr/@mintlipbalm 브런치스토리 Under the dense, resplendent stars, I was very anxious but happy. Dense Discovery www.densediscovery.com/ 웹수집 An unmissable weekly collection of carefully curated links worth your time. No buzzwords, hype or... 사이트 더보기
서비스 안내 Melon Company가 운영하는 음악 서비스입니다. 다른 사이트 더보기 Black Surface Reflections Dense 앨범 Phoenicopter 2024.03.29. Coil Dense 외 2명 앨범 Crispy Duck... 2023.11.01. Colt Dense 외 2명 앨범 Colt EP 2023.10.11. Watching The Ganges River Zero Cult 외 2명 앨범 Watching Th... 2022.01.07. Klank Dense 외 2명 앨범 Klank EP 2023.11.01. Bad Ink Dense 외 2명 앨범 Klank EP 2023.11.01. Refraction Power (Feat. Spinney Lainey) Dense 앨범 Eyemagination 2023.08.31. Prospectors Dense 앨범 Mindcycles,... 2016.04.07. Charlottenburg Dense 앨범 Bellwether 2018.03.15. Slowhand Dense 외 2명 앨범 Klank EP 2023.11.01. Spelunker Dense 앨범 Twinkle 2016.05.19. Discoverance Moonkin 외 2명 앨범 Wave Soaring 2020.04.20. Crispy Duck Dense 외 2명 앨범 Crispy Duck... 2023.11.01. Cryogenetic Metamorphosis GMO 외 2명 앨범 Biosynaptic... 2021.04.21. Incense Smoker Dense 앨범 Eyemagination 2023.08.31. Greyhound Dense 외 2명 앨범 Greyhound 2023.07.19. No Data Dense 외 2명 앨범 Restless Fr... 2019.09.18. Summer Dub Dense 외 2명 앨범 Restless Fr... 2020.02.28. King's Calling Dense 앨범 The King 2021.09.15. Feel (Hardcore Buddhist Remix) Dense 앨범 A Concept, ... 2021.02.15. 더보기