검색 본문
cherylog.tistory.com SheryLog [한글 깨짐 현상] 한글 인코딩 방식 utf-8, cp949, euc-kr 차이 인코딩(encoding)이란? 인간이 사용하는 텍스트를 기계(컴퓨터)가 이해하는 언어(= 숫자, '0101000001011..')로 표현하는 것 예: 대문자 A = 65, 소문자 a = 97 인간이 사용하는 텍스트('A')를 숫자(65)로 바꿔야 기계가 알아듣는다 ASCII 테이블 미국에서 만든 최초의 문자열 인코딩 방법 utf-8, cp949, euc-kr의 차이 euc-kr extended unix code - korea '확장 유닉스 코드 - 한국' 한글을 표현할 때 사용하는 인코딩 방식 euc (extended unix code; 확장 유닉스 코드)유닉스 코드 체계에서 주로 한국어, 중국어, 일본어를 표현중국어 간체는 EUC-CN, 일본어 EUC-JP, 한국어는 EUC-KR 사용 전체 한글 문자 갯수(11176개) 중 자주 쓰는 2350개를 사전 순으로 배열 (약 8천 개가 빠져있는 셈) '완성형' 방식 - 초성, 중성, 종성을 조합해서 만드는 게 아니라 이미 완성된 글자를 가져옴 => 추가 정보 운영체제별로 사용하는 인코딩 방식이 다름마이크로소프트(윈도우)는 cp949맥과 리눅스는 utf-8 참고 자료 [TIL] 멋사 ai 스쿨 Day 7 - 한글 인코딩 방식 cp949 vs euc-kr 차이와 UTF-8 멋쟁이 사자처럼 AI스쿨 7일차 : 한글 인코딩 방식 euc-kr, cp949 , utf-8 이해하기 EUC-KR Extend... blog.naver.com [한글 인코딩(UTF8, CP949)]인코딩이 뭐야? 이건 무슨 에러인거야? 문제상황 yololife-sy.medium.com 문자 인코딩(encoding)/디코딩(decoding) - 유니코드(Unicode), UTF-8, EUC-KR, CP949 비교 설명 본 포스팅에 2 인간이 사용하는 텍스트를 기계(컴퓨터)가 이해하는 언어(= 숫자, '0101000001011..')로 표현하는 것 예: 대문자 A = 65, 소문자 a = 97 인간이 사용하는 텍스트('A')를 숫자(65)로 바꿔야 기계가 알아듣는다 ASCII 테이블 미국에서 만든 최초의 문자열 인코딩 방법 파이썬 인코딩 크롤링 한글깨짐 UTF-8 EUC-KR cp949 csv파일 2024.05.14 블로그 검색 더보기 doocong22.tistory.com 두콩이의 코딩일기 [ML] 원-핫 인코딩(One-Hot Encoding) 3 이번 챕터에서는 범주형 데이터를 처리할 때 레이블을 표현하는 방법인 원-핫 인코딩에 대해서 배워봅시다. 1. 원-핫 인코딩(One-hot encoding)이란? 원-핫 인코딩은 선택해야 하는 선택지의 개수만큼의 차원을 가지면서, 각 선택지의 인덱스에 해당하는 원소에는 1, 나머지 원소는 0의 값을 가지도록 하는 표현 방법... Encoding ML 원핫인코딩 One-Hot 2024.04.05 blog.naver.com ATOZ ok! 라인인코딩 블록인코딩 스크램블링 18 신호를 인식해 내기 어렵게 만든다. 따라서 디지털 전송 데이터는 0과 1이 연속되지 않도록 사전 처리하는 과정이 필요하다. 2. 라인 인코딩 라인 인코딩(Line encoding)이란 우리말로 회선 부호화라고 해석할 수 있으며, 어떤 정보를 상대방에게 전달하기 위해 0과 1로 구성된 이진 디지털 데이터를 전기적인 신호로... 2024.05.23 dntmdgns03.tistory.com 스우스우 인코딩과 디코딩 ▶ 아스키 코드 아스키 코드는 미국 표준 코드로 문자를 숫자로 변환하는 코드입니다. 아스키 문자 1개는 1바이트 크기로, 7비트로 문자를 표현하고 1비트는 오류 체크를 위해 사용합니다. 즉, 2^7 = 128 개의 문자 표현이 가능합니다. 아스키 코드는 제어문자, 가시문자로 이루어져 있습니다. ▶ 유니코드 아스키 코드의 제한적인 표현 범위 때문에 유니코드가 등장했습니다. 전세계 모든 언어의 문자에 고유한 번호를 부여하는 국제 표준 코드입니다. 최대 32비트로 문자 1개를 표현합니다. UTF-8, UTF-16, UTF-32 등 다양한 인코딩 방식이 존재하고 UTF 뒤의 숫자는 비트를 의미합니다. ▶ URL 인코딩 (퍼센트 인코딩) 웹에서 사용되는 URL을 인코딩하기 위해서 사용하는 방식입니다. URL은 특정한 형식의 문자열만 허용합니다. ( 알파벳 대소문자, 숫자, 일부 특수문자 ) URL 인코딩은 문자열을 인터넷으로 전송 가능한 형식으로 변환합니다. 보통 허용되지 않는 문자는 밑과 같습니다. :/#[]@!$`()*+,;=%공백 URL 인코딩은 %기호 뒤에 문자의 아스키 코드 16진수 값을 붙여 나타냅니다. ▶ base64 인코딩 base64 인코딩은 이진 데이터를 아스키 문자로 구성된 텍스트로 변환합니다. 64개의 아스키 문자가 인코딩에 사용되어서 이러한 이름이 붙여졌습니다. ( 알파벳 대소문자 52개 + 숫자 10개 + , "+", "/" ) base64는 이진 데이터를 그대로 포함할 수 없이 텍스트만 허용되는 환경에서 이진 데이터를 텍스트 형식으로 나타내기 위해 사용됩니다. → 인코딩 방식 1. 이진 데이터를 비트 나열로 표시, 6비트 씩 끊어서 묶기. 6의 배수가 아니면 0을 추가하여 6의 배수로 만듦 2. 각 6비트 묶음을 수로 변환하고 치환 3. 아스키 코드의 제한적인 표현 범위 때문에 유니코드가 등장했습니다. 전세계 모든 언어의 문자에 고유한 번호를 부여하는 국제 표준 코드입니다. 최대 32비트로 문자 1개를 표현합니다. UTF-8, UTF-16, UTF-32 등 다양한 인코딩 방식이 존재하고 UTF 뒤의 숫자는 비트를 의미합니다. 인코딩 base64 아스키 ascii 디코딩 utf 2024.04.02 sssungsik.tistory.com 최성식 개발사무소 [Eclipse] 이클립스 UTF-8 인코딩 설정 1. 이클립스(Eclipse)에서 UTF-8 설정 방법 이클립스를 실행하고 상단의 Windows → Preference를 클릭합니다. 좌측 상단의 검색창에 encoding을 입력하면 관련 메뉴들이 나타납니다. 먼저 Content Types을 선택해서 Java Class File과 Text를 각각 선택해서 하단의 Default encoding 입력란에 UTF-8을 입력하고 Update 버튼을 클릭합니다. 두 번째로 Workspace를 선택하고 Other를 UTF-8로 변경하고 Apply(적용)을 클릭합니다. 세 번째로 CSS Files, HTML Files, JSP Files, XML F 2. 프로젝트(Project) UTF-8 설정 방법 이미 생성된 프로젝트의 한글이 깨지는 현상이 발생할 경우 다음과 같이 인코딩을 설정하면 됩니다. 인코딩 설정할 프로젝트를 선택한 뒤 Alt + Enter 또는 마우스 우클릭 → Properties를 클릭합니다. Resource를 선택해서 Other를 UTF-8로 변경하면 됩니다. 3. 개별 파일 UTF-8 설정 방법 개별 파일도 프로젝트와 동일합니다. 인코딩 설정할 파일을 선택한 후 Alt + Enter 또는 마우스 우클릭 → Properties를 클릭합니다. Resource를 선택해서 Other를 UTF-8로 변경하면 됩니다. 10 이미 생성된 프로젝트의 한글이 깨지는 현상이 발생할 경우 다음과 같이 인코딩을 설정하면 됩니다. 인코딩 설정할 프로젝트를 선택한 뒤 Alt + Enter 또는 마우스 우클릭 → Properties를 클릭합니다. Resource를 선택해서 Other를 UTF-8로 변경하면 됩니다. 2024.03.13 seokhee123.tistory.com 서키의 블로그 [NLP]원-핫 인코딩(One-Hot Encoding) 7 정수인코딩이라고 하는데, 각 단어의 인덱스를 부여하는 것입니다. 예시) 1 = hello, 2 = teach, 3 = teacher, 4 = teaches, 5 = cat 1. 원-핫 인코딩(One-Hot Encoding)이란? 방금 번호를 부여한 단어를 벡터로 다루려고 합니다. 원-핫 인코딩은 단어 집합의 크기를 벡터 차원으로 둡니다. 표현하고 싶은 단어의 인덱스... 2024.04.12 통합웹 더보기
서비스 안내 스토리의 글을 대상으로 검색결과를 제공합니다. 자세히보기 알바트로스 IT 분야 크리에이터 컴퓨터는 어떻게 인간의 언어를 인식할까?(2) - 카운트 기반 단어표현이란? 4 배웠습니다. 그중 언어를 0과 1의 이진수의 행렬로 표현하는 기법을 '원핫 인코딩(one-hot encoding)이라고 한다는 것도 배웠지요. 원핫 인코딩을 통해 단어와...이번시간에 배울 카운트 기반 단어표현(count-based word representation) 이란 글의 문맥 안에 특정 단어가 동시에 등장하는 빈도수를 세어 수치화하는... 챗GPT 인공지능 문서 2024.01.06 브런치스토리 검색 더보기 sugook.tistory.com 꾹꾹 [Tensorflow] [RNN] [두 번째 이야기] 원 핫 인코딩(one_hot_encoding 이란?) 원 핫 인코딩(one_hot_encoding 이란?) 원 - 핫 인코딩은 단어집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식. 두가지 과정으로 정리 1) 정수 인코딩 수행 - 각 단어에 고유한 정수를 부여 2) 표현하고 싶은 단어의 고유한 정수를... 2024.01.15 티스토리 검색 더보기 story.kakao.com 손영준 손영준 - 카카오스토리 면역 체계는 훈련을 받고 있다. 새로운 정보를 인코딩하고 있다. 그것은 신체가 미래에 더 건강하기 위해...되어 있다. 그러나 사악한 흑수들은 '백신'이란 이름으로 면역체계를 파괴하고 있는 중이다. 조만간... 2021.12.31 카카오스토리 검색 더보기 IT 크리에이터 보기