검색 본문
namu.wiki 기계학습 - 나무위키 확률론/베이지언 통계학을 배워야 한다. 수리통계학: 가설검정, 회귀분석, 여러 가지 확률 분포들이 머신러닝 기법에 등장한다. 이를 개념적으로 아는 것뿐만 아니라 직접 수리적으로 다룰 수 있어야 한다... 개요 상세 관련과목 프로그래밍 언어 정의 알고리즘 응용 학문 대학, 취업, 창업에서의 기계학습 2024.05.09 웹문서 검색 더보기 머신러닝 기반 스마트 크루즈 컨트롤 - 나무위키 경북대학교/대학원/데이터사이언스대학원 - 나무위키 upnomore.tistory.com 영차영차.. Ch2. 사이킷런으로 시작하는 머신러닝 01 사이킷런 소개와 특징 사이킷런(scikit-learn): 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리 파이썬 기반의 다른 머신러닝 패키지 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API를 제공한다 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리이다. 03 사이킷런의 기반 프레임워크 익히기 Estimator 이해 및 fit(), predict() 메서드 사이킷런은 ML 모델 학습을 위해 fit()을, 학습된 모델의 예측을 위해 predict() 메서드를 제공한다. 사이킷런은 분류 알고리즘을 구현한 클래스를 Classifier로, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭한다. Classifier와 Regressor를 합쳐서 지도학습의 모든 알고리즘을 구현한 클래스를 통칭하여 Estimator 클래스라고 부른다. 사이킷런에서 비지도학습인 차원 축소, 클러스터링, 피처 추출 등을 구현한 클래스 역시 대부분 04 Model Selection 모듈 소개 학습/테스트 데이터 세트 분리 - train_test_split() 테스트 데이터 세트를 이용하지 않고 학습과 예측을 동일한 데이터 세트로 수행한 결과다. 예측 결과가 100% 정확한 이유는 이미 학습한 학습 데이터 세트를 기반으로 예측했기 때문이다. 따라서 예측을 수행하는 데이터 세트는 학습을 수행한 테스트 데이터 세트여야한다. train_test_split()의 선택적 파라미터 test_size 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인지 정한다. 디폴트는 0.25 train_size 전체 데이터에서 05 데이터 전처리 결손값, 즉 NaN, Null 값은 허용되지 않는다. 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력값으로 허용하지 않는다. 데이터 인코딩 머신러닝을 위한 대표적인 인코딩 방식은 레이블 인코딩과 원-핫 인코딩이 있다. 레이블 인코딩: 카테고리 피처를 코드형 숫자 값으로 변환하는 것이다. 사이킷런의 레이블 인코딩은 LabelEncoder를 객체로 생성해 fit()과 transform()을 호출해 수행한다. fit()을 이용해 숫자 값으로 변환한다. 문자열 값이 어떤 숫자 값으로 인코딩 됐는지 확인하기 위해 LabelEncoder 객체 06 사이킷런으로 수행하는 타이타닉 생존자 예측 필요한 라이브러리를 임포트 하고 탑승자 파일을 데이터프레임으로 로딩한다. 데이터프레임의 info() 메서드를 통해 로딩 데이터 칼럼 타입 확인이 가능하다. 머신러닝 알고리즘은 Null 값을 허용하지 않으므로 fillna() 함수를 사용해 Null 값을 평균 또는 고정값으로 변경한다. Age의 경우 평균 나이, 나머지 칼럼은 N 값으로 변경한 후에 Null 값이 있는지 확인한다. 남아있는 문자열 피처에 대해 확인한다. Cabin의 경우 선실 번호 중 선실 등급을 나타내는 첫 번째 알파벳이 중요해보인다. 앞 문자만 추출한다. 성별이 생 42 사이킷런(scikit-learn): 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리 파이썬 기반의 다른 머신러닝 패키지 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API를 제공한다 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리이다. 2024.05.06 블로그 검색 더보기 Ch1. 파이썬 기반의 머신러닝과 생태계 이해 kingle1024.tistory.com 엄지월드 [1차시] 머신러닝 기초 개념 / Google Colab 소개 24 인공지능(Artificial Intelligence) : 컴퓨터가 인간과 같이 생각할 수 있도록 만드는 기법을 연구하는 학문 머신러닝(Machine Learning) : 데이터에 기반한 학습을 통해 인공지능을 구현하는 기법들을 지칭. 딥러닝(Deep Learning) : 머신러닝 기법 중 하나인 인공신경망(Artificial Neural Networks) 기법의 은닉층... 2024.05.09 jaehyeong.tistory.com 재형이의 성장통 일지 머신 러닝 시스템 아키텍쳐 설계 ML pipeline Data Ingestion과 Data Analysis(EDA)는 Data Mesh 아키텍쳐와 비슷하다 https://jaehyeong.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%8B%9C%EC%8A%A4%ED%85%9C-%EC%84%A4%EA%B3%84-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%A7%A4%EC%89%AC 빅데이터 시스템 아키텍쳐 설계 (데이터 매쉬) 데이터 분석을 해서 insight를 얻으려는 이유? → 돈을 벌기 위해서 Data Anal Training TPUs are fast, inexpensive, and designed to scale Model Evaluation 이전 모델과 비교 AI의 원칙 중 하나가 왜 이런 결과가 나왔는지를 설명할 수 있어야 한다는 것이 있다 예를 들어 쿠팡에서 어떤 상품이 잘 팔릴지 예측하는 모델을 만들었다고 할 때, A 상품이 잘 팔릴 것이라고 예측을 했다. 그리고 이걸 보고를 한다고 할 때, 상대는 듣고 A 상품이 왜 잘팔리는지 분명히 물어볼 것이다. 왜냐하면 그거에 맞게 마케팅 전략을 짜야하니까. 그래서 설명할 수 있어야 한다. 여러가지 기법이 있는데 그 중에서 Feature Attribution 이라는 기법을 많이 사용한다. 결과가 도출되는데 어떤 컬럼이 가장 Deployment 아무리 accuracy가 잘 나온다고 하더라도 실서비스에 올라가기 위해서는 responsible과 경제성이 뒷받침이 되어야 한다 예를 들어 모델을 정말 잘 만들었고 성능이 1QPS(1초에 하나 serving)이고 장비는 A100 gpu를 사용한다고 가정해보자 가격 ㅎㄷㄷ 만약에 동시에 100명에게 서비스를 제공하려면? 35,700,000 X 100 = 3,570,000,000 gpu 값만 36억이 들어간다. 경제성이 떨어진다 그래서 모델을 축소시키는 기법을 사용하기도 한다 모델의 정확도가 90% 정도인데 경제성이 떨어지면 모델을 축 MLOps 지금까지 기본적인 ML 파이프라인이었다 하지만 여기에 더 추가적인 프로세스를 추가할 수 있다 Data ingestion 단계에서 필요한 것은 원하는 때에 필요로 하는 사람이 필요한 데이터를 가져올 수 있게 해주어야 한다 → Data Catalog 데이터들을 다 등록해두고 Search해서 찾을 수 있게 해줌. 그리고 Access Control 기능이 지원되야 한다. (PII 정보 같은건 training하는데 별로 필요 없는 정보이니까 막아야 함) 필요한 데이터를 찾아서 전처리하고 featuring을 끝낸 후에 나온 정제된 데이터를 나 참고) 데이터 라벨링 그냥 전문 업체를 사용하자. 너무 노가다임 클라우드웍스 https://www.crowdworks.ai/ko/ AI에 필요한 모든 데이터 솔루션ㅣ크라우드웍스 크라우드웍스는 데이터 중심의 인공지능 기술을 통해 사람과 인공지능이 함께 성장하는 새로운 미래를 만들어갑니다. www.crowdworks.ai 아니면 머신러닝 모델을 이용해서 라벨링하는 방법도 있다. 예를 들어 ChatGPT 같은 걸 이용해서 text를 classfication 해서 라벨링하는 방법이 있다. 배달앱을 운영 중인데 댓글을 카테고리화하고 모델을 만들고 싶은 경우에 C 24 그냥 전문 업체를 사용하자. 너무 노가다임 클라우드웍스 https://www.crowdworks.ai/ko/ AI에 필요한 모든 데이터 솔루션ㅣ크라우드웍스 크라우드웍스는 데이터 중심의 인공지능 기술을 통해 사람과 인공지능이 함께 성장하는 새로운 미래를 만들어갑니다. www.crowdworks.ai 아니면 머신러닝 모델을 이용해서 라벨링하는 방법도 있다. 예를 들어 ChatGPT 같은 걸 이용해서 text를 classfication 해서 라벨링하는 방법이 있다. 배달앱을 운영 중인데 댓글을 카테고리화하고 모델을 만들고 싶은 경우에 C 공부 설계 AI LLM 머신러닝 아키텍쳐 MLOps 2024.04.08 taekyounglee1224.tistory.com TaeKyoung's DataDive [머신러닝] 앙상블 (Ensemble) 앙상블이란? 앙상블 기법이란 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 더 좋은 최종 예측을 도출하는 기법을 말한다. 앙상블 학습의 목표는 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 예측 신뢰성을 높이는 것이다. 1. Voting 앙상블 기법에는 여러 가지 알고리즘이 있는데, 우선 보팅(Voting) 알고리즘부터 살펴보자. 보팅이란 서로 다른 알고리즘을 가진 분류기가 동일한 데이터셋을 가지고 각자 예측을 수행하여 최종 결과를 결정하는 방식이다. 이때, 각 분류기가 예측한 결과를 가지고 '투표' 방식으로 최종 결과를 결정하기 때문에 Voting이라고 불린다. 이 투표 방식에는 두 가지 방식이 있는데, Hard Voting과 Soft Voting이 있다. 1.1. Hard Voting Hard Voting이란 다수의 분류기가 예측한 결과값 자체를 최종 결과값으로 2. Bagging 배깅 (Bootstrap Aggregating)이란 서로 같은 알고리즘을 가진 분류기가 서로 다른 데이터 샘플링을 이용해 최종 결과를 도출하는 방식이다. from sklearn.svm import SVC from sklearn.ensemble import BaggingClassifier from sklearn.datasets import make_classification X,y = make_classification(n_samples = 100, n_features = 4, n_informative = 2, n_redundant 3. Boosting Boosting이란 여러 개의 약한 모델을 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치를 부여해 오류를 개선해 나아가는 방식이다. 3.1. AdaBoost 1. 첫번째 약한 학습기가 첫번째 분류기준(D1)으로 분류 2. 잘못 분류된 것들에 대해 가중치 부여 3. 두번째 약한 학습기가 두번째 분류기준(D2)으로 분류 4. 잘못 분류된 것들에 다시 가중치 부여 이 과정을 n번 반복하고 더 이상 가중치가 갱신이 안 될 때 까지 학습 [예제 코드] from sklearn.ensemble import AdaBoostClasifie 참고문헌 파이썬 머신러닝 완벽 가이드" target="_blank" rel="noopener" data-mce-href="http://파이썬 머신러닝 완벽 가이드">http://파이썬 머신러닝 완벽 가이드 파이썬 머신러닝 완벽 가이드 - 예스24 자세한 이론 설명과 파이썬 실습을 통해 머신러닝을 완벽하게 배울 수 있다!『파이썬 머신러닝 완벽 가이드』는 이론 위주의 머신러닝 책에서 탈피해, 다양한 실전 예제를 직접 구현해 보면서 www.yes24.com [앙상블 실습 코드] 앙상블" target="_blank" rel="noopener" da 6 파이썬 머신러닝 완벽 가이드" target="_blank" rel="noopener" data-mce-href="http://파이썬 머신러닝 완벽 가이드">http://파이썬 머신러닝 완벽 가이드 파이썬 머신러닝 완벽 가이드 - 예스24 자세한 이론 설명과 파이썬 실습을 통해 머신러닝을 완벽하게 배울 수 있다!『파이썬 머신러닝 완벽 가이드』는 이론 위주의 머신러닝 책에서 탈피해, 다양한 실전 예제를 직접 구현해 보면서 www.yes24.com [앙상블 실습 코드] 앙상블" target="_blank" rel="noopener" da Boosting 앙상블 보팅 부스팅 VOTING GBM bagging 랜덤 포레스트 배깅 XGBoost 2024.04.29 [머신러닝] 평가지표(Evaluation) [머신러닝] 분류 (Classification) 통합웹 더보기
서비스 안내 스토리의 글을 대상으로 검색결과를 제공합니다. 자세히보기 guhonga.tistory.com 학교공부일기장 Scikit-learn과 머신러닝 모델의 성능문제 16 오픈소스 프로젝트 교수님이 gpt에서 embedding을 어떻게 더 활용할 수 있을지 가르쳐 주셨다. 그런데 하필 ai학과 교수님이시라 머신러닝 개념이 주가 됐다. 맛보기일 뿐이지만 한번 알아보자.. Machine Learning에서 데이터를 분류하는 방법 Machine Learning with Scikit-learn 으로 embedding을 어떻게 활용할 수... 2024.05.09 티스토리 검색 더보기 story.kakao.com 구미시청 구미시청 - 카카오스토리 2 수업장소 : 구미어린이과학체험관 잼랩(양포도서관 내) 수업내용 - AI에 대한 이해력 제고와 빅데이터 머신러닝 활용 방법에 대한 이해 - 오렌지 프로그램을 이용해 빅데이터 활용법을 익히고 사회 현상이나 문제... 2024.05.02 카카오스토리 검색 더보기
서비스 안내 Kakao가 운영하는 책 서비스 입니다. 다른 사이트 더보기 핸즈온 머신러닝 저자 오렐리앙 제롱 출간 2018.4.27. 도서 29,700원 혼자 공부하는 머신러닝+딥러닝 저자 박해선 출간 2020.12.21. 도서 23,400원 e북 18,720원 머신 러닝 저자 피터 플래치 출간 2016.1.27. 도서 29,700원 파이썬 머신러닝 완벽 가이드(데이터 사이언스 시리즈 31) 저자 권철민 출간 2019.2.28. 도서 34,200원 머신 러닝(Machine Learning) 저자 케빈 머피 출간 2015.8.31. 도서 54,000원 어서와~ 머신러닝은 처음이지?(내꺼하자! 머신러닝!) 저자 양지헌 출간 2016.12.21. 도서 26,100원 25시간만에 배우는 머신러닝 예제: MATLAB 활용 저자 김준석 외 출간 2017.9.1. 도서 15,000원 머신러닝 저자 아라키 마사히로 출간 2019.5.22. 도서 13,500원 파이썬을 이용한 통계적 머신러닝 저자 박유성 출간 2020.2.20. 도서 28,130원 머신러닝(2학기, 워크북포함) 저자 이관용, 박혜영 출간 2022.7.25. 도서 21,200원 e북 16,200원 더보기 (주)카카오는 상품판매의 당사자가 아닙니다.법적고지 안내 (주)카카오는 통신판매중개자로서 통신판매의 당사자가 아니며 상품의 주문 배송 및 환불 등과 관련한 의무와 책임은 각 판매자에게 있습니다.
AI타임스 www.aitimes.com/ 인공지능 미디어, AI, IOT, 로봇, 딥러닝, 머신러닝, 빅데이터. 전화고객센터: 02-2655-2663 채널 장소 파이썬 머신러닝 pypjct.tistory.com/ 신청자 작성 티스토리 파이썬,머신러닝,텍스트마이닝,크롤링. 코드스쿼드 codesquad.kr/ 개발자, 머신러닝, 웹, 모바일개발 교육 프로그램 제공. 채널 사이트 더보기
서비스 안내 Melon Company가 운영하는 음악 서비스입니다. 다른 사이트 더보기 러닝머신 kumira 앨범 눈물 가득한 음악 집 2021.11.27. 러닝머신 (Feat. Soulman) 키비 앨범 Lost & Found 2013.12.13. Year Of The Boomerang Rage Against The Machine 앨범 하이어 러닝 OST 1994. 러닝머신 운동하기 좋은 날 (Good day to move) 앨범 재즈와 운동하기 좋은... 2017.11.17.
정보제공