검색 본문
aigaeddo.tistory.com 이게또오류 [Tensorflow] 7. 훈련 데이터, 평가 데이터 나눠주기 하루하루 배운 내용을 복기해서 포스팅 하고 있습니다. 저번 포스팅에 이어 데이터 2탄입니다. 저번엔 x의 aigaeddo.tistory.com 이번에는 데이터를 훈련데이터와 평가데이터로 쪼개보겠습니다. 1. 나눠주는 이유 통 데이터를 훈련, 평가 데이터로 나눠주는 이유가 무엇일까요?? 모델의 훈련 측면에서 봤을땐 전체... 2024.01.03 블로그 검색 더보기 gall.dcinside.com mgallery furry 무야 데이터 나눠주기 왜 LTE랑 3G만 되는거야 왜 5G는 못해 2024.04.02 웹문서 검색 더보기 어제 아이패드 받았는데 왜 데이터나눠주기가 안되지 이번에 누나가 자급제사서 알뜰 옮기고싶다는데 어떻게 함 sudadot.com skt 데이터 나눠주기 어떻게 하나요? 남겨주세요. 질문내용스마트폰 정보 (모델명)아이폰5통신사skt질문 한 줄 요약(간단히)핸드폰간 데이터 나눠주기 어떻게하나요? 자세한 내용저희아버지께서 제동생(갤럭시s3)한테 데이터를 나눠주고 싶은데 방법... 2023.04.01 khu-code.tistory.com CODE [삼위일체(3조)] 프로젝트로 배우는 데이터 사이언스 2 필요한 라이브러리 로드 >pandas as pd로 데이터셋 불러오기 >파이썬에서 대표적으로 사용할 수 있는 대표적인 수치 계산용 numpy library 로드하기 >sns로 seaborn을 로드 >matplot.pyplot 로드 *구버전 주피터 노트북에서는 시각화가 표현이 안 되는 경우가 많기 때문에 matplotlib inime 이 필요하다. *새로운 버전에서는 필요하지 않다. 3 데이터셋 로드 데이터셋은 주피터노트북고 같은 경로에 두어야 관리하는 것이 어렵지 않고 불러올 때 경로 설정하기가 좋은 편이다. 같은 경로에 저장하는 것을 권장한다. df로 변수 저장 후, shape으로 데이터 개수를 보았다. 768개 행과 9개 열로 되어있는 것을 볼 수 있다. head를 사용해 데이터를 미리 확인해보았다. 여기서 outcome은 우리가 예측해야 될 데이터이다. 보통 데이터셋을 가져오면 문자나 결측치가 섞여있을 경우 전처리가 필요한데, 불러온 데이터는 모두 숫자로 되어 있어서 따로 전처리를 해줄 필요가 없다. 그래서 우리는 바로 4 학습, 예측 데이터셋 나누기 이제 데이터를 학습할 데이터와 예측할 데이터로 나눠주어야 한다. > shape을 이용해서 768개의 행을 확인하고, 튜플 형태로 행과 열의 개수를 출력한다. > 0번째 값은 행의 값만을 가져오게 된다. 행의 값에서 0.8을 곱하면 614.4000이라는 값이 나오는데, 소수점을 제외하기 위해서 int를 사용할 것이다. int로 인해 614라는 정수의 값으로 값이 나오게 된다. 이렇게 나온 값을 split count라는 변수에 담아준다. > train과 test데이터셋을 나눠줄 때, 614번째의 행을 기준으로 나누어준다. > df를 통 5 학습, 예측에 사용될 컬럼 이제 학습, 예측에 사용할 컬럼명을 담아주도록 하겠다. > train_columns를 이용해서 모든 column의 명을 보았다. > 이 열에서는 outcome을 제외한 모든 열을 정답값으로 사용할 것이기 때문에, 리스트 슬라이싱을 통해 outcome만 제외하여 데이터를 가져와보았다. 또한 리스트의 형태로 바꾸고 싶을 때는 tolist()라는 것을 이용해 리스트 타입의 형태로 데이터를 바꿀 수 있다. 이 데이터를 feature names라는 변수에 담는다. > feature names에는 학습과 예측에 사용될 데이터들을 6 정답값이자 예측해야 될 값 정답값이자 예측해야 될 값을 넣어주었다. train.columns를 이용해 데이터를 본 후, outcome값을 따로 가지고 올 것이다. outcome만 따로 뺀 값을 label_name에 담아준다. **여기서 잠깐** feature_name은 리스트 형태로 만들었는데, label_name은 리스트 형태가 아니냐고 묻는 질문이 있다. 그 이유는 feature_name에는 여러 개의 값을 가지고 올 것이기 때문에 list 형태로 만들어주었고, label_name은 outcome 하나만 사용할 것이기 때문에 string 형태로 변수에 지 7 학습, 예측 데이터셋 만들기 > train에는 outcome(예측을 해야 하는 정답값)까지 들어있다. > feature names라고 위에서 만들었던 col을 train에 지정해주면 이에 해당되는 컬럼을 가져오게 된다. X_train이라는 변수에 담아보았다. > .shape을 찍어보면 614개의 행과 8개의 열로 이루어져있다는 것을 알 수 있었다. head로 미리 데이터를 확인해보았다. > pregnancies부터 age까지 있는 것을 볼 수 있었다. 이제는 정답값을 만들어줄 차례이다. > 정답값을 만들어줄 텐데 정답은 기출 문제의 정답 label_name에 52 이제 데이터를 학습할 데이터와 예측할 데이터로 나눠주어야 한다. > shape을 이용해서 768개의 행을 확인하고, 튜플 형태로 행과 열의 개수를 출력한다. > 0번째 값은 행의 값만을 가져오게 된다. 행의 값에서 0.8을 곱하면 614.4000이라는 값이 나오는데, 소수점을 제외하기 위해서 int를 사용할 것이다. int로 인해 614라는 정수의 값으로 값이 나오게 된다. 이렇게 나온 값을 split count라는 변수에 담아준다. > train과 test데이터셋을 나눠줄 때, 614번째의 행을 기준으로 나누어준다. > df를 통 2024.03.11 clien.net board kin LG Uplus 5G 요금제 사용시 LTE 쓰는 지인에게 데이터 나눠주기 가능한가요? : 클리앙 지금은 부부가 둘 다 LTE인데, 저만 5G로 바꾸면 여전히 데이터 나눠주기가 가능한지 궁금하네요. 가족으로 묶여 있으면 4회 주고 받기 가능, 가족이 아닌 경우 2회 주고 받기 가능합니다. 감사합니다. 5G, LTE... 2019.08.08 전체보기 전세계 71개국용 이심(eSIM) 추천 : 클리앙 14프로를 LTE로 쓰면 어리석은 일인가요? : 클리앙 hyelimna.tistory.com 일상 의사결정의 임팩트를 높이는 데이터 표현법 20 데이터를 정확히 분석하고 표현하는 역량을 키워가실 수 있으실 거라 확신합니다. 👀 바쁘다면 이거라도! 크기: 얼마나 많은지 다른 특성의 데이터와 묶어서 보여주기 데이터를 나눠보고, 메시지를 던지기 비교 기준 만들기 추세: 어떤 패턴을 보이는지 Y축은 0에서 시작하고, 간격은 일정하게 변곡점과 교차점에서... 2023.12.01 통합웹 더보기
서비스 안내 스토리의 글을 대상으로 검색결과를 제공합니다. 자세히보기 nasena.tistory.com 안나세나 코딩 학습일지 데이터분석 실습 | 주차 간 전환율로 리텐션 테이블, 히트맵 만들기 0. 가설 설정 ▶ 가설 위 [참고게시글]의 마지막 파트에서 구했던 {개강 주차 별-수강 주차}의 비율은 해당 개강 주차(개강일)의 첫 주차 대비 그 이후 모든 주차의 수강률이 어떤지 구해줬었음 (= 해당 주차 수강생 수 / 첫 주차 수강생 수) 그래서 왼쪽 그림과 같이 주차를 거듭할수록(시간이 갈수록) 수강률이 점차 떨어지는 히트맵이 나옴 하지만 이건 너무 당연한 결과를 보여주는 것에 불과함 따라서, 오른쪽 그림과 같이 직전 주차 대비 다음 주차 수강률이 어떤지 구해보고자 함 (= 해당 주차 수강생 수 / 직전 주차 수강생 수) 1. 분석할 데이터 가져오기 ▶ 한글 깨짐 방지 코드 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf ▶ 라이브러리 가져오기 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt plt.rc('font', family='NanumBarunGothic') ▶ [참고게시글]의 '가설3' 내용 코드 가져오기 : 여기에서 무엇을 추가해야 직전 주차 대비 해당 주차 수강생 비율을 구할 수 있 2. 데이터 분석하기 (상단 코드 뒤에 추가될 부분) ▶ 직전 주차 대비 해당 수강생 비율 구하기 : 주차 별 수강 전환율 구하기 : 이미 퍼센트는 위에서 구해놨으니 바로 각 주차 별 전환율을 직전 주차 전환율로 나누면 됨 : 현재 잔존하고 있는 수강생은 직전 주차에 비해 몇 퍼센트인지 구하는 것 w=31 for i in range(6): for j in range(5, 1, -1): retention.at[(w,j)] = retention.at[(w,j)]/retention.at[(w,j-1)] w=w+1 retention 3. 데이터 시각화하기 ▶ 분석한 데이터 시각화하기 #주차별 수강 전환율 히트맵 plt.figure(figsize = (10,8)) sns.heatmap(data = retention, annot = True, fmt = '.0%', vmin = 0, vmax = 1, cmap = "BuGn") plt.title('개강일별 주차 간 전환율', fontsize=20) plt.xlabel('주차', fontsize=14,labelpad=30) plt.yl 5. 최종 결론 ▶ 결론 [참고 게시글] 가설을 참고해보면 32주차 개강반의 3주차 강의 교안이 바뀐 것 때문에 4주차부터 수강생 수가 줄었다고 생각해서 이런 분석을 실시하게 됨. 그런데 위의 결과를 살펴보니 32주차 개강반의 4주차 수강생 수만 줄었지 그 이후의 32주차부터 36주차 개강반의 4주차 수강생의 수는 오히려 더 많았음. 즉, 3주차 강의 교안이 바뀐 것은 수강생 비율과 관련이 없기 때문에 그대로 두고 사용해도 됨. ▶ 분석한 데이터 시각화하기 #주차별 수강 전환율 히트맵 plt.figure(figsize = (10,8)) sns.heatmap(data = retention, annot = True, fmt = '.0%', vmin = 0, vmax = 1, cmap = "BuGn") plt.title('개강일별 주차 간 전환율', fontsize=20) plt.xlabel('주차', fontsize=14,labelpad=30) plt.yl Python 파이썬 apply groupby Retention 데이터분석 코호트분석 cohort 히트맵 리텐션테이블 2024.01.22 티스토리 검색 더보기 brunch.co.kr 뚝딱이 연말결산 마케팅, 스몰데이터 & 빅데이터 13 빅데이터를 활용한 ‘연말결산 콘텐츠’ 두 가지 유형으로 나눠 볼 수 있겠더라고요. 두 유형을 나눠 어떤 point가 유저의 마음을 감았는지 알아볼게요! 스몰...유저의 개인화된 행동패턴을 결산해 줘요. 빅데이터보다 개인의 취향과 동기를 뚜렷하게 나타내주기 때문에 연말결산 서비스에 잘 들어맞는 데이터라고 할... 연말결산 마케팅 데이터 2024.04.09 브런치스토리 검색 더보기 story.kakao.com eun eun - 카카오스토리 물질로 대체했다. 나는 기적같이 누군가 지혜를 나눠주기를 원했다. 그러나 사람은 물질보다 잡히지 않았다...타인을 바라볼 줄 아는, 객관적 물질의 데이터로 자신과 다른 이들을 볼 줄 아는 자들이다. 그들은... 2024.04.25 카카오스토리 검색 더보기
이미지
쇼핑
찾으시는 상품과 관련된 상품을 노출합니다.