책소개
실무 데이터 분석과 전처리 구현에 필요한구체적인 기술을 제시하는 활용 가이드데이터 분석의 품질에 큰 영향을 미치는 데이터 전처리는 매우 중요한 작업이다. 전처리 공정을 전체적으로 이해하려면 프로그래밍 언어에 관한 이해뿐만 아니라 통계학이나 머신러닝에 관한 기반 지식이 필요하지만 이를 포괄적으로 설명하는 책은 없었다.이 책은 저자의 생생한 데이터 분석 실무 경험을 바탕으로 실용적인 전처리 기술을 설명한다. 프로그래밍 언어를 이용해 간단한 개발을 할 수 있는 사람이라면 무리 없이 이해할 수 있도록 쉽게 설명한다. 초급 데이터 과학자뿐만 아니라 데이터 분석 업무를 익히고 싶은 시스템 엔지니어에게도 강력히 추천한다.
저자소개
시스템 개발업체 연구원과 웹 계열 회사의 데이터 과학자를 거쳐 현재는 디지털 의료 스타트업의 CTO로 역임 중이다. 양자 어닐링 컴퓨터의 검증에 개인 사업자로 참여하고 있다. 제조업, 소매업, 금융업, 운수업, 레저 산업, 웹 등 다양한 업종의 데이터 분석을 경험했다. 취미로 마리오 AI를 개발한다.
목차
[1부 전처리 입문]1장 전처리 개요 __1.1 데이터 __1.2 전처리의 역할 __1.3 전처리의 흐름 __1.4 세 가지 프로그래밍 언어 __1.5 패키지/라이브러리 __1.6 데이터셋 __1.7 데이터 읽기 [2부 데이터 구조 전처리]2장 추출__2.1 데이터 열을 지정한 추출 __2.2 조건에 따른 데이터 행 추출 __2.3 데이터 값을 고려하지 않는 샘플링__2.4 집약 ID에 기반한 샘플링3장 집약 __3.1 데이터와 종류의 개수 산출__3.2 합곗값 계산__3.3 최댓값, 최솟값, 대푯값 산출 __3.4 분포 계산__3.5 최빈값 계산__3.6 순위 계산 4장 결합__4.1 마스터 테이블에서 정보 얻기 __4.2 조건에 따라 결합할 마스터 테이블 변경하기__4.3 과거 데이터에서 정보 얻기 __4.4 상호 결합 5장 분할 __5.1 모델 검증을 위한 데이터 레코드 분할 __5.2 모델 검증을 위한 시간 데이터 분할 6장 생성__6.1 언더샘플링으로 데이터 불균형 조정하기 __6.2 오버샘플링으로 데이터 불균형 조정하기7장 전개 __7.1 가로 데이터로 변환__7.2 희소 행렬로의 변환 [3부 데이터 내용 전처리]8장 수치형 __8.1 수치형 데이터로 변환__8.2 대수화를 이용한 비선형 변화 __8.3 범주화를 이용한 비선형 변화 __8.4 정규화 __8.5 예욋값 제거__8.6 주성분 분석을 이용한 차원 압축 __8.7 수치의 보완 9장 범주형 __9.1 범주형으로 변환 __9.2 더미 변수화__9.3 범줏값의 집약__9.4 범줏값의 조합__9.5 범주형의 수치화__9.6 범주형의 보완 10장 일시형__10.1 일시형과 날짜형으로 변환 __10.2 연, 월, 일, 시각, 분, 초, 요일로 변환__10.3 일시의 차이로 변환 __10.4 일시형의 증감__10.5 계절로 변환__10.6 시간대로 변환__10.7 평일과 휴일로 변환11장 문자형 __11.1 형태소 분석을 이용한 분해 __11.2 단어의 집합 데이터로 변환__11.3 TF-IDF로 단어의 중요도 조정12장 위치 정보형 __12.1 한국 측지계를 세계 측지계로 변환 __12.2 두 지점 간 거리와 방향 계산[4부 실천 전처리]13장 연습 문제__13.1 집계 분석 전처리 __13.2 추천 전처리__13.3 예측 모델링 전처리 부록 A 예제 환경 구성하기__A.1 SQL 환경 준비하기__A.2 R 환경 준비하기__A.3 파이썬 환경 준비하기