구매하기
장바구니
ebook 구매
학문을 하다 보면 전공하는 영역은 물론 인접 분야에 대해서도 심도 있게 공부해야 할 필요성을 느끼게 된다. 특히 학제 간 연구가 강조되고 있는 시점에서, 다양한 학문 분야를 두루섭렵하여 학자로서의 통찰력을 배양한다는 것은 상당히 어려운 일이다. 하지만 이러한 노력과 병행하여 최선의 연구 성과나 결과 최적화를 위해 공통적으로 요구되고 빈번하게 사용되는 것이 바로 통계학일 것이다.
논리적 구조 속에서 정량적인 분석을 통해 규명하고자 하는 연구 문제에 대한 보다 심도있는 해답을 도출하고, 자신의 연구 결과에 객관성을 부여하는 강력한 도구로서 통계학은 그 중요성에도 불구하고 다수 학생이나 연구자들이 개별 기법들의 실질적인 적용이라는 측면에서 상당한 어려움을 호소하고 있음도 사실이다. 이는 통계학이 지니고 있는 다양한 이론의 복잡성에도 기인하지만, 수리적 사고에 어려움을 느끼는 연구자들의 막연한 두려움이나 컴퓨터화된 프로그램 사용에 따른 생소함도 커다란 작용을 하고 있는 것으로 판단된다.
이 책에서 제시하고 있는 빅데이터 분석도구는 Python 프로그램이다. Python 프로그램은 전 세계적인 커뮤니티 덕분에 최신 통계기법의 개발·적용 속도가 매우 빠르다. 그리고 다양한 통계 도구를 제공해주는 편리함이 있어, 사용 시 불편함이 있을지라도 분석력의 장점이 많아 매력적이라고 할 수 있다. Python은 오픈소스 기반의 프로그램으로 최신 통계기법의 적용이 빠르며, 1만여 개에 달하는 다양한 통계분석 패키지(라이브러리)를제공하기 때문에 거의 모든 분석이 가능하다.
그러면 빅데이터 분석은 어떤 분야에 필요한 것인가? 빅데이터를 분석하는 작업은 많은 시간과 노력이 요구되는 힘든 과정이다. 데이터를 수집하고, 정리하고, 분석하고, 시각화하는 등 모든 작업은 혼자서 하기 어려운 일이다. 또한 필요한 데이터를 혼자서 다 찾을 수 있는 것도 아니다. 따라서 무엇보다도 중요한 역량 중의 하나는 타인들과 함께 작업할 수 있는 커뮤니케이션 능력이다. 다른 사람들과 협업을 통해 더 나은 결과를 찾아낼 수 있다. 그렇기 때문에 다른 사람을 이해하고, 문제없이 소통할 수 있는 소통능력은 매우 중요한 역량이다. 아울러 타인이 나와 다르다는 것을 인정하고, 존중해주는 배려심 또한 중요하다. 내 생각만을 고집하다 보면, 현상을 제대로 보지 못하는 독선과 아집에 빠질 수 있다. 그러다 보면 중요한 문제들을 놓치게 되는 우를 범하게 된다. 내 생각, 내지식만을 고집하기보다는 타인의 의견과 생각도 소중하게 여기는 배려심이 중요하다.
빅데이터 전문가들에게 요구되는 또 다른 역량은 인내심과 실험정신이다. 원하는 분석결과에 도달하기까지 지치지 않는 인내심이 필요하다. 또한 분석결과에 대해 꼬리에 꼬리를 무는 질문을 던지며 다양한 데이터 세트를 다양한 시각에서 여러 번 분석해보는 끊임없는 실험정신도 필요하다. 한 번 분석해보고 결과가 나왔다고 좋아하면서 컴퓨터의 전원을 끄는 것이 아니라 다른 각도에서 또다시 짚어보는 다각적인 접근 노력이 필요하다.
따라서, 빅데이터 분석은 한 집단의 특성을 이해할 수 있도록 간단하게 요약해 주고 연구설계를 위한 기초적인 소양으로 반드시 필요하다.
이 책의 목적은 Python 프로그램을 활용하는 빅데이터 분석을 이해하기 쉽게 풀어내는 데있다. 여기서는 총 11장으로 나누어 2장부터 11장까지 한 장씩 실습하는 과정에서 Python 프로그램을 활용하는 방법을 익히게 된다. 이 책은 처음에 빅데이터란 무엇인가?, Python 프로그램 설치하기, 스파이더(Spyder)프로그램 설치하기, Python 기초 사용법, 데이터 유형을 소개하였다. 또한, 외부 데이터 읽어오기, 신뢰도 분석, 타당도 분석, 상관분석, 평균비교 : t-검정,분산분석, 회귀분석, 교차분석을 소개하였다.
모쪼록 이 책이 독자들에게 빅데이터에 대한 개념과 관련 산업에 대한 미래 전망을 이해하는 데 도움이 되길 바라며, 더불어 21세기 성장 동력으로서 빅데이터 산업기반 구축에 필요한인재를 양성하는 데 자그마한 힘이라도 될 수 있기를 기대한다.
끝으로 본서 출판에 도움을 주신 공동체 출판사 관계자 여러분께 감사의 마음을 전한다.
제1장 빅데이터란 무엇인가? 9
1.1. 빅데이터 시대의 특징 11
1.2. 빅데이터의 분석 방법 13
1.3. 빅데이터의 영역과 활용 15
제2장 Python 프로그램 설치하기 19
2.1. Python 소개 21
2.2. Python 프로그램 설치하기 23
2.3. 스파이더(Spyder) 설치하기 29
제3장 Python 기초 35
3.1. Python 기초 37
3.2. Python 튜플(Tuple) 59
3.3. Python 문자열(Strings) 64
3.4. Python 집합(Sets) 85
제4장 데이터 다루기 95
4.1. csv 파일 읽고 쓰기 97
4.2. Excel 파일 읽기 101
4.3. JSON 파일 다루기 105
제5장 신뢰도 분석 113
5.1. 신뢰도 분석의 개념 115
5.2. 신뢰도 분석 방법과 사례 118
제6장 타당도 분석 123
6.1. 요인분석의 개념 125
6.2. 탐색적 요인분석(exploratory factor analysis) 이해하기 126
6.3. 탐색적 요인분석 방법과 사례 129
제7장 상관분석 143
7.1. 상관분석의 개념 145
7.2. 상관분석 시 고려사항 149
7.3. 상관분석 방법과 사례 150
제8장 평균비교 : t-검정 165
8.1. t-검정의 개념 167
8.2. 단일표본 t-검정(one sample t-test) 방법과 사례 170
8.3. 독립표본 t-검정(independent sample t-test) 방법과 사례 172
8.4. 대응표본 t-검정(paired sample t-test) 방법과 사례 179
제9장 분산분석 183
9.1. 분산분석의 개념 185
9.2. 일원분산분석(One-Way ANOVA) 방법과 사례 190
9.3. 이원분산분석(Two-Way ANOVA) 방법과 사례 196
제10장 회귀분석 203
10.1. 회귀분석의 개념 205
10.2. 단순 회귀분석 방법과 사례 209
10.3. 다중 회귀분석 방법과 사례 220
제11장 교차분석 225
11.1. 교차분석의 개념 227
11.2. 교차분석 방법과 사례 231
■ 참고문헌 237