구매하기
장바구니
ebook 구매
우리가 살아가는 현 시대의 생활 속에서 빅데이터라고 하는 용어는 이제는 더 이상 낯선 용어가 아니다. 그렇다면 왜 이렇게 빅데이터를 우리의 생활 속에서 자주 접하게 되는 것일까?
이에 대한 대답은 정보화사회에 있어 국가나 사회, 기업, 학교 등의 조직들은 모두 방대한 정보와 자료들이 어떻게 돌아가는지를 파악하기 위해서는 각종 빅데이터 분석이 필요하기 때문이다. 빅데이터를 분석하다 보면, 집단 간 혹은 지역 간 특성들의 차이를 통해 어떤 시사점이나 통찰력을 얻고자 하는 경우가 많다. 집단 간, 지역 간, 계층 간 차이를 안다는 것은 그 차이를 지속화시킬 것인지, 그 차이를 메꾸어 차이가 없도록 할 것인지를 결정하는 데 매우 중요한 통찰력을 제공해 준다. 그러한 통찰력은 분석하는 목적이나 분석 주체에 따라 다를 수 있다. 따라서 빅데이터를 활용해 차이를 분석하는 것은 목적이나 상황에 따라 다른 통찰력을 얻기 위함이다.
이 책에서 제시하고 있는 빅데이터 분석도구는 R 프로그램이다.
R 프로그램은 전 세계적인 커뮤니티 덕분에 최신 통계기법의 개발·적용 속도가 매우 빠르다. 그리고 다양한 통계 도구를 제공해 주는 편리함은 부족하지만 분석력의 장점이 많아 매력적이라고 할 수 있다. R은 오픈소스 기반의 프로그램으로 최신 통계기법의 적용이 빠르며, 1만여 개에 달하는 다양한 통계분석 패키지(라이브러리)를 제공하기 때문에 거의 모든 분석이 가능하다.
그러면 R 프로그램을 활용한 빅데이터 분석은 어떤 분야에 필요한 것인가?
이에 대한 대답에 앞서 빅데이터 분석이 사용되고 있는 분야를 언급해 보면, 경제분석, 경영분석, 사회분석, 교육분석, 의학분석, 보건분석, 행정분석, 공업분석, 농업분석, 인구분석, 스포츠분석 등 이루 헤아릴 수 없이 많다. 즉, 빅데이터 분석이 사용되지 않는 분야가 거의 없다고 해도 과언이 아니다. 그러면 왜 이렇게 모든 분야에 빅데이터 분석이 적용되어 사용되는 것일까? 이에 대한 대답은 빅데이터 분석은 데이터를 다루는 분야이기 때문이다.
따라서 어느 분야이든 관계없이 데이터가 있는 곳은 모두 다 R 프로그램을 활용한 빅데이터 분석이 적용된다고 보는 것이 맞는 말일 것이다. 의학이 인체를 다루는 학문이고, 화학이 물질의 속성을 다루는 학문이라면, 빅데이터 분석은 데이터(data)를 다루는 학문이다.
빅데이터를 분석하는 작업은 많은 시간과 노력이 요구되는 힘든 과정이다. 데이터를 수집하고, 정리하고, 분석하고, 시각화하는 등 모든 작업은 혼자서 하기 어려운 일이다. 또한 필요한 데이터를 혼자서 다 찾을 수 있는 것도 아니다.
따라서 무엇보다도 중요한 역량 중의 하나는 타인들과 함께 작업할 수 있는 커뮤니케이션능력이다. 다른 사람들과 협업을 통해 더 나은 결과를 찾아낼 수 있다. 그렇기 때문에 다른 사람을 이해하고, 문제 없이 소통할 수 있는 소통능력은 매우 중요한 역량이다. 아울러 타인이 나와 다르다는 것을 인정하고, 존중해 주는 배려심 또한 중요하다. 내 생각만을 고집하다보면, 현상을 제대로 보지 못하는 독선과 아집에 빠질 수 있다. 그러다 보면 중요한 문제들을 놓치게 되는 우를 범하게 된다. 내 생각, 내 지식만을 고집하기보다는 타인의 의견과 생각도 소중하게 여기는 배려심이 중요하다.
빅데이터 전문가들에게 요구되는 또 다른 역량은 인내심과 실험정신이다. 원하는 분석결과에 도달하기까지 지치지 않는 인내심이 필요하다. 또한 분석결과에 대해 꼬리에 꼬리를 무는 질문을 던지며 다양한 데이터 세트를 다양한 시각에서 여러 번 분석해 보는 끊임없는 실험정신도 필요하다. 한 번 분석해 보고 결과가 나왔다고 좋아하면서 컴퓨터의 전원을 끄는 것이 아니라 다른 각도에서 또다시 짚어보는 다각적인 접근 노력이 필요하다.
따라서 빅데이터 분석은 한 집단의 특성을 이해할 수 있도록 간단하게 요약해 주고 연구설계를 위한 기초적인 소양으로 반드시 필요하다. 그리고 R 프로그램을 활용한 빅데이터분석 방법을 활용함으로써 합리적이고 과학적인 사고 능력을 증진시킬 수 있는 장점을 가지고 있다.
이 책의 목적은 R 프로그램을 활용하는 빅데이터 분석을 이해하기 쉽게 풀어내는 데 있다.
여기서는 총 20장으로 나누어 1장부터 20장까지 한 장씩 실습하는 과정에서 R 프로그램을 활용하는 방법을 익히게 된다. 이 책은 처음에 빅데이터 소개 및 시작, R 프로그램 설치하기, RStudio 프로그램 설치하기, R 기초 사용법, 데이터 형태를 소개하였다. 또한 외부 데이터 읽어오기, 데이터 핸들링, 일변량 질적 자료의 분석, 일변량 양적 자료의 분석, 정규분포, 가설검정, 일표본 T-검정, 독립표본 T-검정, 대응표본 T-검정, 분산분석을 소개하였다. 이어서 상관분석, 회귀분석, 교차분석, 신뢰도 분석, 탐색적 요인 분석 등 중급 분석 방법을 소개하였다.
모쪼록 이 책이 독자들에게 R 프로그램을 활용하는 빅데이터 분석에 대한 개념과 관련 산업에 대한 미래 전망을 이해하는 데 도움이 되길 바라며, 더불어 21세기 성장 동력으로서 빅데이터 산업기반 구축에 필요한 인재를 양성하는 데 자그마한 힘이라도 될 수 있기를 기대한다.
끝으로 본 서 출판에 도움을 주신 도서출판 공동체 가족 여러분께 감사의 마음을 전한다.
제1장 빅데이터란 무엇인가? 11
1.1. 현재는 빅데이터 시대 13
1.2. 빅데이터의 답은 분석 15
1.3. 빅데이터 전문가에게 필요한 역 량 16
제2장 R 프로그램 설치하기 21
2.1. R 소개 23
2.2. R 프로그램 설치하기 28
2.3. RGUI 화면 설정하기 35
제3장 RStudio 프로그램 설치하기 37
3.1. RStudio 설치하기 39
3.2. RStudio 프로그램 실행하기 45
3.3. RStudio 프로그램의 환경 설정하기 47
제4장 R 기초 사용법 51
4.1. 기초 사용법 53
4.2. 데이터 유형 62
제5장 데이터 형태 69
5.1. 벡터 71
5.2. 요인 85
5.3. 리스트 87
제6장 외부 데이터 읽어오기 89
6.1 텍스트 데이터 91
6.2 CSV 데이터 92
6.3 엑셀 데이터 93
제7장 데이터 핸들링 95
7.1. 데이터 프레임의 속성 97
7.2. 데이터 추출하기 101
7.3. 데이터 정렬하기 113
7.4. 데이터 합치기 120
제8장 일변량 질적 자료의 분석 125
8.1. 빈도와 백분율의 개념 127
8.2. 막대그래프와 원그래프 131
8.3. R을 이용한 일변량 질적 자료의 분석 133
제9장 일변량 양적 자료의 분석 151
9.1. 표 153
9.2. 그래프 155
9.3. 기술통계량 159
9.4. R을 이용한 일변량 양적 자료의 분석 167
제10장 정규분포 185
10.1. 정규분포 187
10.2. R로 정규분포의 확률 구하기 189
제11장 가설검정 193
11.1. 가설검정 개념 195
11.2 가설검정 방법 196
11.3 가설검정 예제 199
제12장 일표본 T-검정 201
12.1. T-검정 이해 203
12.2. 일표본 T-검정 이해 204
12.3. 일표본 T-검정 활용 206
제13장 독립표본 T-검정 211
13.1. 독립표본 T-검정 213
13.2. 정규성 검정 218
13.3. 윌콕슨의 순위합 검정 220
제14장 대응표본 T-검정 225
14.1. 대응표본의 가설검정 227
14.2. 정규성 검정 228
14.3. 대응표본 T-검정 230
14.4 윌콕슨의 부호 순위 검정 231
제15장 분산분석 233
15.1. 분산분석의 개념 및 원리 235
15.2. 일원분산분석 236
15.3 분산분석 241
15.4 Kruskal-Wallis 검정 245
제16장 상관분석 247
16.1. 상관분석의 개요 249
16.2. 상관계수 251
16.3. 산점도 253
16.4. 상관분석 255
16.5. 산점도 행렬 257
16.6. 상관계수 행렬 266
16.7 유용한 패키지들 267
제17장 회귀분석 273
17.1 회귀분석의 개념 275
17.2. 단순회귀분석 실시하기 276
17.3. 단순회귀분석 활용하기 283
17.4. 다중회귀분석 289
제18장 교차분석 295
18.1. 교차분석의 개념 297
18.2. 카이제곱검정 300
18.3. 정확성 검정 303
제19장 신뢰도 분석 305
19.1. 신뢰도 분석의 개념 307
19.2 신뢰도 분석 실행 309
제20장 탐색적 요인분석 315
20.1. 요인분석의 개념 317
20.2. 탐색적 요인분석 이해하기 318
20.3. 탐색적 요인분석 사례 321
■ 참고문헌 334