데이터 분석가를 준비하기 위해 좋은 책이 있다는 블로그를 보고 읽어보고 기록하기 위해 작성한다.
상관관계와 인과관계
상관관계는 인과관계를 나타내지 않는다.
하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼 원인과 결과가 명확한 관게를 인과관계라고 한다.
상관관계는 두 변수가 얼마나 상호 의존적인지를 의미하는데 이를 파악하는 방법은 한 변수가 증가할때 다른 변수가 증가하거나 감소하는 추이를 따르는 식이다.
상관관계가 있다고 해도 그것이 인과관계가 아니란 것은 확실하다.
데이터 분석에서 상관관게는 기본적이며 중요한 항목이지만, 수많은 외생 변수가 존재하는 현실 데이터에서는 상관관계가 인과관계가 될 수 없다.
내생 변수와 외생 변수를 이해하고 변수의 추이에 영향을 미칠 수 있는 요인이 어떤 것들이 있는지 따져봐야한다.
모수와 표본
모집단 != 전체 집단
모집단의 개념은 간단한 듯 하면서도 복잡하고 추상적이다.
모수란 모집단의 수치적 요약값이며 모집단에 대한 통계값을 모수라고 한다.
모집단 자체를 다룰 수 있는 경우는 거의 없고 다 사용한다고 해도 모두를 대표할 수 없다.
모집단의 개념은 간단한 듯 하면서도 복잡하고 추상적이다.
1. 모집단을 어느 정도 정의한다. 2. 모집단에 가까운 표본을 정의한다. 3. 표본을 구하는 법을 고민한다. a. 큰 수의 법칙 - 표본의 크기가 충분히 크면 표본 평균은 모평균에 충분히 가까워진다는 법칙 b.중심 극한 정리 - 동일한 확률 분포를 가진 독립 변수 n개의 평균의 분포는 N이 적당히 크면 정규분포에 가까워진다는 정리 4. 표본 데이터를 수집한다.
숫자의 불확실성
숫자의 큰 역할 중 하나는 정량적인 비교이다.
단순한 차이가 있더라도 그 차이가 통계적으로 유의미한지, 고려할 전제조건은 무엇인지, 여러 측면에서 차이가 맞는것인지를 여러 도구를 활용하여 고민해야한다.
수학은 불확실성 위에 쌓아 올려진 학문이고 통계는 항상 확률과 등장하며 숫자는 절대적인 적이 없다.