전체 글

Data Scientist 하려는 사람
통계학은 데이터를 잘 사용하는 방법을 알아내는 학문이다.        T-test검정두 집단의 평균에 차이가 있는지 분석독립표본 t검정은 서로 다른 두 집단의 차이를 분석하는 것이고 대응표본 t검정은 서로 대응되는 두 집단의 차이를 분석하는 것예를들어 독립표본은 광고를 본 그룹과 보지않은 그룹의 차이를 본다면 대응표본은 광고를 보기전과 보고난 후 의 차이가 있는지정규성을 위배하면 t검정을 할 수 없다.단일표본 t검정 ttest_1samp(df[’열’], 값?)대응표본 t검정 ttest_rel(before, after)독립표본 t검정 ttest_ind(df1, df2)      정규성 검정데이터셋의 분포가 정규분포를 따르는지 검정여러 검정법들이 정규분포를 가정하기 때문에 정규성을 확인하는 과정이 필수sha..
📖 내용 데이터프레임에서 대문자, 소문자 : df['열이름’].str.upper() df[’열이름’].str.lower() 결측치로 만들기 : df[’열이름’].replace(’\\N’, np.nan, inplace=True) 고객 ID의 고유한 개수 카운트 : df.gropuby(’열이름’)[’고객아이디’].nunqiue() df.gropuby(’열이름’)[’고객아이디’].unqiue() unique, nunique의 차이는 unique는 고객 아이디를 나타내고 nunique는 개수를 나타냄 날짜타입(datetime64)으로 변환하기 : df[’열이름’] = pd.to_datetime(df['열이름']) 파생변수 생성하기(날짜, 위치 등) : time_pattern = r’(\d{4}) - (\d{..
'질환별로 필수 섭취 영양성분이 다르다' 라는 가설을 세우고 질병에 도움이 되는 식품과 도움이 되지않는 식품을 찾아 데이터 분석을 진행해보려 함   불러오기식품의약품안전처_가공식품 품목별 영양성분 DB 데이터를 사용함.단위를 모두 g으로 맞춤.결측치결측치의 경우 1회 섭취참고량에 결측치가 있었고 불필요한 열로 판단하여 제거함.이상치 상관관계상관관계는 인과관계와 같지않다. 따라서 상관계수가 높다고 해도 이것이 원인의 이유가 되지않는다. 군집별 필터링영양성분과 질병의 관계성(ex. 논문, 기사, 인터뷰)을 찾아 가중치를 부여함.  2. 군집별 필터링을 위해 대분류, 중분류, 소분류, 대표식품, 이름별로 나눔 질환별대표식품대분류중분류소분류식품별당뇨..
· 통계
데이터 분석가를 준비하기 위해 좋은 책이 있다는 블로그를 보고 읽어보고 기록하기 위해 작성한다.       상관관계와 인과관계 상관관계는 인과관계를 나타내지 않는다.하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼 원인과 결과가 명확한 관게를 인과관계라고 한다.상관관계는 두 변수가 얼마나 상호 의존적인지를 의미하는데 이를 파악하는 방법은 한 변수가 증가할때 다른 변수가 증가하거나 감소하는 추이를 따르는 식이다.상관관계가 있다고 해도 그것이 인과관계가 아니란 것은 확실하다.데이터 분석에서 상관관게는 기본적이며 중요한 항목이지만, 수많은 외생 변수가 존재하는 현실 데이터에서는 상관관계가 인과관계가 될 수 없다.내생 변수와 외생 변수를 이해하고 변수의 추이에 영향을 미칠 수 있는 요인이 어떤 것들이 있..
· 통계
세상에서 가장 쉬운 통계학입문이라는 책을 읽고 기록한다.  통계학은 크게 기술통계와 추리통계로 나눠진다.기술통계는 관측을 통해 얻은 데이터에서 그 데이터의 특징을 뽑아내기 위한 기술을 말함(도수분포표, 히스토그램, 평균값, 표준편차)추리통계는 통계학방법과 확률 이론을 섞은 것으로 ”전체를 파악할 수 없을 정도의 큰 대상”이나 ‘아직 일어나지 않은, 미래에 일어날 일’에 관해 추측하는 것을 말함. 표준편차표준편차라고 하는 것은 데이터가 평균값 주변에 어느정도 넓게 퍼져 있느냐하는 것을 나타내는 통계량   표준편차를 알면 한 데이터 세트 중에 있는 어떤 데이터 하나의 수가 갖는 의미를 알 수 있다. 예를 들어 시험 평균이 60점인데 나는 75점을 받았다. 여기서 나는 어느정도 기뻐할것인지에 대해 확인할 수 ..
콜드펌킨
ColdPumpkinn