통계학은 데이터를 잘 사용하는 방법을 알아내는 학문이다. T-test검정두 집단의 평균에 차이가 있는지 분석독립표본 t검정은 서로 다른 두 집단의 차이를 분석하는 것이고 대응표본 t검정은 서로 대응되는 두 집단의 차이를 분석하는 것예를들어 독립표본은 광고를 본 그룹과 보지않은 그룹의 차이를 본다면 대응표본은 광고를 보기전과 보고난 후 의 차이가 있는지정규성을 위배하면 t검정을 할 수 없다.단일표본 t검정 ttest_1samp(df[’열’], 값?)대응표본 t검정 ttest_rel(before, after)독립표본 t검정 ttest_ind(df1, df2) 정규성 검정데이터셋의 분포가 정규분포를 따르는지 검정여러 검정법들이 정규분포를 가정하기 때문에 정규성을 확인하는 과정이 필수sha..
Coding
📖 내용 데이터프레임에서 대문자, 소문자 : df['열이름’].str.upper() df[’열이름’].str.lower() 결측치로 만들기 : df[’열이름’].replace(’\\N’, np.nan, inplace=True) 고객 ID의 고유한 개수 카운트 : df.gropuby(’열이름’)[’고객아이디’].nunqiue() df.gropuby(’열이름’)[’고객아이디’].unqiue() unique, nunique의 차이는 unique는 고객 아이디를 나타내고 nunique는 개수를 나타냄 날짜타입(datetime64)으로 변환하기 : df[’열이름’] = pd.to_datetime(df['열이름']) 파생변수 생성하기(날짜, 위치 등) : time_pattern = r’(\d{4}) - (\d{..
'질환별로 필수 섭취 영양성분이 다르다' 라는 가설을 세우고 질병에 도움이 되는 식품과 도움이 되지않는 식품을 찾아 데이터 분석을 진행해보려 함 불러오기식품의약품안전처_가공식품 품목별 영양성분 DB 데이터를 사용함.단위를 모두 g으로 맞춤.결측치결측치의 경우 1회 섭취참고량에 결측치가 있었고 불필요한 열로 판단하여 제거함.이상치 상관관계상관관계는 인과관계와 같지않다. 따라서 상관계수가 높다고 해도 이것이 원인의 이유가 되지않는다. 군집별 필터링영양성분과 질병의 관계성(ex. 논문, 기사, 인터뷰)을 찾아 가중치를 부여함. 2. 군집별 필터링을 위해 대분류, 중분류, 소분류, 대표식품, 이름별로 나눔 질환별대표식품대분류중분류소분류식품별당뇨..
데이터분석 직무에 코딩테스트 대비를 위한 기록 출처 : GIL`s LAB 1. 막대 그래프로 시각화2. 가장 많은 유형 출력3. 중상비율 계산 In [1]:!sudo apt-get install -y fonts-nanum!sudo fc-cache -fv!rm ~/.cache/matplotlib -rf Reading package lists... DoneBuilding dependency tree... DoneReading state information... Donefonts-nanum is already the newest version (20200506-1).0 upgraded, 0 newly installed, 0 to remove and 45 not upgraded./usr/share/..
데이터분석 직무에 코딩테스트 대비를 위한 기록출처 : GIL`s LAB 1. 시간에 따른 미세먼지 농도 그래프 시각화2. 시간대별 평균 미세먼지 농도 계산3. 시점 t의 t-1, t-2, t-3, t-4의 농도를 이용하여 데이터 구성4. 선형 회귀 모델을 학습 In [ ]:from google.colab import drivedrive.mount('/content/drive') Mounted at /content/drive In [42]:import pandas as pddf = pd.read_csv('/content/drive/MyDrive/PM10_seoul.csv')df.head() Out[42]: datePM-1002022-12-08:2422.012022-12-08:2322.022022-..