Coding/Data Analysis

📖 내용 데이터프레임에서 대문자, 소문자 : df['열이름’].str.upper() df[’열이름’].str.lower() 결측치로 만들기 : df[’열이름’].replace(’\\N’, np.nan, inplace=True) 고객 ID의 고유한 개수 카운트 : df.gropuby(’열이름’)[’고객아이디’].nunqiue() df.gropuby(’열이름’)[’고객아이디’].unqiue() unique, nunique의 차이는 unique는 고객 아이디를 나타내고 nunique는 개수를 나타냄 날짜타입(datetime64)으로 변환하기 : df[’열이름’] = pd.to_datetime(df['열이름']) 파생변수 생성하기(날짜, 위치 등) : time_pattern = r’(\d{4}) - (\d{..
'질환별로 필수 섭취 영양성분이 다르다' 라는 가설을 세우고 질병에 도움이 되는 식품과 도움이 되지않는 식품을 찾아 데이터 분석을 진행해보려 함   불러오기식품의약품안전처_가공식품 품목별 영양성분 DB 데이터를 사용함.단위를 모두 g으로 맞춤.결측치결측치의 경우 1회 섭취참고량에 결측치가 있었고 불필요한 열로 판단하여 제거함.이상치 상관관계상관관계는 인과관계와 같지않다. 따라서 상관계수가 높다고 해도 이것이 원인의 이유가 되지않는다. 군집별 필터링영양성분과 질병의 관계성(ex. 논문, 기사, 인터뷰)을 찾아 가중치를 부여함.  2. 군집별 필터링을 위해 대분류, 중분류, 소분류, 대표식품, 이름별로 나눔 질환별대표식품대분류중분류소분류식품별당뇨..
콜드펌킨
'Coding/Data Analysis' 카테고리의 글 목록 (2 Page)