๐ ๋ด์ฉ
- ๋ฐ์ดํฐํ๋ ์์์ ๋๋ฌธ์, ์๋ฌธ์ : df['์ด์ด๋ฆ’].str.upper() df[’์ด์ด๋ฆ’].str.lower()
- ๊ฒฐ์ธก์น๋ก ๋ง๋ค๊ธฐ : df[’์ด์ด๋ฆ’].replace(’\\N’, np.nan, inplace=True)
- ๊ณ ๊ฐ ID์ ๊ณ ์ ํ ๊ฐ์ ์นด์ดํธ : df.gropuby(’์ด์ด๋ฆ’)[’๊ณ ๊ฐ์์ด๋’].nunqiue() df.gropuby(’์ด์ด๋ฆ’)[’๊ณ ๊ฐ์์ด๋’].unqiue() unique, nunique์ ์ฐจ์ด๋ unique๋ ๊ณ ๊ฐ ์์ด๋๋ฅผ ๋ํ๋ด๊ณ nunique๋ ๊ฐ์๋ฅผ ๋ํ๋
- ๋ ์งํ์ (datetime64)์ผ๋ก ๋ณํํ๊ธฐ : df[’์ด์ด๋ฆ’] = pd.to_datetime(df['์ด์ด๋ฆ'])
- ํ์๋ณ์ ์์ฑํ๊ธฐ(๋ ์ง, ์์น ๋ฑ) : time_pattern = r’(\d{4}) - (\d{1,2}) - (\d{1,2}) (\d{1,2})’ df[[’์ฐ’,’์’,’์ผ’,’์๊ฐ’]] = df[[’์ฐ’,’์’,’์ผ’,’์๊ฐ’]].str.extract(time_pattern) location_pattern = r’(\S+) (\S+) (\S+)’ df[[’๋์’,’๊ตฌ’,’๋’]] = df[[’๋์’,’๊ตฌ’,’๋’]].str.extract(location_pattern)
- ์ฌ๋ฌ ํจ์๋ฅผ ๋์์ ์ ๋ ฅํ๊ณ ์ถ๋ ฅ : df.groupby(’์ด์ด๋ฆ')['๊ฑฐ๋๋ ์ง'].agg(['min', 'max']).reset_index()
- ํ์ต์ ํตํด ๊ฐ์ค์น๋ฅผ ์ฐพ์์ ๊ณ ๊ฐ๋ณ๋ก ๋ฑ๊ธ์ ๋ฉ๊ธด๋ค
- groupby.(’’)[’’].size .sum .nunique
- ํน์ ํ์ ๋ง ์ถ์ถํ์ฌ ์๊ด๊ด๊ณ ๋ถ์ : df.select_dtypes(include=’number’).corr()
- ํน์ ๊ฐ์ ๊ธฐ์ค์ผ๋ก ์๋ก์ด ์ด์ ์ถ๊ฐํ ๋ : df.iloc[df[’์ด์ด๋ฆ’] == ‘ํน์ ๊ฐ’, ‘์์ฑํ ์ด’] = ‘์์ฑํ ๊ฐ’
- ํน์ ์ด์์ ๋ฌธ์๋ ์ซ์๋ฅผ ์ ์ธํ๊ณ ์ถ์๋ : df[’ํน์ ์ด’] = df[’ํน์ ์ด’].replace(r’\D’, ‘’, regex=True)
- ๋ ์ง ๋ฐ์ดํฐ ํ์ ๊ด๋ จ : df.dt.strftime(’%Y-%m’) // df.dt.strptime