Python/개념

데이터 전처리, 데이터 시각화 | 기본 개념

jjangdoll 2025. 1. 6. 10:22

데이터 전처리

데이터 불러오기/저장하기

- 불러오기 : pd.read_csv(excel)('./파일명.(csv(xlsx)')
- 인덱스 0부터 시작, 범위 지정 가능 [0:2] - 0부터 2까지
- reset_index : 현재 인덱스를 0부터 다시
- 저장하기 : df.to_csv('./newfile.csv', index = False)

데이터 확인하기

- data.head() : head()은 기본 5개 행에 대한 데이터를 보여줌
- data.info() : 데이터 정보 파악 (null 값 확인할 때 활용)
- data.info() : 데이터 기초통계량 파악
- df.isnull() : 결측치 확인 (.sum 추가하면 몇 개 있는지 확인 가능)
- df.dropna() : 결측지 제거

데이터 선택하기

- data.iloc[로우,컬럼] : 인덱스 번호로 선택 -> 파이썬처럼 [0:2] 면 0부터 1까지임
- data.loc[로우,컬럼] : 이름으로 선택
-> 슬라이싱, 리스트 형식을 통해 원하는 데이터만 선택 가능
- isin : in과 같은 기능
- and == & /  or == |

데이터 병합하기

- concat([합치고 싶은1, 합치고 싶은2], axis = 0) : 위아래로 병합 (like union)
- concat([합치고 싶은1, 합치고 싶은2], axis = 1) : 좌우로 병합 
- merge([합치고 싶은1, 합치고 싶은2], on = 기준, how = 방법)
- how : inner, outer, left, right 있음 (like join)

데이터 집계하기

- groupby() : 데이터를 그룹화한 후, 그룹 단위로 분할, 적용, 결합할 수 있음
- pivot_table() : 데이터를 입맛대로 재배치할 수 있음


데이터 시각화

그래프 설정

- plot(x, y) : 추가로 linestyle, color, marker, label(범례) 설정 가능
- set_xlabel(ylabel, title) : x축, y축, 축제목 설정
- text : 텍스트 추가 가능
- plt.figure(figsize=(가로값, 세로값)) : 그래프 크기 조절 가능 

그래프 종류

- 선그래프 : 데이터의 연속적인 관계 시각화할 때 사용
- 막대그래프 : 값의 크기할 때 사용
-> .bar(x, y)
- 히스토그램 : 연속적인 분포 나타낼 때 사용
-> .hist(x, bins=빈도값)
- 원그래프 : 카테고리 별 비율 나타낼 때 사용
-> plt.pie(x, y)
- 박스플롯 : 데이터 분포와 이상치를 동시에 나타낼 때 사용
-> plt.boxplot(x)
- 산점도 : 두 변수 간의 관계를 점으로 나타낼 때 사용
-> plt.scatter(x, y)

'Python > 개념' 카테고리의 다른 글

파이썬 | JOIN  (0) 2025.01.09
파이썬  (0) 2025.01.07
파이썬 실시간 강의 4회차  (0) 2025.01.06
파이썬  (0) 2025.01.06
파이썬 실시간 강의 3회차  (1) 2025.01.05