본문 바로가기
python

python package pandas

by hyundy 2021. 10. 8.

엑셀 데이터를 다룰 일이 있어 찾아보니 pandas 라는 패키지가 있었다. 

 

엑셀을 읽어와 출력 할수도 있고 데이터 수정 후 엑셀 파일을 return 할수 도 있는 편한 패키지 이다. 

(파이썬으로 개발하다보면 정말 편한걸 새삼 느낀다.)

 

요즘은 개발할때 최대한 자동화 할수 있는 방법을 찾는거 같다. 

 

사용방법

 

1. 엑셀 읽어오기

  pd.read_excel()

  - 읽어올 엑셀을 지정하고 옵션을 주었다. 

  - openpyxl 도 패키지 이므로 pip으로 먼저 설치 해주자.

  - header : 데이터 읽어올 위치(index 번호) 지정

  - usecols : 필요한 컬럼(colum) 지정 

 

 

  해당 엑셀을 읽어 오면 공백에 NaN(데이터 없음) 데이터가 출력 되므로 제거 해주자

   dropna()

  - NaN 으로만 데이터가 저장된 리스트 삭제

 

 

  데이터 프레임 정보를 리스트로 출력 할수 있다.

  values.tolist()

 

 

2. 데이터 정제

  출력된 정보를 보면 컬럼이 두줄로 나온다. 이를 한줄로 바꿔 db에 저장할수 있는 정보로 바꿔보자 

 

  데이터 정렬을 위해 작성한 코드 

  - 엑셀 데이터를 tolist() 로 출력 해보면 2차원 배열로 이루진 것을 알수 있다. 

  - 정제가 필요한 데이터를 보면 컬럼이 두줄로 되어 있고 데이터도 그에 맞게 출력 되어 있다.

  - 데이터 규칙을 이용하여 홀수 짝수를 구분해

     홀수 index 에는 " NO, 사번, 성명"  짝수 index에는 "입사년월일, 퇴사년월일" 정보를 새로운 리스트에 담아 출력

 

 

참고

 shape[0] : 엑셀 전체 index 갯수 출력

 concat() : DataFrame 정보 join 

 colums : 컬럼명 지정시 사용 

 

 

pandas 공식 문서

https://pandas.pydata.org/pandas-docs/stable/reference/io.html#excel

'python' 카테고리의 다른 글

파이썬 메모리 관리  (0) 2021.10.29
*args, **kwargs  (0) 2021.10.21
Decorator  (0) 2021.10.21
Closure  (0) 2021.10.21
first_class function  (0) 2021.10.21