Python/Python Basic

판다스(pandas) 모듈 설치 및 엑셀(xlsx, xls) 파일 열기 - 공부하는 도비

DOVISH WISDOM 2021. 1. 13. 13:40  
728x90
반응형

오늘은 파이썬으로 외부에 있는 xlsx, xls 파일을 열고 데이터를 확인해보겠습니다. 

 

우선 xlsx, xls 파일을 다루기 위해서는 몇가지의 모듈이 필요합니다. 

 

제가 프로그래밍 하는 환경은 가상환경이기 때문에,

cmd창의 activate가 되어 있는 상태에서 모듈 설치합니다.

 

- pip install xlrd

- pip install openpyxl

- pip install pandas

 

파이썬 폴더가 있는 위치에 가서 저 세가지 모듈을 설치하면 준비 끝!.

pandas 설치 과정
설치 완료

code 명령어를 사용하여 vscode(파이썬 IDE)를 실행시켜주고, 

import pandas를 입력하고 그 별칭을 pd로 지어줍니다.

(왜 pd를 쓸까 궁금했는데 그냥 pandas를 줄여서 pd라고 쓰더라구요. 물론 다른이름으로 지정해줘도 상관 없습니다.) 

 

제가 열고자 하는 xlsx 파일은 상대경로로 ./resource/____ 자리에 있기 때문에 경로를 지정해서 파일을 열었습니다.

 

____.read_excel은 xlsx 파일을 읽기 위한 명령어입니다.

(파이썬에서 외부 file을 열고 써본 경험이 있으신 분들은 __read(), ___readline() 을 보신적 있으실텐데, 그때와 동일한 명령어라고 생각하시면 됩니다.

 

단순히 파일을 읽고, 출력을 하게 되면 모든 값이 출력됩니다.

 

- head() 함수 활용

: 처음 5행을 보고 싶을 때 사용

아래 그림처럼  ____.head() 형태로 사용하면, 처음 5개 행 데이터가 출력됩니다.

head()

 

- tail() 함수 활용

: 마지막 5행을 보고 싶을 때 사용

 

 

 

- shape 함수 활용

: xlsx, xls 데이터의 시트가 몇 행 몇 열로 이뤄진 것을 알려줌

 

이 시트는 20행 3열로 구성된걸 알 수 있습니다.

 

 

 

파이썬에서는 엑셀 파일을 읽고 활용하기 쉽도록 이미 pandas와 같은 모듈이 잘 짜여있습니다. 

위에서 보았듯이 모듈을 설치하고 코드를 실행한다면 외부 excel 파일에 접근하기가 매우 쉽습니다.

 

이렇게 해서 파이썬에서 xlsx, xls 파일 다루는 법을 알아보았습니다.

반응형