CSV 불러오기
기본적으로 read_csv
(참고링크)를 통해 csv 파일을 불러온다. 가장 간단하게는 파일 이름으로 불러올 수 있다.
df = pd.read_csv("filename.csv")
이때는 이 코드와 csv 파일이 같은 폴더 안에 있어야 한다. 만약 다른 폴더에 있는 파일을 사용하고자 한다면, 경로가 포함된 파일 이름을 넣어야 한다. 예를 들어 csv 파일이 다운로드 폴더에 있다고 한다면 다음과 같이 불러올 수 있다.
df = pd.read_csv("C:\\Users\\UsersName\\Downloads\\filename.csv")
주의할 것은 경로 복사로 붙여넣으면 C:\Users\...로 되어 있을 수 있는데, \ 가 아니라 \\로 설정해주거나 / 를 사용해주어야 한다.
주로 사용하는 매개변수는 encoding
, header
, skiprows
, index_col
, sep
정도가 있다.
이중 encoding
은 한글로 작성된 csv를 불러올 때 많이 사용되는데, 기본적으로 많은 파일들이 UTF-8로 작성되나 한글이 포함된 파일 중에 cp949로 작성된 파일이 있을 수 있다. 이때는 encoding
설정을 "cp949"
로 해주면 된다.
df = pd.read_csv("filename.csv", encoding="cp949")
header
는 열의 이름이 포함된 행을 설정하는 것이다. 대부분 경우 최상단에 열 이름이 위치하지만, 불필요한 데이터가 상단에 있는 경우가 있기 때문에 이러한 매개변수 설정이 필요할 수 있다.
df = pd.read_csv("filename.csv", header=3)
skiprows
도 header
과 비슷한 경우에 사용하는데, 위부터 스킵할 열을 설정하는 것이다.
df = pd.read_csv("filename.csv", skiprows=3)
index_col
은 인덱스 이름을 따로 설정할 경우 사용한다. 당연히 숫자뿐 아니라 문자열도 사용 가능하다.
df = pd.read_csv("filename.csv", index_col=[1, 2, 3, 4, 5])
sep
은 csv 파일에서 구분자를 설정하는 것인데, 대부분 경우 구분자가 ,
로 되어 있다. 만약 다른 구분자를 사용한다면 따로 설정하면 된다.
df = pd.read_csv("filename.csv", sep='\t') # 구분자가 탭으로 설정된 경우
그 외 매개변수 이용 등은 위 링크를 걸어놓은 read_csv
레퍼런스를 참고하면 된다.
엑셀 파일 불러오기
기본적으로 read_excel
(참고링크)을 통해 엑셀 파일, 즉 xls, xlsx 파일을 불러온다. 앞서 csv 파일을 불러오는 것과 마찬가지로 파일 이름, 혹은 경로가 포함된 파일 이름을 통해 불러올 수 있다.
df = pd.read_excel("filename.xlsx")
df = pd.read_excel("C:\\Users\\UsersName\\Downloads\\filename.xlsx")
그 외 매개변수 설정 등은 csv 파일을 불러올 때와 거의 같고, 대신 구분자를 통해 구분하지 않기에 sep 매개변수는 없다. 자세한 내용은 위 링크를 걸어놓은 read_excel
레퍼런스를 참고하면 된다.
CSV로 저장하기
기본적으로 to_csv
(참고링크)를 통해 csv 파일로 데이터프레임을 저장한다.
df.to_csv("C:\\Users\\UsersName\\Downloads\\filename.csv")
다양한 매개변수가 있고, 이는 링크를 걸어놓은 to_csv
레퍼런스를 참고하면 된다. 근데 대부분 환경에서는 따로 매개변수를 만질 필요가 없을 것이다.
엑셀로 저장하기
기본적으로 to_excel
(참고링크)을 통해 엑셀 파일로 데이터프레임을 저장한다.
df.to_excel("C:\\Users\\UsersName\\Downloads\\filename.xlsx")
다양한 매개변수가 있고, 이는 링크를 걸어놓은 to_excel
레퍼런스를 참고하면 된다. 근데 대부분 환경에서는 따로 매개변수를 만질 필요가 없을 것이다.
'Data Science > Pandas' 카테고리의 다른 글
[Pandas] 값 혹은 인덱스를 기준으로 데이터프레임 정렬 (0) | 2024.12.29 |
---|---|
[Pandas] 판다스를 통한 데이터 시각화(data visualization) (0) | 2024.12.28 |
[Pandas] 데이터프레임 기초 통계량 확인 (0) | 2024.12.26 |
[Pandas] 데이터 정보 확인과 미리보기 및 결측치 확인과 처리 (0) | 2024.12.25 |
[Pandas] 판다스 소개 및 시리즈(series)와 데이터프레임(dataframe) (0) | 2024.12.25 |