중복 행 제거
drop_duplicates
(참고링크)를 사용한다. 말 그대로 중복된 행이 있다면 제거한다. 이때 여러 매개변수를 이용할 수 있다.
subset
은 중복을 고려할 칼럼 라벨이나 라벨 리스트를 설정하는 매개변수이다. 기본값은 None
으로 모든 열을 기준으로 한다.
keep
은 중복된 값이 있어 행을 삭제할 때 어느 행을 유지할 지 결정하는데, 'first'
는 첫 번째 행 유지, 'last'
는 마지막 행 유지, False
로 설정하면 모든 중복 행 제거이다.
inplace
는 True
라면 원본 데이터프레임을 수정하고 None
을 반환하며, False
인 경우 중복을 제거한 데이터프레임을 반환한다. 기본값은 False
이다.
ignore_index
는 True
라면 인덱스를 재설정, False
라면 재설정하지 않는다. 기본값은 False
이다.
특정 행 또는 열 제거
drop
(참고링크)을 이용하면 편리하다. 인덱싱을 통해서 특정 열을 제외하고 선택한 후 다시 저장해도 되지만, drop
을 이용하는 편이 깔끔하다. 아래와 같은 여러 매개변수를 이용할 수 있다.
labels
와 axis
매개변수를 동시에 이용하는 방법이 있다. labels
에 제거하려는 행의 인덱스 혹은 열의 이름을 넣고, axis
로 인덱스인지, 열인지를 설정하는 방법이다. axis
가 0
또는 'index'
라면 인덱스 기준이고, 1
또는 'columns'
이면 열 기준이다.
또는 index
나 columns
매개변수를 이용할 수도 있다. index
에 삭제할 인덱스 또는 인덱스 리스트를 넣거나, columns
에 삭제할 열 이름 또는 열 이름 리스트를 넣으면 된다.
level
을 통해 멀티 인덱스에서 제거할 레벨을 지정할 수 있다.
inplace
를 True
로 설정하면 원본에서 특정 행 또는 열을 제거하고 None
을 반환하고, False
로 설정하면 제거된 데이터프레임을 반환한다. 기본값은 False
이다.
errors
를 'ignore'
로 설정하면 오류를 무시하고 존재하는 레이블만 제거한다. 'raise'
인 경우 오류가 발생하면 예외(exception)를 발생시킨다. 기본값은 'raise'
이다.
'Data Science > Data Processing' 카테고리의 다른 글
[Pandas] 데이터프레임 그룹화(groupby) (0) | 2025.03.04 |
---|---|
[Pandas] 데이터프레임 새로운 열 할당(assign) 및 구간 나눠(cut, qcut) 새로운 열 만들기 (0) | 2025.03.03 |
[Pandas] 데이터프레임 인덱싱(loc, iloc) 및 단일값 접근(at, iat) (0) | 2025.01.17 |
[Pandas] 녹이기(melt)와 피벗(pivot)을 통한 데이터프레임 재구조화 (0) | 2025.01.06 |
[Pandas] 데이터프레임 연결(concatenate) 및 결합(merge), 그리고 간단 결합(join) (0) | 2024.12.30 |