[R] 결측값(missing value)과 특이값(outlier) 처리
·
Language/R
결측값 데이터가 없는 것을 결측값이라 한다. 데이터가 0 이거나 계산될 수 없는 것과는 다르다. R 에서는 NA로 표기한다.결측값이 포함되면 당연하게도 데이터 분석에 지장이 생긴다. 다양한 함수에서 해당 데이터를 그대로 사용하지 못하는 것부터 계산했더라도 결측값이 있는 데이터가 얼마나 정확한지에 대한 검증이 없기 때문에 신뢰성에 문제가 생긴다. 따라서 결측값을 사전에 전처리(preprocessing) 해주어야 한다. 결측값 확인is.na(data)is.na() 함수로 결측값을 확인할 수 있는데, 결측값이면 TRUE를, 없으면 FALSE를 반환한다. 만약 단일 변수가 아니라면 해당 자료형에 맞춰 TRUE와 FALSE를 반환한다.예를 들어 아래와 같은 코드가 있다 해보자.vdata 출력은 다음과 같다.> i..