2024. 8. 1. 22:37ㆍ프로그래밍/R - 데이터 탐색
안녕하세요? 분석하는 디제이입니다.
오늘은 데이터 탐색 과정 중, 많이 사용하는 데이터 구조 파악하는 방법을 알아보겠습니다.
그럼 가시죠!
데이터 구조를 파악할 때 많이 사용하는 함수는 3가지입니다.
dim()함수, str()함수, 그리고 glimpse() 함수입니다.
함수의 사용 방법은 모두 함수 안에 데이터만 넣으면 됩니다.
dim(data) , str(data) , glimpse(data) 이렇게요.
내장데이터 mtcars를 사용해서 먼저 dim()함수부터 보겠습니다.
dim()함수는 데이터가 몇 개의 행과 몇 개의 열을 가지고 있는지 보여주는 함수인데요.
처음 나오는 숫자 32가 행, 뒤에 나오는 숫자 11이 열을 의미합니다.
그래서 이 데이터는 32행 11열을 가지고 있구나~ 하는 것을 확인할 수 있는 것이죠.
그럼 여기서 좀 더 구체적으로 11개의 열 데이터가 어떤 형태로, 어떤 값들을 가지고 있는지 궁금할텐데요.
그럴 때 사용하는 것이 str()함수와 glimpse()함수입니다.
먼저, str()함수부터 보겠습니다.
str()함수는 전체 행과 열의 개수, 각 열의 데이터 형태와 첫 10개 관측치를 보여줍니다.
아래 결과로부터 mtcars 데이터는 32개의 행, 11개의 열을 가진 dataframe형식 데이터라는 것과,
11개의 열에 대한 데이터 형식(num)과 첫 10개 관측치를 확인할 수 있습니다.
여기서 자주 보는 데이터 형식에 대해서는 아래 표에 정리해놨으니 참고하시면 되겠습니다.
데이터 형식 | 줄임말 | 설명 |
numeric | num | 실수형 데이터 (예: 1.23, 4.56) |
Double | dbl | 실수형 데이터 (예: 1.23, 4.56) |
integer | int | 정수형 데이터 (예: 1, 2, 3) |
character | chr | 문자형 데이터 (예: "a", "Hello") |
logical | logi | 논리형 데이터 (TRUE, FALSE) |
factor | fctr | 범주형 데이터, 문자 데이터의 범주로 변환 |
Date | Date | 날짜 데이터 (예: "2021-01-01") |
다음으로는 glimpse()함수인데요.
glimpse()함수는 dplyr패키지 안에 들어있는 함수이기 때문에 dplyr패키지를 불러온 후 사용해주셔야합니다.
함수의 역할은 str()함수와 동일하게, 데이터의 행과 열, 각 열의 데이터 형태, 초반 관측치를 보여줍니다.
간단하죠?
오늘은 데이터 구조에 대해 알아볼 수 있는 함수 3가지에 대해 알아보았습니다.
다음에 또 유익한 정보로 찾아오겠습니다.
감사합니다.