R|Rstudio 7

R로 등분산 검정(Levene, Bartlett)

등분산 검정은 '분산의 동질성 검정'이라고도 한다. 대상 집단의 분산이 같은지 다른지를 통계적으로 검정하는 방법이다 등분산 검정의 가설은 다음과 같다. 귀무가설(H0): 모든 집단의 분산은 차이가 없다. 대립가설(H1): 적어도 하나 이상의 집단의 분산에 차이가 있다. 등분산 검정의 결과 유의값(p-value)이 .05 미만인 경우에는 대립가설을 지지하여 '분산에 차이가 있다.'고 말할 수 있다. 반대로 유의값(p-value)이 .05 이상인 경우에는 귀무가설을 지지하여 '분산에 차이가 없다.'고 말할 수 있다. R에서 등분산 검정을 수행하는 함수는 levene.test와 bartlett.test가 있다. Levene.test R에서 Leven.test 함수는 Levene(1960)의 분산의 동질성검정을..

R|Rstudio 2018.08.20

집단별 평균 차이검정(t검정, t-test)

독립표본 t-test를 수행하기 전에 각 표본 집단이 충족해야 하는 가정이 있다. 1) 각 표본이 정규성을 띠고 있어야 하고, 정규성 검정 링크(새창) 2) 분산이 같아야 한다. 등분산 검정 링크(새창) 물론, 위 가정을 충족하지 못하더라도 우회하여 검정하는 방법이 있다. 1) 의 경우 각 표본이 정규분포를 따르는지를 검정한다.일반적으로 표본의 크기가 30 이상인 경우 정규분포를 따르는 것으로 알려져 있다. (중심극한정리) 2) 의 경우 각 표본의 분산이 같은지를 검정한다.R 관련 함수 전체 보기 t.test: 집단의 평균에 대한 차이 검정 R에서 기본적으로 제공하는 t.test()함수는 Student's t-Test를 의미한다. 스튜던트의 t-test는 기본적으로 각 집단 표본의 분산에 차이가 없을 때..

R|Rstudio 2018.07.24

집단별 기초 통계량 구하기

집단별 데이터 처리 ddply 함수는 plyr 패키지에 포함된 함수이다. 아래와 같이 plyr 패키지를 설치하고 로드하면 ddply 함수를 사용할 수 있다. install.packages('plyr') library(plyr) 사용 데이터: 제주특별자치도 관광산업 빅데이터 분석정보(공공데이터) 예제로 사용된 데이터는 공공데이터포털에 등록된 2014~2016년 제주도 관광산업 빅데이터 분석정보이다. 2014년에서 2016년 간 내국인 제주도 관광객이 업종별/성별/연령별로 이용한 카드금액/카드건수가 나타나 있다. 각 행은 한 사람의 관광객이 제주도 여행을 간 기준년월(yyyymm)을 기점으로 하는 카드 사용 건에 대한 정보이다. 아쉽게도 데이터에 대한 메타정보가 없어서 각 변수값에 대한 정보를 일부 추측할 ..

R|Rstudio 2018.06.11

데이터 요약하기(Summarizing)

cut 함수: 도수분포표 작성 cut 함수는 숫자형 벡터를 요인형으로 구분해준다. 엄밀히 말하여 도수분포를 작성해주는 것은 아니다. 예를 들어, 학생들의 키 벡터가 height = c(152cm, 170cm, 160cm, 155cm, 180cm) 와 같이 제시되어 있고 cut 함수로 학생들의 키를 세 개 구간으로 나눈다고 하면 다음 같이 세 개 구간을 알려준다. [152, 161), [161, 171), [171, 180) 여기서 각 구간이 요인(factor)이 된다. height[1]의 경우 152이므로 [152, 161)에 구간에 해당한다. career 데이터의 gradM 변인을 3개 구간으로 cut 하면 아래와 같이 head 함수로 출력한 첫 6개 데이터는 200이하인 관측값이 5개, 400 초과,..

R|Rstudio 2018.06.07

#2 데이터 가공하기(Manipulating)

데이터 확인(Checking) 작업을 통해 이상한 점, 분석하기 어려운 자료 구조 등을 파악한 뒤에는 분석하기 용이하도록 데이터를 가공할 필요가 있다. 이러한 과정에는 데이터의 추가, 삭제, 변형 등이 있다. 이와 같은 과정을 모두 끝낸 후에 비로소 올바른 데이터 분석이 가능해진다. R 관련 함수 전체 보기 transform 함수: 변수 계산을 통한 신규 변수 생성 career 객체는 지난번 #1 데이터 확인하기 포스팅에서 다룬 진로현황 자료이다. 특별한 사유가 없는 한 앞으로 본 데이터를 가지고 지속적으로 포스팅 할 예정이다. str() 함수를 통해 career의 데이터를 살펴보니 남, 녀 졸업생 각각은 있지만 졸업생 합계 데이터가 없다. 앞으로 자주 쓰일 변수일테니 남, 녀 졸업생 합계 변수를 새로 ..

R|Rstudio 2018.05.22

#1 데이터 확인하기(Checking)

항상 본인이 다루는 데이터가 어떤 모습을 띠고 있는지 확인할 필요가 있다. R을 처음 만질 때는 이런 정보를 잘 확인하지 않게 된다. 빨리 결과를 보고싶기 때문... 그런데 우여곡절 끝에 결과값을 도출해놓고 보면, 십중팔구 '어 이상한데?' 스러운 상황이 연출된다. 결국엔 str이나 summary를 통해서 데이터를 살펴볼 수밖에 없다. 이런 과정을 통해서 내가 가진 데이터를 깎아내고, 다듬고, 칠하고 등등... 가공을 거쳐 완벽한 데이터셋을 만드는 작업이 필요하다는 생각에 이르게 된다. R을 본격적으로 다루게 되는 시점이 바로 이 지점이다. R 관련 함수 전체 보기 str 함수: 객체에 대한 정보를 요약적으로 제시 career 객체는 한국교육학술정보원(2017)의 고등학교 졸업자 진로현황 데이터를 가공하..

R|Rstudio 2018.05.21

[R/RStudio] #0 기본 코드 정리

S Y N O P S I S #R 기본 코드 정리 # 최근 회사 업무를 하면서 SPSS의 한계..라고 할지,# 아무튼 SPSS에서 제공하는 인터페이스에 불편함이 있어서 R을 배우게 되었다. # 주로 활용하는 통계 분석 툴, 방법 등을 정리하는 차원에서 포스트를 할 것이고, # 이후의 포스트에서도 설문결과에 대한 통계분석을 실시하는 데 필요한 툴을 다룰 예정이다. # R에서 사용하는 용어와 일반적인 프로그래밍 언어에서 사용하는 용어가 약간 다른 부분이 있다. # 언어적인 차원에서 다르다는 것이 아니라 언어를 이루는... 세계관이 다르다고 해야 하나, # 어쨌든 통계를 베이스로 하는 프로그램이라 수리/통계적 용어가 혼용된다. R/Rstudio 기본 코드들 정리 #객체(Object) 및 변수 설정들 x = 1..

R|Rstudio 2018.05.14