Rstudio 3

R로 등분산 검정(Levene, Bartlett)

등분산 검정은 '분산의 동질성 검정'이라고도 한다. 대상 집단의 분산이 같은지 다른지를 통계적으로 검정하는 방법이다 등분산 검정의 가설은 다음과 같다. 귀무가설(H0): 모든 집단의 분산은 차이가 없다. 대립가설(H1): 적어도 하나 이상의 집단의 분산에 차이가 있다. 등분산 검정의 결과 유의값(p-value)이 .05 미만인 경우에는 대립가설을 지지하여 '분산에 차이가 있다.'고 말할 수 있다. 반대로 유의값(p-value)이 .05 이상인 경우에는 귀무가설을 지지하여 '분산에 차이가 없다.'고 말할 수 있다. R에서 등분산 검정을 수행하는 함수는 levene.test와 bartlett.test가 있다. Levene.test R에서 Leven.test 함수는 Levene(1960)의 분산의 동질성검정을..

R|Rstudio 2018.08.20

집단별 평균 차이검정(t검정, t-test)

독립표본 t-test를 수행하기 전에 각 표본 집단이 충족해야 하는 가정이 있다. 1) 각 표본이 정규성을 띠고 있어야 하고, 정규성 검정 링크(새창) 2) 분산이 같아야 한다. 등분산 검정 링크(새창) 물론, 위 가정을 충족하지 못하더라도 우회하여 검정하는 방법이 있다. 1) 의 경우 각 표본이 정규분포를 따르는지를 검정한다.일반적으로 표본의 크기가 30 이상인 경우 정규분포를 따르는 것으로 알려져 있다. (중심극한정리) 2) 의 경우 각 표본의 분산이 같은지를 검정한다.R 관련 함수 전체 보기 t.test: 집단의 평균에 대한 차이 검정 R에서 기본적으로 제공하는 t.test()함수는 Student's t-Test를 의미한다. 스튜던트의 t-test는 기본적으로 각 집단 표본의 분산에 차이가 없을 때..

R|Rstudio 2018.07.24

집단별 기초 통계량 구하기

집단별 데이터 처리 ddply 함수는 plyr 패키지에 포함된 함수이다. 아래와 같이 plyr 패키지를 설치하고 로드하면 ddply 함수를 사용할 수 있다. install.packages('plyr') library(plyr) 사용 데이터: 제주특별자치도 관광산업 빅데이터 분석정보(공공데이터) 예제로 사용된 데이터는 공공데이터포털에 등록된 2014~2016년 제주도 관광산업 빅데이터 분석정보이다. 2014년에서 2016년 간 내국인 제주도 관광객이 업종별/성별/연령별로 이용한 카드금액/카드건수가 나타나 있다. 각 행은 한 사람의 관광객이 제주도 여행을 간 기준년월(yyyymm)을 기점으로 하는 카드 사용 건에 대한 정보이다. 아쉽게도 데이터에 대한 메타정보가 없어서 각 변수값에 대한 정보를 일부 추측할 ..

R|Rstudio 2018.06.11