본문 바로가기
  • (개인)정보보호/최신ICT 정보 공유 블로그

통계학의 이해31

기댓값의 개요 1. 기대값 가. 기댓값의 정의 정의 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값 어떤 확률적 사건에 대한 평균의 의미 Y의 기대값 E(Y) 나. 기대값의 성질 2. 분산 가. 나. 분산의 성질 2022. 9. 8.
확률의 개요 1. 확률의 정의 -어떤 사건의 발생에 대해 장래 발생의 비율을 수치로 표현한 것 과거의 발생률 미래의 발생률 비율 확률 -어떤 특정 사건이 일어날 가능성을 0~1사이의 값으로 표현 -확률이 0에 가까우면 어떤 사건이 일어날 가능성이 낮고, 1에 가까우면 일어날 가능성이 높음 2. 고전적 확률과 통계적 확률 가. 고전적 확률 조건 우연실험에서 일어날 수 있는 경우가 N가지로 유한 각각의 경우가 일어날 가능성이 모두 동일 어떤 사건 A가 일어날 수 있는 경우가 M가지일 경우 사건 A가 일어날 확률 P(A) = M/N 고전적 확률의 한계 일어날 수 있는 경우가 모두 알려져 있고 각각의 사건이 일어날 가능성이 모두 동일한 경우에 적용 실제 문제에서는 조건을 만족하지 못하는 경우가 자주 발생 -과학적 실험이나 .. 2022. 9. 8.
표본이론 기초 1. 표본조사의 개요 가. 표본조사의 정의 -모집단을 잘 대표할 수 있는 조사단위의 일부만을 조사하는 것 -전수조사가 불가능하거나 전수조사가 가능하지만 비용, 시간 등의 면에서 표본조사가 선호되는 경우에 사용 -전수조사란 모집단(통계 집단)을 구성하는 조사단위를 전부 조사하는 것 나. 표본조사의 장점 - (경제성), 조사비용이 전수조사에 비해 적게 듦 -(신속성), 신속한 정보를 적시에 얻을 수 있음 -(정확성), 표본조사를 하게 되면 표본오차가 발생하나 전수조사보다 비표본오차가 작게 발생 -(심도 있는 조사), 인구주택총조사는 20개 항목은 전수 조사하고 나머지 50개 항목(전수조사항목 20개, 추가 항목 30개)은 표본조사로 심도 있는 조사 가능 -(파괴검사), 자동차 안전도 검사나 전구 수명 등 측.. 2022. 8. 29.
가설검정 이해 가설검정과정 이해 o 1인 가구의 생활비가 N (μ=170, σ=10)을 따르는 것으로 알려짐 하지만 최근 생활비가 170만원보다 커졌다고 하는 반론이 제기되어 검정하려고 함 임의표존 1인 가구 25명 임의 추출 25명 기본정보 (표본 평균 x바는 174만원, 표본표준편차 s=9만원) 유의수준 5%로 수행 1. 가설 수립 (가설) - 귀무가설 Ho : μ170 ***Point - 가설은 모집단의 관한 입장이므로 x바가 아닌 μ를 사용 - 귀무가설에만 등호(=) 사용 2. 기각역 결정 - 기각역은 유의수준과 관련된 값 - 유의수준 : 귀무가설이 참일때 귀무가설을 기각할 최대 확률 - 귀무가설이 참이라는 전제 하에 특정값(기각치)을 넘으면 귀무가설을 기각하겠다는 규칙 (기각역 결정 시 핵심: 1) 귀무가설이.. 2022. 8. 26.
가설검정 1. 가설검정 -통계분석은 우리가 알고자 하는 내용에 대해 모집단을 다 조사해야하지만 그럴 수 없어서 표본을 추출하게 되고 표본으로부터 계산된 통계량들을 근거로 모집단 판단 - 기초통계 분석방법: 독립표본 t-test, 대응 2표본 t-test, 분산분석, 상관분석, 회귀분석 - 기초통계 분석방법 적용 방법 파악과 출력 결과 해석에 어려움 - 출력된 결과 해석 방법 - 귀무가설과 대립가설 구분 기호 설명 귀무가설 H0 차이가 없다 관계가 없다 -별다른 문제가 없는 한 나타날 것으로 예상되는 현상에 대한 기존 입장 대립가설 H1 귀무가설에 대한 반대 입장 -귀무가설에 상반된 입장 -형태에 따라 '단측검정'과 '양측검정'으로 구분 *** 연구문제에 대한 가설 예시: 남학생들의 평균성적이 여학생보다 높다. o.. 2022. 8. 26.
표본추출분포의 이해 1. 표본추출분포 - 모집단에서 확률적으로 추출된 표본으로부터 산출된 통계량을 따르는 확률분포 표본추출이 독립적으로 무한히 반복되는 상황에서 통계량은 일정한 확률 분포를 따르게 되는 것 * 전국의 만19세 남자의 키 평균 μ과 표준편차 λ인 정규분포를 따르는 경우 임의의 100명 추출하면 100명의 표본 평균은 모평균μ으로 기대됨 (임의 표본평균은 기대되는 값과 동일한 값이 될 수도 있고 아닐 수도 있음) - 모집단에서 추출된 100명의 평균들은 모평균μ 근처 값에 주로 있을 것이며 모평균보다 큰 값도 작은 값도 존재 - 100명의 표본평균을 가능한 한 모든 경우를 조사해보면 이들의 분포는 모평균이 μ인 정규분포를 따른다고 알려짐 - 표본평균의 '표준오차'는 모든 경우의 100명의 표본평균이 다른지를 나.. 2022. 8. 26.
정규분포와 표준정규분포 1. 정규분포 - 가우스분포 - 많은 분야에서 연속형 변수로 나타나는 현상을 표현하는 분포로 자리 잡음 - 가운데가 높고 좌우대칭적인 형태 - 중심을 나타내는 평균과 산포를 나타내는 표준편차가 형태를 결정 - 정규분포를 따른다고 가정하는 것은 평균을 중심으로 좌우대칭적인 형태의 종모양 함수를 의미 - Y축이 상대도수밀도인 히스토그램의 모습을 종모양의 함수로 표시 (면적 100%, 비율 1로 표기), (상대도수밀도 = 상대도수/계급구간의 폭) - 어느 지역의 1인 가구의 생활비 정규분포로 가정한 경우, 생활비는? 생활비를 평균 170만원, 표준편차 20만원일 때, o 이 지역에 있는 1인 가구의 약 68%의 생활비는 150만원에서 190만원 (평균으로부터 1-표준편차 작거나 큰 경우) o 190만원 이상 .. 2022. 8. 26.
통계 용어 정리 1. 모집단과 표본 - 모집단 : 관심을 가지고 있는 전체 집단 (만 19세 남자 키의 평균) - 표본 : 모집단(확률현상)의 일부분으로서 모집단에 대한 정보를 얻기 위해서 모집단으로부터 추출한 집단 (모집단에서 추출된 만 19세 남자 키의 평균) - 모수 : 모집단의 특성을 나타내는 수치(요약값) (모평균, 모표준편차, 모비율 등) - 모수치 : 모집단의 특성을 나타내는 결과치 - 통계량 : 추출된 표본에서 관찰될 값으로부터 구해질 특성치(요약값) (표본평균, 표본표준편차, 표본 최대값/최소값표본비율 등) - 통계치 : 추출된 표본에서 관찰된 값으로부터 계산되어진 결과치(표본평균, 표본표준 편차, 표본비율 등) - 추정 : 표본으로부터 모집단의 모수를 추정한 것 (모수값 예측) - 추정량 : 모수를 추.. 2022. 8. 26.
23. 이항분포와 (표준)정규분포 1. 이항실험과 이항분포 가. 이항실험(binomial experiment) -각 시행에서 성공확률이 p인 베르누이 시행을 주어진 횟수(n번)만큼 반복할 때 각 시행이 독립적이기 때문에 각 시행의 결과가 다른 시행의 결과에 영향을 미치지 않으면 우리는 전체 실험을 이항실험이라 함 -베르누이 실험을 독립적으로 n번 반복 시행하는 것 예) -표적에 3발을 쐈을 때 과녁에 맞히면 h라 표시하고 못 맞히면 m이라 표시 -각 시행은 독립적이며 h와 m의 확률도 동일 -h가 나올 횟수는 0, 1, 2,3 중 하나 (X가 나올 값) -한번 쏘아서 과녁을 맞힐 확률 p 나. 이항분포(binomial distribution) -이러한 이항실험의 성공 횟수 확률분포를 이항분포라 함 -베르누이는 이항분포의 특수한 경우임 (.. 2021. 8. 16.
22. 확률분포와 확률질량(밀도)함수 1. 확률분포 가. 확률분포 이산확률변수의 확률분포 이항분포 푸아송분포 이산균등분포 기하분포 초기하분포 -확률변수 X가 취하는 값에 대응하는 확률을 나타내는 표, 함수, 그래프를 의미 연속확률변수의 확률분포 균등분포 정규분포 표준정규분포 지수분포 카이제곱분포 t-분포 F-분포 -확률표, 확률함수, 확률 히스토그램를 이용하여 나타낼 수 있음 2. 확률질량함수 가. 확률질량함수의 정의 -이산확률변수의 확률분포를 나타내는 확률함수 나. 확률질량함수의 성질 3. 확률밀도함수 가. 확률밀도함수의 정의 -연속확률변수의 확률분포를 나타내는 확률함수 나. 확률밀도함수의 성질 2021. 8. 16.
21. 확률의 성질 두 개 이상의 사건이 결합된 사건의 확률 구하기 1. 공사건의 경우 -표본점이 하나도 없으므로 고전적 확률의 정의에 의하여 확률은 0이고 표본공간 전체의 확률은 1임 -A ∈ S인 임의의 사건 A에 대한 확률은 0과 1 사이의 값임 2. 덧셈 법칙 임의의 두 사건 A와 B가 배반인 경우 A∪B의 표본점 개수는 각 표본점의 개수의 합과 같음 임의의 두 사건 A와 B가 배반이 아닌 경우 적어도 하나의 공통 표본점을 가지므로 중복되는 A∩B안의 표본점의 개수를 빼야 함 3. 여사건 임의의 사건 A는 여사건과 공통의 표본점을 갖지 않으므로 덧셈 법칙에 의해 다음과 같음 2021. 7. 31.
20. 공분산과 상관계수 1. 공분산 가. 공분산의 정의 분산, 표준편차 -평균을 중심으로 흩어지거나 밀집되는 정도를 나타내는 척도 공분산 -두개의 확률변수의 선형관계를 나타내는 값 -독립변수와 종속변수(x, y)가 흩어지거나 밀집되는 방향과 정도를 나타내는 척도 (한 확률변수의 증감에 따른 다른 확률변수의 증감 경향에 대한 척도) -분산이라는 개념을 확장하여 두 개의 확률변수의 흩어진 정도를 나타냄 나. 공분산의 유형 모공분산 -독립변수의 편차와 종속변수의 편차의 곱에 대한 평균 표본공분산 -독립변수의 편차와 종속변수의 편차의 곱의 합을 n-1로 나눈 값 다. 공분산과 산점도 -'Sxy > 0'이면 '양의 상관관계', 'Sxy < 0'이면 '음의 상관관계', 'Sxy = 0'이면 '무상관관계'가 있다고 함 -공분산이 양수이고 .. 2021. 7. 30.
19. 상자그림 1. 상자그림의 개요. 가. 상자그림의 정의 -특정한 자료 값을 기반으로 그려진 요약 그래프 나. 상자그림의 특징 -(정규분포), 상자그림은 정규분포와 흡사한 형식 -(50%), 전체 분포 범위의 50%가 상자 몸통에 포함 -(이상점), 상자그림을 통해 데이터 분포 확인 및 이상점 처리 용이 2. 상자그림의 개념도 및 구성요소 가. 상자그림의 개념도 나. 상자그림의 구성요소 구분 특징 설명 제1사부위수 Q1 제25백분위수 제3사분위수 Q3 제75백분위수 사분위수 범위 IQR(Q3-Q1) 상자 그림 몸통 중앙값 Q2 상자그림의 몸통 한가운데 최대값 상자의 상위(한쪽) 끝부분 최소값 상자의 하위(다른 한쪽) 끝부분 이상점 최대값, 최소값을 벗어난 값 울타리 바깥의 값 2021. 7. 29.
18. 백분위수와 사분위수 1. 백분위수 가. 정의 -전체 관측값을 100*p %와 100*(1-p) %로 나눌 수 있는 값 나. 개념도 2. 사분위수 가. 정의 -전체 관측값을 사등분하는 값 나. 개념도 -제1사분위수 = Q1 = 제25백분위수 -제2사분위수 = Q2 = 제50백분위수 -제3사분위수 = Q3 = 제75백분위수 3. 사분위수 범위(IQR) = Q3 - Q1 -(산포의 척도), 수집된 자료에서 비정상적으로 크거나 작은 특이값에 영향을 받음 -(부분 자료), 자료 분포의 50%에 해당하는 자료만 사용 -(특이값), 특정 분포 영역의 자료만 취하여 특이값을 무시 가능 2021. 7. 29.
17. z-점수 1. z-점수의 개요 가. z-점수의 정의 -평균을 0으로 대치하고 0을 중심으로 각 자료 값의 절대 위치를 상대적 위치로 변환한 값 -자료 값들의 상대적인 위치를 나타내는 척도 -'표준점수'라도 함 나. z-점수의 해석 (양의 값), 실제 자료 값이 평균보다 큼을 의미 (음의 값), 실제 자료 값이 평균보다 작음을 의미 2. z-점수의 개념도 -0을 중심으로 각 자료 값의 절대 위치를 상대적 위치로 변환 2021. 7. 29.
16. 변동 계수 1. 변동 계수의 개요 가. 변동 계수의 정의 -단위에 상관없이 양수의 값으로 평균으로부터 상대적으로 흩어진 정도를 나타내는 척도 나. 변동 계수의 필요성 -(표준편차), 평균을 중심으로 자료 값들의 위치에 대한 척도 -(자료 비교), 절대적인 수치로 표시되는 표준편차를 이용하여 두 자료 집단의 산포를 평가하기는 어려움 측정단위가 동일하지만 평균에 차이가 있는 집단 간 비교 또는 측정단위가 서로 다른 집단 간 비교 시에 표준편차는 부적절함 2. 변동 계수 유형 가. 모집단의 변동 계수 나. 표본의 변동 계수 2021. 7. 29.
15. 그룹화된 자료의 분산과 표준편차 1. 그룹화된 자료 가중평균 계산법이 그룹화된 자료의 평균, 분산, 표준편차의 대략적인 값을 구하는데 사용된다. 가중평균을 계산하기 위해, 각 계급의 중간점을 그 계급의 평균처럼 가정하여 사용한다. 계급의 도수를 가중치로 사용하여 계급 중간점들의 가중평균을 계산한다. 분산과 표준편차를 계산할 때도 유사한 방법으로 계급의 도수를 가중치로 사용한다. 2. 그룹화된 자료의 표본 평균 -가중평균 계산법에 따라 그룹화된 자료의 표본 평균을 구하면 34525.0/70 = 493.21 3. 그룹화된 자료의 표본 분산과 표준편차 의 공식에 따라 다음과 같이 계산하면 -표본 분산은 3,017.89, 표본 표준편차는 54.94 이다. *이러한 그룹화 자료에서 표본 평균과 표본 분산/표준편차 계산은 실제 평균, 표본 분산/.. 2021. 7. 29.
14. 통계적 가설검정 1. 통계적 가설검정의 개요 가. 통계적 가설검정의 정의 통계적 가설 -모집단의 특성(모수)에 관한 예상, 주장, 추측 통계적 가설검정 -모집단에서 추출한 표본의 정보를 이용하여 미지의 모수에 대한 주장 혹은 단순한 추측 즉 가설의 옳고 그름을 판단하는 과정 나. 통계적 가설검정 관련 용어 구분 특징 설명 귀무가설 H0 -가능한 한 채택하려고 세운 가설, 특별한 문제가없는 한 나타날 것이라고 예산하는 기존 입장 대립가설 H1 -귀무가설과 상반되는 가설 단측 대립가설 >, 2021. 7. 18.