no image
국내 코로나 오미크론 vs 델타 바이러스 분석
오미크론이 델타보단 우세종이고 오미크론이 델타바이러스를 잠식 한다면 코로나가 감염병화 될 수 있다고 합니다. 간단한 데이터 분석으로 코로나 델타 바이러스와 오미크론 바이러스의 확산세를 알아 보도록 합니다 데이터셋 - https://www.kaggle.com/yamqwe/omicron-covid19-variant-daily-cases Omicron daily cases by country (COVID-19 variant) Daily Updated Omicron (COVID-19 Variant) cases www.kaggle.com 우선 위와 같이 라이브러리를 불러온 후 data 역시 불러와줍니다. 데이터의 구성을 대충 살펴 보겠습니다 location - 국가 date - 날짜 variant - 코로나 종류..
2022.02.03
no image
#1. 데이터 시각화
데이터 분석의 꽃이라고 할 수 있는 시각화를 시작해보겠습니다. 기본적으로 그래프를 다룰 수 있게 해주는 matplotlib을 위와 같은 코드로 불러옵니다. 예시로 위와 같은 그래프를 한번 만들어 보겠습니다. 간단합니다. x값과 y값을 설정한 후 plt.figure() ###### 하나의 도면을 만드는 코드입니다. plt.plot(x,y) ###### x y값을 도면에 그리는 코드 입니다. 간단하게 plt.plot(x,y) 로도 표현할 수 있답니다. 위의 글자가 보이시죠? 제 블로그 명을 한번 따봤습니다. 코드는 비교적 간단한 편이네요. 이번에는 x축과 y축에 라벨을 붙여봅시다. x 축에는 nang을 y축에는 man을 : ) 그리드,, 격자 라고도 하죠? 그려봅시다. 이번에는 x축과 y축의 범위를 설정 해..
2021.10.23
no image
#3. 데이터 프레임 결합
오늘은 데이터 프레임을 결합하는 방법에 대해서 알아보도록 하겠습니다. 정답을 보지 않고 위와 같은 데이터 프레임을 만들어 봅시다. 간단하게 해결할 수 있습니다. df1, df2 를 결합시켜 볼까요? pd.concat을 사용하고 axis =1 을 사용하여 횡으로 붙여줍니다. 이번엔 피벗 테이블을 만들어 볼까요?
2021.10.21
no image
#2. 데이터 프레임 심화
지난 시간에는 데이터 프레임을 조금 다뤄 보았습니다. 오늘은 데이터 프레임에 대해 더 알아 봅시다. 이렇게 예시 프레임을 하나 만들어 줍니다. a, b, c 칼럼이 있는게 보이시죠? 여기서 저희는 d 칼럼을 하나 더 만들어 봅시다. d 칼럼에는 2,3,2,3,2 의 수치가 있어야 합니다. 간단하게 해결 됩니다. 추가 사항으로 e 칼럼을 만들때 df['e'] = 0 만 작성해 봅시다. 오류가 날 것만 같았던 코드가 예상을 빗나갔습니다. 잘 작동 하는 모습을 볼 수 있습니다. 이 의미 없는 e 칼럼을 바로 삭제해봅시다. 여기 까지 하셨다면 a,b,c 칼럼에 각 1,2,3 숫자를 추가해봅시다 핵심은 ignore_index 입니다. 이게 추가 되지 않으면 append 사용에 제약이 생깁니다. ---- apply..
2021.10.18
no image
#1. 데이터 프레임 생성
* pandas, numpy 의 설명 등 기본적인 부분은 생략 하고 진행하겠습니다. 데이터 전처리의 가장 첫번째 과제는 데이터의 가독성을 높이는 것입니다. 우리 데이터를 프레임 형식으로 만들어 봅시다. pandas를 불러온 후 데이터 프레임을 만들어 줍니다. df로 만든 데이터 프레임을 불러옵니다. 간단하네요 : ) 리스트로도 데이터 프레임을 만들 수 있습니다. 이렇게 리스트를 하나 생성 해준 후 DataFrame으로 a를 불러옵니다. 역시 잘 만들어집니다. 여기서 저희는 column(열)의 이름이 마음에 들지 않습니다. 바꾸어 보겠습니다. 여기 까지도 간단하게 해결됩니다 : ) ※ 여기서 문제 입니다. 위의 데이터 프레임을 만들어보시길 바랍니다. ------- 이번엔 range를 이용해서 데이터 프레임..
2021.10.18
no image
창원시 범죄발생률 시각화
시작은 간단하게 해보도록 하겠습니다. 데이터 시각화의 첫번째 단계는 데이터 수집이고, 전 제가 사는 지역인 창원시의 범죄률을 파악하려고 합니다. 우선, data.go.kr/data/2894825/fileData.do 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase data.go.kr 공공데이터 포털에 접속한 후 대검찰청 범죄 발생지 현황 CSV 파일을 받아보도록 합시다. (차후에 알았지만 2008년도 자료인듯 합니다.) 파일을 열어보면 이렇게 전국 범죄발생빈도가 표시돼 있습니다. 엑셀에서 전처리 작업으로 창원만 남기고 타 지역은 모두 제거 할 ..
2020.10.28
no image
#2. 평균, 분산
글 하나를 작성하는데 꽤나 오랜 시간이 걸린다. 훗날 이 글을 읽게될 사람들은 작성날짜 역시 확인하며 고충이 따랐음을 글에 대한 플러스 요인에 넣어 주길 바란다. - 평균, 중앙값, 최빈값 통계를 조금이나마 해본 사람이라면 다들 들어 봤을 법한 단어다. 말 그대로 받아 들이면 된다. 자료들이 어떤 척도로 어느 위치를 '중심'으로 모여있는 지를 안다면 이것을 기준으로 잡아 평균(mean), 중앙값(median), 최빈값(mode) 를 척도로 사용할 수 있다. - 평균이란? 당신들이 생각하는 그것이 맞다. average 다들 청소년기에 성적 평균 계산을 해 봤을 것이다. 수학+영어+국어/과목수 를 하면 평균 점수가 나온다. 표본 평균과 모평균 역시 위의 예시에선 과목수를 표본의 전체 수로 잡던지 모평균의 전..
2020.10.26
no image
#1. 표
그림 없는 표 설명이 가능할까 싶지만 위 글을 찾는 사람들은 가지고 있는 지식에 완성도를 높이기 위해 찾으리라 생각하고 설명이나마 확실하게 해보겠다. - 도수분포표 학창시절에도 많이 보던 것이다. 자료의 형태를 파악하기 위해 어떤 항목에 어떤 숫자가 있는지를 정리한 것이다. 악보에 어떤 음이 얼만큼 들어갔는지를 예시로 들겠다. 도 1 레 3 미 5 솔 4 합계 13 이런 식인데 가볍게 상대도수 라는것을 구해본다면 어렵게 생각하지 말고 비율을 떠올리면 된다. 단일 갯수/ 전체 갯수 가 공식이다. ' 도 ' 를 예시로 들어 본다면 1/13 = 0.08 전체 악보에서 도가 8%를 차지하고 있다는 것이다. 이해가 되었으면 좋겠다. - 히스토그램 위키백과에서 복사해온 사진이다. 표본이 너무 적은것 같지만 형태만 ..
2020.10.19
#0. 통계학 입장
이 글을 읽는 사람의 수준이 얼마나 될지는 모른다. 그러나 분명 통계학의 기초 관해 필요한 것이 있기에 찾아 왔으리라 생각하여 통계학의 역사 라던지는 작성하지 않겠다. 내가 원하는 것은 남들도 원하는 것이라 생각하니 늘 내가 원하던 A to B의 설명을 하고자 한다. - 통계학은 이익이다. 사회의 이치와 같다. 단순히 합계,평균을 계산하는 일차원적인 수학의 하위 학문이 절대 아니다. 한줄로 요약 하겠다. ' 1000명으로 낸 수치로 3500명을 다뤄서 이익을 낼 수 있어야 한다.' 이것이 정석이다. 정답이 아닌 내가 생각하기에 '정석' 이다. 또한 통계학은 매우 불안정한 학문이다. 100%란 없고 최대치가 99.99999...%에 불과하다는 것을 차후에 알게될 것이다. - 모집단 통계학의 역사는 몰라도 ..
2020.10.19
반응형

오미크론이 델타보단 우세종이고 오미크론이 델타바이러스를 잠식 한다면 코로나가 감염병화 될 수 있다고 합니다.

간단한 데이터 분석으로 코로나 델타 바이러스와 오미크론 바이러스의 확산세를 알아 보도록 합니다

 

데이터셋 - https://www.kaggle.com/yamqwe/omicron-covid19-variant-daily-cases

 

Omicron daily cases by country (COVID-19 variant)

Daily Updated Omicron (COVID-19 Variant) cases

www.kaggle.com

 

우선 위와 같이 라이브러리를 불러온 후 data 역시 불러와줍니다.

 

 

 

데이터의 구성을 대충 살펴 보겠습니다

location - 국가

date - 날짜

variant - 코로나 종류

num_sequences - 확진자 수? 증가수? 정도로 판단됩니다.

perc_sequences - 증가수를 백분율

num_sequences_total - 누적 증가수

 

 

 

코로나 바이러스 종류가 알파,델타,오미크론 정도 인줄 알았는데 꽤 많은 종류가 있었습니다.

 

 

저희는 South Korea 의 K-Omicron이 필요 하기 때문에 일부만 추출 해냅니다

 

 

Kdelta 역시 오미크론과 같은 방식으로 추출 해냅니다.

Seaborn 의 sns.lineplot으로 시각화를 해 보았습니다.

델타 변이는 2021-4-19일경 시작된걸 알 수 있고

오미크론은 2021-12월경 시작된걸 알 수 있습니다.

 

2022년의 통계가 없는게 아쉽지만 오미크론이 우세종이 되기에는 조금 더 시간이 필요해 보입니다.

모두 코로나 조심하시길 바랍니다.

반응형

'빅데이터 > 데이터 시각화' 카테고리의 다른 글

#1. 데이터 시각화  (0) 2021.10.23
창원시 범죄발생률 시각화  (0) 2020.10.28
반응형

데이터 분석의 꽃이라고 할 수 있는 시각화를 시작해보겠습니다.

기본적으로 그래프를 다룰 수 있게 해주는 matplotlib을 위와 같은 코드로 불러옵니다.

 

예시로 위와 같은 그래프를 한번 만들어 보겠습니다.

 

간단합니다. x값과 y값을 설정한 후

plt.figure()    ###### 하나의 도면을 만드는 코드입니다.

plt.plot(x,y)    ###### x y값을 도면에 그리는 코드 입니다.

 

간단하게 plt.plot(x,y) 로도 표현할 수 있답니다.

 

위의 글자가 보이시죠? 제 블로그 명을 한번 따봤습니다.

코드는 비교적 간단한 편이네요.

 

이번에는 x축과 y축에 라벨을 붙여봅시다.

 

x 축에는 nang을 y축에는 man을 : )

 

 

 

그리드,, 격자 라고도 하죠? 그려봅시다.

 

 

이번에는 x축과 y축의 범위를 설정 해줄겁니다.

 

x축 범위를 1~10까지

y축 범위를 100~1000까지

 

 

오늘은 간단하게 여기 까지만 해보겠습니다.

 

 

 

 

※ 본 강좌는 패스트 캠퍼스의 '

한 번에 끝내는 머신러닝과 데이터분석 A-Z 초격차 패키지 Online.' 의 복습형 자료임을 밝힙니다.

반응형
반응형

오늘은 데이터 프레임을 결합하는 방법에 대해서 알아보도록 하겠습니다.

 

정답을 보지 않고 위와 같은 데이터 프레임을 만들어 봅시다.

 

 

간단하게 해결할 수 있습니다.

 

df1, df2 를 결합시켜 볼까요?

 

pd.concat을 사용하고 axis =1 을 사용하여 횡으로 붙여줍니다.

 

 

이번엔 피벗 테이블을 만들어 볼까요?

반응형

'빅데이터 > 데이터 전처리' 카테고리의 다른 글

#6. Data Sampling  (1) 2024.07.22
#5. TPOT 예제 (ExtraTreesClassifier)  (0) 2023.03.23
#4. 결측치, 이상치, 범주형  (0) 2023.03.16
#2. 데이터 프레임 심화  (0) 2021.10.18
#1. 데이터 프레임 생성  (0) 2021.10.18
반응형

지난 시간에는 데이터 프레임을 조금 다뤄 보았습니다.

오늘은 데이터 프레임에 대해 더 알아 봅시다.

 

이렇게 예시 프레임을 하나 만들어 줍니다.

 

a, b, c 칼럼이 있는게 보이시죠?

여기서 저희는 d 칼럼을 하나 더 만들어 봅시다.

d 칼럼에는 2,3,2,3,2 의 수치가 있어야 합니다.

 

간단하게 해결 됩니다.

 

추가 사항으로

e 칼럼을 만들때 df['e'] = 0 만 작성해 봅시다.

 

오류가 날 것만 같았던 코드가 예상을 빗나갔습니다.

잘 작동 하는 모습을 볼 수 있습니다.

 

이 의미 없는 e 칼럼을 바로 삭제해봅시다.

 

 

여기 까지 하셨다면

a,b,c 칼럼에 각 1,2,3 숫자를 추가해봅시다

 

핵심은 ignore_index 입니다. 이게 추가 되지 않으면 append 사용에 제약이 생깁니다.

 

----

apply와 map으로 데이터 변환을 한번 해 봅시다.

 

프레임을 하나 만들어 주시고

 

적용 방법은

df['c'] = df['a'].apply(function):

 

map을 사용해볼까요?

df['e'] = df['a'].map(a)

 

 

이번에는 map과 apply가 핵심이었습니다.

 

반응형

'빅데이터 > 데이터 전처리' 카테고리의 다른 글

#6. Data Sampling  (1) 2024.07.22
#5. TPOT 예제 (ExtraTreesClassifier)  (0) 2023.03.23
#4. 결측치, 이상치, 범주형  (0) 2023.03.16
#3. 데이터 프레임 결합  (0) 2021.10.21
#1. 데이터 프레임 생성  (0) 2021.10.18
반응형

* pandas, numpy 의 설명 등 기본적인 부분은 생략 하고 진행하겠습니다.

 

데이터 전처리의 가장 첫번째 과제는 데이터의 가독성을 높이는 것입니다.

우리 데이터를 프레임 형식으로 만들어 봅시다.

 

pandas를 불러온 후

데이터 프레임을 만들어 줍니다.

 

df로 만든 데이터 프레임을 불러옵니다.

 

간단하네요 : )

 

리스트로도 데이터 프레임을 만들 수 있습니다.

 

이렇게 리스트를 하나 생성 해준 후

 

DataFrame으로 a를 불러옵니다.

 

역시 잘 만들어집니다.

 

여기서 저희는 column(열)의 이름이 마음에 들지 않습니다.

바꾸어 보겠습니다.

 

여기 까지도 간단하게 해결됩니다 : )

 

※ 여기서 문제 입니다.

위의 데이터 프레임을 만들어보시길 바랍니다.

 

 

 

-------

 

이번엔 range를 이용해서 데이터 프레임을 만들어 봅시다.

대충 머릿속으로 그려는 지지만 보면 확실하게 이해가 가시죠?

 

이번에는 여기서 첫번째 행의 데이터를 출력해봅시다. 1,11,21을요

 

이럴때 사용할 함수는 loc 입니다.

 

마찬가지로 출력이 잘됩니다.

 

제가 처음 배울때 좀 헷갈렸던 부분은 이상과 이하의 모든 전제 조건을 포함한 데이터를 출력하는 것이었습니다.

 

문제를 바로 드리자면

- a가 5이하 또는 7이상인 데이터를 출력하시오.

 

 

 

 

 

그냥 하면 되는구나~ 싶다가도 다시 한번 생각하게 되는 문장입니다.

결국 두가지 조건을 모두 불러오면 되는 것인데 중간에 | 를 써 줘야 합니다 (엔터 위쪽) !

 

※ 본 자료는 패스트 캠퍼스 "

한 번에 끝내는 머신러닝과 데이터분석 A-Z 초격차 패키지 Online. "

의 복습용 자료임을 밝힙니다.

반응형

'빅데이터 > 데이터 전처리' 카테고리의 다른 글

#6. Data Sampling  (1) 2024.07.22
#5. TPOT 예제 (ExtraTreesClassifier)  (0) 2023.03.23
#4. 결측치, 이상치, 범주형  (0) 2023.03.16
#3. 데이터 프레임 결합  (0) 2021.10.21
#2. 데이터 프레임 심화  (0) 2021.10.18
반응형

시작은 간단하게 해보도록 하겠습니다.

 

데이터 시각화의 첫번째 단계는 데이터 수집이고, 전 제가 사는 지역인 창원시의 범죄률을 파악하려고 합니다.

 

우선, data.go.kr/data/2894825/fileData.do

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

data.go.kr

공공데이터 포털에 접속한 후

대검찰청 범죄 발생지 현황 CSV 파일을 받아보도록 합시다.

(차후에 알았지만 2008년도 자료인듯 합니다.)

 

파일을 열어보면

이렇게 전국 범죄발생빈도가 표시돼 있습니다.

 

엑셀에서 전처리 작업으로 창원만 남기고 타 지역은 모두 제거 할 수 있으나

이번에는 파이썬을 통해서 추출해보도록 하겠습니다.

 

pandas, Series, numpy, matplotlib을 불러와 줍니다.

#font_name은 제가 임의로 작성한것이기 때문에 안하셔도 무방합니다.

 

 

이제 진행 하셨다면 파일을 불러옵니다.

 

파일 이름 끝에 . 이 붙습니다. 유의하시고 작성해주세요!

 

파일을 불러 오셨다면 파일을 파이썬에서 열어봅니다.

df.set_index('2008년',inplace = True)

-> 2008년 이라는 목록을 기준으로 잡고 .head() 함수를 통해 상위 5개의 행들을 불러옵니다.

 

 

그 후에는 2008년을 기준으로 행렬을 정리해줘야 하는데

df.sort_values로 2008을 기준으로 잡고 sort를 해줍니다.

 

 

자, 이제는 저희가 원하는 창원을 확인해봐야합니다.

0:14로 총 13개의 수치를 불러왔는데 100개가 넘는 자료가 있어서 일부만 추출했습니다.

 

 

그 후, 파일을 수치화 시켜줘야하는데 현재 수치 사이 구분자가 - 로 돼 있기 때문에

 

for문을 사용해서 '창원' 이 가진 모든 수치 사이의 - 를 ''(공백) 으로 바꿔줍니다.

 

여기까지 왔다면 그래프를 그릴 준비가 됐고

그래프를 그려보도록 합니다

차후에는 더 간편하고 많은 시각화 형식을 배우겠지만 오늘은

kind = 'pie' 인 파이 그래프를 만들어 봅니다.

 

 

그래프 결과를 보고 범죄상태를 대략적으로 파악할 수 있습니다.

절도가 가장 많았고 그 다음으로는 사기가 그래프를 차지하고 있습니다.

 

 

 

 

 

첫 게시글이기 때문에 시각화의 흐름을 대략적으로만 분석 했습니다.

반응형
반응형

글 하나를 작성하는데 꽤나 오랜 시간이 걸린다. 훗날 이 글을 읽게될 사람들은 작성날짜 역시 확인하며 고충이 따랐음을 글에 대한 플러스 요인에 넣어 주길 바란다.

 

- 평균, 중앙값, 최빈값

통계를 조금이나마 해본 사람이라면 다들 들어 봤을 법한 단어다.

말 그대로 받아 들이면 된다. 자료들이 어떤 척도로 어느 위치를 '중심'으로 모여있는 지를 안다면

이것을 기준으로 잡아 평균(mean), 중앙값(median), 최빈값(mode) 를 척도로 사용할 수 있다.

 

- 평균이란?

당신들이 생각하는 그것이 맞다. average

다들 청소년기에 성적 평균 계산을 해 봤을 것이다. 수학+영어+국어/과목수 를 하면 평균 점수가 나온다.

표본 평균과 모평균 역시 위의 예시에선 과목수를 표본의 전체 수로 잡던지 모평균의 전체수로 잡던지 하는 차이이다.

 

글을 작성하면서도, 공부를 하면서도 매번 느끼지만 굳이 표본,모 이러한 단어들을 익히는 것은 혼란만 더 불어일으킨다고 본다.

 

- 중앙값이란?

이 역시 당신들이 생각하는 그 값이 맞다. 중앙에 있는 값.

1,2,3,4,5 숫자가 있다면 중앙값은 3.

1,2,3,4,5,6 짝수 숫자가 있다면 중앙에 있는 값의 중앙값. 즉 3과4의 중앙인 3.5

 

- 최빈값이란?

참고로 글쓴이는 처음에 '빈'을 보고 빈곤함을 떠올려서 가장 없는 숫자? 라는 말도 안되는 생각을 했다.

물론 그것은 아니고 자료 중에서 빈도수가 최대인 값을 의미한다.

 

여담으로 명목형 자료에서는 평균과 중앙값이 아무런 의미가 없다. 

예시를 들어 보자면

빨강-2 , 주황-5 , 노랑- 7 임의로 색깔에 숫자를 넣었다.

빨강과 주황과 노랑의 평균값을 구하시오 라는 질문에 답을 할 수 있는가?

우리는 빨강과 주황과 노랑이 어떠한 색인지를 알고 있기에 더해서 구할 수 있으나

어떤 색인지 모른다면? 구할 수 없는것이다. 이러한 것이 명목형 자료를 뜻하는 것이고

이런 경우 평균과 중앙값이 전부 의미가 없게 되고 가장 빈도수가 큰 노랑이 대표수가 되는 것이다.

 

- 사분위수란?

간단하다. 자료를 4개로 나누는 것이다. 1/4 , 2/4 , 3/4 , 4/4. 즉 25%, 50%, 75%, 100% 이다.

 

분산과 표준편차를 구하는 공식은 위에 첨부 하겠다.

 

참고로 저자는 " 분산에 루트는 표준편차 " 라는 말을 평생 기억하고 분산만 구하고 있다.

 

- 변동 계수

 

쉽게 보지 못하는 것이기도 한데 " 표준편차/평균 x 100% " 이다.

변동성을 평균에 대한 상대적인 값으로 표시한 것인데, 이를 사용하는 이유는

각 다른 회사의 주식 두개의 변동성을 함께 보기 위함? 정도로 파악하면 된다.

변동계수는 표준편차를 평균에 대한 상대적인 값으로 '표준화' 시킨 일종의 표준화된 표준편차이다.

 

- 피어슨상관계수

 두 숫자형 변수 사이의 선형적 강도를 나타내기 위한 통계량으로 공분산을 각 변수의 표준편차로 나눈 값이다.

 

반응형

'통계학 > 검정에 대한 고찰' 카테고리의 다른 글

#4. 최대우도추정법(Maximum Likelihood Estimation)  (0) 2023.03.24
#3. 가설검정  (1) 2023.03.17
#1. 표  (0) 2020.10.19
#0. 통계학 입장  (1) 2020.10.19
반응형

그림 없는 표 설명이 가능할까 싶지만 위 글을 찾는 사람들은 가지고 있는 지식에 완성도를 높이기 위해 찾으리라 생각하고

설명이나마 확실하게 해보겠다.

 

- 도수분포표

학창시절에도 많이 보던 것이다. 자료의 형태를 파악하기 위해 어떤 항목에 어떤 숫자가 있는지를 정리한 것이다.

악보에 어떤 음이 얼만큼 들어갔는지를 예시로 들겠다.

도 1

레 3

미 5

솔 4

합계 13

 

이런 식인데 가볍게 상대도수 라는것을 구해본다면 어렵게 생각하지 말고 비율을 떠올리면 된다.

단일 갯수/ 전체 갯수 가 공식이다. ' 도 ' 를 예시로 들어 본다면 1/13 = 0.08

전체 악보에서 도가 8%를 차지하고 있다는 것이다. 이해가 되었으면 좋겠다.

 

- 히스토그램

위키백과에서 복사해온 사진이다. 표본이 너무 적은것 같지만 형태만 파악하면 된다.

위 표를 보면 -1이 100번 , 1이 150번 으로 해석할 수 있다.(무엇에 관한 표본인지를 알 수 없다,,)

 

이는 '왜도' 라는 것으로 분석할 수 있는데 양의 왜도, 음의 왜도 로 구별할 수 있다.

위 그림 처럼 가운데가 솟은 것은 좌우 대칭 이라고 부른다.

양의 왜도는 왼쪽이 솟아 오르고 오른쪽이 내려간 것이고

음의 왜도는 오른쪽이 솟아 오르고 왼쪽이 내려간 것이라 생각하면 된다.

 

- 상자 그림

상자 그림 전에 다섯숫자요약을 알아야 한다.

최솟값, 일사분위수, 중앙값, 삼사분위수, 최댓값을 자료 전체의 값으로 요약하는 것이다.

이를 이용해서 그래프를 그리는 것을 상자 수염 그림 이라고 한다.

일사분위 ~ 3사분위로 상자의 길이를 결정한다.(1사분위는 자료의 15% 3사분위는 75% 를 뜻한다)

그 후 중앙값으로 상자의 중앙에 선을 그리고 상자의 대칭성을 파악한다.

상자는 수염 위에 있는데 이 수염의 길이는 최소, 최대 값이다.

 

- 산점도

짝으로 된 두개의 값을 자료로 나타낼때 사용한다.

 

위 처럼 점으로 표시된것인데 위키 백과에서 가져온 사진이라 미흡한 부분이 많다..

산점도의 행렬이라는 것도 존재하는데 여기서 점들이 왼쪽 밑에서 오른쪽 위로 ↗ 향한다면 양의 선형관계

왼쪽 위에서 오른쪽 아래로 나열되면 ↘ 음의 선형관계라 할 수 있다.

위 그래프의 경우 양의 선형 관계라고 생각 할 수 있고 차후에 더 설명 하겠다.

 

- 평행 좌표 그림

쉽게 보기 힘든 그림일 것이다. 잘 사용하지 않는 것으로 알고 있으나 경쟁력이 될 수 있으니 간단하게 설명 하도록 하겠다. 예시로 사람들의 닭, 돼지 ,소고기 섭취량과 같이 3개의 기준점을 잡고 3개를 그래프에 점을 찍고 선을 잇는 것이다.

10명의 사람들로 30개의 점을 찍어서 10개의 선을 만들어 선들의 차이를 보는 과정이라 할 수 있다.

반응형

'통계학 > 검정에 대한 고찰' 카테고리의 다른 글

#4. 최대우도추정법(Maximum Likelihood Estimation)  (0) 2023.03.24
#3. 가설검정  (1) 2023.03.17
#2. 평균, 분산  (0) 2020.10.26
#0. 통계학 입장  (1) 2020.10.19
반응형

이 글을 읽는 사람의 수준이 얼마나 될지는 모른다.

그러나 분명 통계학의 기초 관해 필요한 것이 있기에 찾아 왔으리라 생각하여 통계학의 역사 라던지는 작성하지 않겠다.

 

내가 원하는 것은 남들도 원하는 것이라 생각하니 늘 내가 원하던 A to B의 설명을 하고자 한다.

 

- 통계학은 이익이다.

사회의 이치와 같다. 단순히 합계,평균을 계산하는 일차원적인 수학의 하위 학문이 절대 아니다.

한줄로 요약 하겠다. ' 1000명으로 낸 수치로 3500명을 다뤄서 이익을 낼 수 있어야 한다.' 이것이 정석이다.

정답이 아닌 내가 생각하기에 '정석' 이다. 또한 통계학은 매우 불안정한 학문이다. 100%란 없고 최대치가 99.99999...%에 불과하다는 것을

차후에 알게될 것이다.

 

- 모집단

통계학의 역사는 몰라도 단어는 알아야 한다. 간단하다. 모집단은 그냥 당신이 조사하고자 하는 '것' 이다.

내가 정석을 논할때 언급한것을 보면 3500명이 모집단이다.

 

- 표본

이하 동문으로 1000명이 표본이다. 너무 많으니까 일부만 조사하는것이 표본이라 생각하면 된다.

 

# 조사를 하고자 하는 것은 표본이긴 하지만 결국에는 모집단에 대한 예측이 중요하다. 일부분으로 전체의 정보를 알아낸다.

이것을 우리는 '통계적 추론' 이라 칭한다. ( 표본에서 계산된 통계를 모집단에 대한 정보로 바꾸는 과정)

 

- 자료

다들 알다시피 통계의 필수 요소다. 자료가 있기 때문에 통계가 있다. 통계학을 공부하는 정도면 단어적인 느낌을 보고 다들 이해하리라 생각한다.

 

-명목형 자료

이름이나 문자로 나타내는 자료이다. 특징은 순서가 없고 사칙연산이 안된다. 그 옛날 학교 반 친구들 이름의 집단이라 생각하면 된다.

순서를 매길수도 더할수도 없는 자료다.

 

-순서형 자료

대표적으로 학점이 있다. A B C D F 처럼 문자이지만 '순서'를 매길 수 있는 것들이다. 주의해야 할 점은 사회적인 통념에 의한 순서를 매길 수 있는 것들만 순서형 자료로 취할 수 있다. 내가 생각하기에 순위를 매긴 것을 순서형이라 하면 안된다는 것이다.

 

-숫자형 자료

말그대로 사칙연산이 가능한 수치로 된 자료다. 수치는 특이하게 ' 5 ' 라고 해서 숫자 5가 아니다. 4.5~5.5 정도의 사이를 나타내게 된다.

보이는 것을 다 믿지 말아야 하고 오차를 생각해야 한다는 뜻이다. 그래서 숫자형 자료는 '범주형 자료' 라고도 한다.

 

# 여담으로 명목형과 순서형 자료는 질적 자료 또는 비계량적 자료, 숫자형 자료는 양적자료 또는 계량형 자료라고 한다.

 

이러한 조건들 뿐만 아니라 다른 조건들도 있는데, 시계열과 횡단면 정도가 있다.

 

- 시계열 자료

말그대로 시간의 변화에 따라 얻는 자료이다. 간단하게 연도별 이자율? 정도를 생각하면 된다.

 

- 횡단면 자료

어렵다면 어렵게 느낄 수 있는 자료인데, 같은 시차에서의 다른 개체를 분석하는 것이다.

예시로는 A기업과 B기업의 이자율이 차이가 나는 이유가 종목 때문인지 사회 때문인지 등

시간의 변화에 따른 개채를 분석 한다고 생각하면 된다.

 

 

줄 글로만 작성하면 가독성이 굉장히 떨어지고 피로해 진다는 것은 충분히 알고 있다.

가볍게 부분 부분을 이해하길 바란다.

 

 

반응형

'통계학 > 검정에 대한 고찰' 카테고리의 다른 글

#4. 최대우도추정법(Maximum Likelihood Estimation)  (0) 2023.03.24
#3. 가설검정  (1) 2023.03.17
#2. 평균, 분산  (0) 2020.10.26
#1. 표  (0) 2020.10.19