방송통신대

고객센터 안내 (02)539-9392 평일 : 오전 09:00 ~ 오후 18:00 점심시간 : 12:00 ~ 13:00 토, 일, 법정공휴일 휴무

2024년 1학기 통계데이터과학과 출석대체과제물(전체)

개설학과 통계데이터과학과 개설학년 1학년 교과목명 데이터정보처리입문 레포트등록 1건
공통(1건) 1. 교재1장 내용(12점)
교재 14쪽의 예제 1.1에 제시된 과정을 따라 엑셀을 활용하여 다음 그래프를 작성하시오. 필요한 통계정보는 KOSIS에서 찾아서 활용하시오.
(1) 1990년부터 2022년까지의 연도별 전국 총출생성비를 시계열도표로 나타내고 전체적인 경향을 설명하시오.
(2) 1990년부터 2022년까지의 연도별 서울과 부산의 총출생성비를 하나의 시계열도표에 나타내고 비교하여 설명하시오.
(3) 1993년부터 2022년까지의 연도별 전국 합계출산율을 시계열도표로 나타내고 전체적인 경향을 설명하시오.

2. 교재3장 내용(12점)
교재 75쪽에 제시된 데이터 score.txt(이기재 교수 홈페이지 자료실에 업로드되어 있음)에 대해서 R을 이용하여 다음 분석을 하시오.
(1) 평균, 중앙값, 표본분산, 표본표준편차, 변동계수를 구하여 분포의 특징을 설명하시오.
(2) 줄기-잎 그림, 히스토그램, 상자그림을 그리고 분포의 특징을 설명하시오.

3. 교재4장 연습문제 1번(6점)
개설학과 통계데이터과학과 개설학년 2학년 교과목명 엑셀데이터분석 레포트등록 1건
공통(1건) .교재2장 관련 내용(12점)
2024년 1월 2일부터 3월 29일까지의 종합주가지수(KOSPI), 달러환율, 엔화환율 자료를 각각 입력하여 꺾은선 그래프로 나타내고, 각 자료의 전체적인 경향과 자료 사이의 연관성을 설명하시오.
(참고: http://freesis.kofia.or.kr/
http://ecos.bok.or.kr/ )

2. 교재3장 관련 내용(6점)
(1) 연습문제 11번
(2) 연습문제 14번

3. 교재4장 관련 내용(6점)
(1) 연습문제 13번
(2) 연습문제 15번
(3) 연습문제 20번

4. 교재5장 관련 내용(6점)
(1) 연습문제 15번
(2) 연습문제 18번
개설학과 통계데이터과학과 개설학년 2학년 교과목명 통계학개론 레포트등록 1건
공통(1건) 1. 교재 p.160 예제 6-7의 데이터(어느 마을 초등학생 16명이 1년 동안 읽은 책 수)에 대하여 아래의 과정을 수행하시오.

2. 새로 개발된 다이어트 보조제의 효과를 알아보기 위하여 성인 12명의 자원자를 모집하여 몸무게를 측정하였다. 이후 3개월간 다이어트 보조제를 복용한 직후 다시한번 몸무게를 측정한 결과가 아래와 같다. 다이어트 보조제 복용 후 체중이 줄었다고 할 수 있는지 아래의 단계를 따라 단측검정하시오.

3. 스마트폰을 가지고 있는 초등학생 100명을 랜덤으로 뽑았더니 그 중 30명이 안경을 쓰고 있었다. 스마트폰을 가지고 있지 않은 초등학생 150명을 랜덤으로 뽑았더니 그 중 20명이 안경을 쓰고 있었다. 스마트폰 소유 여부와 안경 착용 여부는 서로 독립인가? 아래의 단계를 따라 검정하시오.

4. 다음은 어느 학급의 학생 15명의 국어점수와 영어점수 데이터이다.

(자세한 과제내용 방통대 공고를 확인하세요.)
개설학과 통계데이터과학과 개설학년 3학년 교과목명 회귀모형 레포트등록 -
공통 R을 이용하여 다음을 작성하시오.

(1) 교재 연습문제 1장. 2번, 5번 (10점)

(2) 교재 연습문제 2장. 1번, 4번, 5번 (20점)
개설학과 통계데이터과학과 개설학년 3학년 교과목명 데이터시각화 레포트등록 2건
공통(2건) 1. 좋은 데이터 시각화의 사례를 1개 찾고 어떤 점에서 훌륭한지 300자 이내로 서술하시오. (이미지를 캡처하여 한글이나 워드 파일에 첨부할 것. 이미지를 별도의 파일로 제출하지 말 것) (6점)

2. 한스 로즈링의 TED 강의(아래의 URL 이용)를 보고 데이터 시각화의 역할 등 느낀 점을 1페이지 이내로 정리하시오.(6점)
https://www.ted.com/talks/hans_rosling_let_my_dataset_change_your_mindset (오른쪽 아래 메뉴에서 한글 자막 설정 가능)

3. R의 datarium 패키지에 내장된 marketing 데이터셋은 광고 미디어에 사용한 비용과 판매액의 데이터이다. 변수 facebook은 facebook 광고비로 사용한 금액이고, 변수 sales는 판매액이다.
(1) facebook 광고비(facebook)를 가로축, 판매액(sales)를 세로축으로 하는 산점도를 그리시오. (3점)
(2) facebook을 독립변수(설명변수)로, sales를 종속변수(반응변수, 결과변수)로 하는 회귀직선을 산점도 위에 그리시오. 산점도의 제목으로 본인의 학번을 출력하시오. (6점)

4. R의 datarium 패키지에 내장된 headache 데이터셋은 두통 치료제에 대한 임상시험에 참가한 두통 환자 72명의 데이터이다. 변수 treatment는 세가지 치료제 X, Y, Z 중 어느 치료제를 받았는지 나타내며, 변수 pain_score는 치료제를 투약한 후 두통의 강도를 점수로 나타낸 것이다. 이 데이터에서 치료제에 따라 두통의 강도의 분포가 어떻게 다른지 드러내는 데이터 시각화를 수행하시오. 그래프의 제목으로 본인의 학번을 출력하시오. (유일한 정답이 있는 것이 아니며, 시각화의 목적이 달성되고 그래프의 제목으로 학번을 출력하면 만점) (9점)
개설학과 통계데이터과학과 개설학년 4학년 교과목명 데이터마이닝 레포트등록 1건
공통(1건) . 최근 생성형 AI에 관한 관심이 고조되고 있다. 생성형 AI는 많은 양의 데이터의 축적과 학습(learning)에 토대를 두고 있다. 생성형 AI의 발전과 데이터마이닝 기법의 연관성 유무를 판단하고 그 근거를 기술하시오. 단, 필자의 생각을 독창적으로 기술하시오. (6점)

2. 와인품질 데이터에 로지스틱 회귀모형을 적합하고자 한다. 과거의 분석 경험을 통해 alcohol 변수와 sulphates 두 변수가 매우 중요한 변수라는 것이 밝혀졌다고 하자. ① 이 두 변수만을 입력변수로 하여 와인 품질을 예측하는 로지스틱 회귀모형을 적합하시오. 또한, 이 적합 결과를 교재의 ② 전체 변수를 모두 넣고 분석한 결과 및 ③ 변수 선택을 하여 몇 개의 변수만 선택하고 분석한 결과와 비교하시오. (6점)

3. 입력변수와 목표변수가 모두 범주형인 어떤 데이터의 두 입력 변수 X1과 X2는 1, 2, 3 등 세 가지 값을 갖고, 목표변수는 Y=1, Y=2의 2개의 범주를 갖는다고 할 때, 각 집단별로 X1과 X2에 대하여 분할표를 아래와 같이 생성하였다. 물음에 답하시오. (목표변수가 범주형임에 유의)

4. 배깅, 부스팅, 랜덤포레스트에 관하여 다음에 답하시오. (교재에 명시된 알고리즘(p.116∼122) 참조)

(자세한 과제내용 방통대 공고를 확인하세요.)
개설학과 통계데이터과학과 개설학년 4학년 교과목명 다변량분석 레포트등록 -
공통 R과 파이썬을 각각 이용하여 작성하시오.

(1) 교재 연습문제 1장 3번, 4번 (12점)

(2) 교재 연습문제 2장 3번 (8점)

(3) 교재 연습문제 4장 3번 (1)-(3) (10점)

위로