47 분 소요

빅데이터분석기사 필기 오답노트

1과목 : 빅데이터 분석 기획

2021.10.02 기출

1. 다음 중 분석 마스터 플랜에 대한 설명으로 옳은 것은?

① 전략적 중요도, 비즈니스 성과와 ROI, 분석 과제의 실행 용이성을 고려하여 과제의 우선 순위 기준을 설정한다.

② 단계별로 추진하고자 하는 목표를 명확하게 정의하고, 추진 과제별 선행 관계를 고려하여 단계별 추진 내용을 정의한다.

③ 분석 목표를 기반으로 분석 과제를 수행하기 위해 필요한 기준 등을 담아 만든 종합적인 계획이다.

④ 데이터 수집 및 확보와 분석 데이터 준비 단계는 순차적으로 진행하고 모델링 단계는 반복적으로 수행한다.

정답 : 1번

  • 2,3,4 번에 대한 보기는 분석 로드맵에 대한 설명이다.

2. 다음 중 빅데이터 분석 방법론의 데이터 분석 과정에서 수행하는 업무로 옳지 않은 것은?

① 데이터 수집, 저장 및 정합성 검증

② 텍스트 데이터 확인, 수집 및 데이터 분석

③ 모델 평가 및 모델 검증

④ 탐색적 데이터 분석 및 데이터 시각화

정답 : 1번

  • 데이터 분석 단계 : 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증 을 수행,
  • 데이터 수집 및 정합성 검증은 데이터 준비 단계에 속하는 부분

3. 다음 중 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)에 저장된 빅데이터를 ETL(Extract, Transform, Load) 작업이 가능한 시스템은?

① Pig

② Tajo

③ Oozie

④ HBase

정답 : 2번

  • 아파치 타조(Apache Tajo)는 분산 컴퓨팅 플랫폼인 아파치 하둡 기반의 분산 데이터 웨어하우스 프로젝트
  • 하둡의 빅데이터를 분석할 때 맵리듀스를 사용하지 않고 SQL을 사용하지 않고 SQL을 사용해 HDFS 파일을 바로 읽어 내는 기술

4. 다음 중 데이터 분석 절차로 옳은 것은?

정답 : 분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개

  • 시스템 구현이 평가 및 전개보다 앞 단계이다.

5. 다음 중 데이터 웨어하우스의 특징으로 옳지 않은 것은?

① 주제정확성

② 시계열성

③ 통합성

④ 소멸성

정답 : 4번

  • 데이터 웨어하우스는 주제 지향성(주제 정확성), 통합성, 시계열성, 비휘발성의 특징을 가지고 있다.

6. 다음 중 객관성, 정확성, 진정성 등 데이터 자체가 고품질임을 나타내는 데이터 품질 유형으로 옳은 것은?

① 유용성 품질

② 적시성 품질

③ 적합성 품질

④ 접근성 품질

정답 : 1번

  • 유용성 품질은 객관성, 정확성, 진정성 등 데이터 자체의 품질을 나타냄
    • 내재적 품질이라고 한다.

7. 다음 중 개인정보 비식별화 방법으로 옳지 않은 것은?

① 데이터 마스킹

② 가명처리

③ 값 대체

④ 범주화

정답 : 3번

  • 개인정보 비식별화 방법 : 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹

8. 다음 중 아래에서 설명하는 내용으로 옳은 것은?

특정 기업이 가진 이용자 개인정보를 다른 기업에 제공하려면 이용자의 동의를 구해야하 하는데, 이때 다른 기업이 이용자에게 직접 동의를 구해 특정 기업에 개인 정보 제공을 요청할 수 있다.

정답 : 마이 데이터

  • 마이 데이터는 데이터의 원래 소유자인 개인이 자신의 데이터에 대한 권리를 보유하고 있으며, 스스로 행사할 수 있다.

2022.04.09 기출

9. 다음 중 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)에 대한 설명으로 옳은 것은?

① 복제 횟수는 내부에서 결정되며 사용자가 임의로 변경할 수 없다.

② EXT4, NTFS가 상위 시스템이다.

③ GFS와 동일한 소스코드를 사용한다.

④ 네임노드와 데이터 노드의 개수는 항상 동일하다.

정답 : 3번

  • HDFS 는 구글 파일 시스템(GFS)을 기반으로 구현된 오픈소스이므로 동일한 특성을 가지고 있다.

오답 정리

  • 환경설정 파일에서 사용자가 개수 조절 가능
  • haddop의 각 서버 내에서는 그 서버의 OS에서 사용되는 NTFS나 EXT4같은 물리적 파일 시스템을 활용

10. 다음 중 분산파일 시스템에 대한 설명으로 옳은 것은?

① 하나의 컴퓨팅 자원을 다수의 시스템이 사용하는 관계로 병목현상이 발생한다.

② 비관계형 데이터베이스와 같은 의미를 지니며 대표적으로 NoSQL이 있다.

③ 네트워크를 통해 여러 파일을 관리 및 저장한다.

④ 컴퓨터 네트워크를 통해 공유되는 여러 호스트 컴퓨터의 파일에 접근할 수 있다.

정답 : 4번

  • 분산 파일 시스템은 네트워크를 통해 물리적으로 다른 위치에 있는 여러 컴퓨터에 자료를 분산 저장하여 마치 로컬 시스템에서 사용하는 것처럼 동작하게 하는 시스템

11. 다음 중 분석 로드맵 설정 시 우선순위로 고려해야 할 상황은 아닌 것은?

① 비즈니스 성과 및 ROI

② 시급성

③ 전략적 중요도

④ 분석 데이터 적용

정답 : 4번

  • 분석 로드맵 설정 시 비즈니스 성과 및 ROI, 시급성, 전략적 중요도, 실행 용이성등을 우선하여 고려해야 함.

12. 다음 중 개인정보 비식별화에 대한 설명으로 옳지 않은 것은?

① 비식별 정보는 제3자 제공이 가능하며, 원칙적으로 불특정 다수에게 공개 또한 가능하다.

② 비식별 정보는 비식별 조치를 취한 이후에도 모니터링과 기술적 보호조치를 하여야 한다.

③ 비식별화는 개인을 식별할 수 없도록 하는 조치이다.

④ 비식별 정보는 사전에 개인정보 해당 여부에 대하여 검토하고, 개인정보가 아닌 경우 활용 가능하도록 한다.

정답 : 1번

  • 개인정보를 비식별화 하였어도 원칙저으로 불특정 다수에게 공개하면 안된다.

13. 다음 중 개인정보 비식별화 기술에 대한 설명으로 옳지 않은 것은?

① 총계처리 : 데이터의 총합 값으로 처리하여 개별 데이터의 값을 보이지 않도록 하는 방법

② 가명처리 : 개인 식별에 중요한 데이터를 식별할 수 없는 다른 값으로 변경하는 방법

③ 범주화 : 데이터의 값을 범주의 값으로 변환하여 값을 변경하는 방법

④ 데이터 마스킹 : 개인 식별에 중요한 데이터 값을 삭제하는 방법

정답 : 4번

  • 데이터 마스킹 기법은 개인을 식별하는데 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법
    • 보이지 않게 vs 삭제는 엄연히 다른 것

14. 다음 중 1제타바이트에 1byte의 아스키 코드를 넣을 경우 저장 가능한 용량으로 옳은 것은?

① 2의 70승

② 2의 50승

③ 2의 30승

④ 2의 10승

정답 : 1번

  • 킬로바이트 (10승), 메가바이트(20승), 기가바이트(30승), 테라바이트(40승), 페타바이트(50승), 엑사바이트(60승), 제타바이트(70승), 요타바이트(80승)

15. 다음 중 인메모리(in-memory) 기반의 데이터 처리 오픈소스 플랫폼으로 옳은 것은?

① 맵리듀스(Map Reduce)

② 하이브(Hive)

③ 아파치 스파크(Apache Spark)

④ 피그(Pig)

정답 : 3번

  • 아파치 스파크는 실시간 분산형 컴퓨팅 플랫폼으로 in-memory 기반의 데이터 처리를 수행하며, 하둡보다 처리속도가 빠르다.

오답 정리

  • 맵리듀스 : 분할정복 방식으로 대용량 데이터를 병렬으로 처리
  • 하이브 : 하둡 기반의 데이터 웨어하우지용 솔루션
  • 피그 : 대용량 데이터 집합을 분석하기 위한 플랫폼

16. 다음 중 데이터에 노이즈를 추가함으로써 개인정보를 보호하면서 데이터분석을 진행할 수 있는 방법으로 옳은 것은?

① K-익명성

② L-다양성

③ 개인정보 차등 보호

④ 가명화

정답 : 3번

  • 차등정보보호는 통계나 수리적 방법으로 데이터를 변형하여 위험을 낮추거나, 데이터의 수집 단계에서 직접 정보보호처리를 하는 방법을 사용

오답 정리

  • K-익명성 : 주어진 데이터 집합에서 같은 값은 적어도 K개 이상 존재하도록 해서 쉽게 다른 정보로 결합할 수 없도록 함
  • L-다양성 : 주어진 데이터 집합에서 함께 비식별되는 레코드들은 동질 집합에서 적어도 L개의 서로 다른 정보를 가짐
  • 가명화 : 개인정보 중 주요 식별요소를 다른 값으로 대체

17. 다음 중 빅데이터 저장 기술로 옳은 것은?

① Map Reduce

② 직렬화

③ 시각화

④ NoSQL

정답 : 4번

  • 맵리듀스는 데이터 처리 기술,
  • 데이터 저장 기술로는 NoSQL

2022.10.01 기출

18. 다음 중 빅데이터 분석 기획 과정에서 WBS(Work Breakdown Structure)를 작성하는 단계로 옳은 것은?

① 분석 주제 정의

② 모델링 방안 수립

③ 프로젝트 계획 수립

④ 도메인 및 프로세스 이해

정답 : 3번

  • WBS는 프로젝트 계획 수립 단계에서 작성
  • 분석 과정에서 실제 수행되어야 하는 작업을 세분화하여 일정 및 산춘물 등을 정리

19. 다음 중 데이터 수집 기술에 대한 설명으로 옳지 않은 것은?

① 크롤링(Crawling)은 웹사이트에서 뉴스 등 웹 문서나 콘텐츠를 수집할 수 있는 기술이다.

② FTP(File Transfer Protocol)는 여러 서버로부터 로그 파일 등을 실시간으로 수집할 수 있는 기술이다.

③ 스쿱(Sqoop)은 관계형 DBMS로부터 HDFS로 커넥터를 이용하여 데이터를 수집할 수 있는 기술이다.

④ API(Application Programming Interface)는 시스템 간 연동을 통해 실시간으로 데이터를 수집할 수 있는 기술이다.

정답 : 2번

  • FTP는 TCP/IP 기반의 파일 송수신을 위한 응용계층 통신 프토콜, 시스템 간에 파일을 공유하기 위한 기술

20. 다음 중 병렬 DBMS의 특성으로 옳지 않은 것은?

① 다수의 마이크로 프로세서를 동시에 사용한다.

② 데이터 처리가 신속하다는 장점이 있다.

③ 데이터 중복 저장의 단점이 있다.

④ 시스템 용량 확장이 용이하다.

정답 : 3번

  • 병렬 DBMS는 대규모 데이터 처리를 위해 데이터를 일정 단위로 나누어 병렬로 트랜잭션 처리를 하는 시스템, 데이터를 중복하여 저장하는 것이 아니다.

2023.04.08 기출

21. 다음 중 네트워크를 통해 공유하는 여러 호스트 컴퓨터의 데이터에 접근할 수 있는 파일 공유 방식은?

① 분산 파일시스템

② 공유 데이터베이스

③ 네트워크 데이터베이스

④ 파일 전송 프로토콜(FTP)

정답 : 4번

  • FTP는 대량의 파일을 네트워크를 통해 주고 받을 때 쓰는 파일 전송 프로토콜 (이미 위에서 한 번 나옴. 개념 암기)

21. 다음 중 공공데이터와 같은 외부데이터를 이용할 때의 장점으로 옳은 것은?

① 비용이 저렴한 편이다.

② 다양한 데이터를 선택할 수 있다.

③ 내부 데이터보다 보안이 우수하다.

④ 데이터에 대한 소유권을 가질 수 있다.

정답 : 2번

  • 데이터 획득을 위한 비용 절감, 보안성, 데이터에 대한 소유권의 확보 가능성은 내부 데이터의 장점

22. 다음 중 분석 준비도(Readiness)의 진단 영역으로 옳지 않은 것은?

① 분석 문화

② 분석 결과

③ 분석 기법

④ 분석 데이터

정답 : 2번

  • 분석 준비도는 조직 내 데이터 분석 업무 도입을 목적으로 현재 수준을 파악하기 위한 진단 방법
  • 분석 업무, 분석 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라로 총 6가지 영역으로 구성

23. 다음 중 데이터 거버넌스의 구성요소로 옳지 않은 것은?

① 원칙

② 조직

③ 프로세스

④ IT 인프라

정답 : 4번

  • 데이터 거버넌스 : 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직과 책임 등의 표준화된 관리 체계를 수립하고 운영하기 위한 프레임워크와 저장소를 구축하는 것
  • 원칙, 조직, 프로세스로 구성

24. 다음 중 빅데이터 플랫폼의 계층 구조에 대한 설명으로 옳지 않은 것은?

① 최상단에 소프트웨어 계층이 있으며, 아래로 플랫폼 계층, 인프라스트럭쳐 계층, 하드웨어 계층이 존재한다.

② 소프트웨어 계층에서는 빅데이터 애플리케이션을 구성하며 데이터 처리 및 분석과 이를 위한 데이터 수집, 정제를 한다.

③ 인프라스트럭쳐 계층에서는 자원 배치와 스토리지 관리, 노드 및 네트워크 관리 등을 통해 빅데이터 처리와 분석에 필요한 자원을 제공한다.

④ 플랫폼 계층에서는 빅데이터 애플리케이션을 실행하기 위한 플랫폼을 제공하며, 데이터 관리 모듈, 자원 관리 모듈, 서비스 관리 모듈, 보안 모듈 등으로 구성되어 있다.

정답 : 1번

  • 빅데이터 플랫폼은 위에서부터 소프트웨어, 플랫폼, 인프라스트럭쳐 계층으로 총 3개의 계층만 존재

25. 다음 중 데이터 분석을 통한 개선사항을 도출하는 단계로 옳은 것은?

① 모델 개발

② 분석 목표 수립

③ 도메인 이슈 도출

④ 프로젝트 계획 수립

정답 : 3번

  • 도메인 이슈 도출 : 분석 대상 과제 현황을 파악하고 개선과제를 정의하는 것

26. 다음 중 데이터 분석 조직에 대한 설명으로 옳지 않은 것은?

① 기능형은 특정 현업 부서에 국한된 협소한 분석을 수행할 가능성이 높다.

② 집중형은 전사 분석 업무를 별도의 전담조직에서 수행하므로 중복되지 않는다.

③ 분산형은 분석 전문 인력을 현업 부서에 배치하여 분석 업무를 신속하게 수행한다.

④ 조직구조는 집중형, 기능형, 분산형으로 구분할 수 있으며, 기능형은 DSCoE 조직이 없다.

정답 : 2번

  • 조직구조는 집중형, 기능형, 분산형으로 구분
  • 기능형은 별도의 분석전담조직이 없고, 분산형은 DSCoE가 있다.

27. 다음 중 병렬 DBMS에 대한 설명으로 옳지 않은 것은?

① 분산 아키텍처를 가지고 있다.

② 데이터 중복의 최소화로 관계형 DBMS보다 성능이 우수하다.

③ 데이터 파티셔닝과 데이터 병렬 처리를 통해 고성능을 제공한다.

④ 데이터를 복제하여 분산한 관계로 데이터 변경에 따른 관리 비용이 발생한다.

정답 : 2번

  • 데이터 중복의 최소화는 관계형 DBMS의 특징

2023.09.23 기출

28. 다음 중 하둡분산파일시스템(Hadoop Distributed File System, HDFS)에 대한 설명으로 옳은 것은?

① 블록당 저장 가능한 크기는 10MB 이하이다.

② 다양한 데이터를 동일한 공간에 저장할 수 있다.

③ 네임노드가 손상되면 정상적으로 작동하지 못한다.

④ 범용 장비의 사용이 적합하지 않으며, 주로 고성능 컴퓨터를 사용한다.

정답 : 3번

  • 네임노드에 오류가 발생하면 전체 시스템에 오류가 발생하여 정상적으로 작동되지 않는다.
    • 장애복구 기능 제공을 위해 파일시스템의 메타데이터를 파일로 백업
    • 네임스페이스 이미지를 복제하여 보조 네임노드를 운영하는 방법 제시

29. 다음 중 기업 분석 수준 진단 항목으로 옳지 않은 것은? (한번 더 틀림)

① 분석 데이터

② 분석 인프라

③ 분석 조직의 규모

④ 분석 업무와 문화

정답 : 3번

  • 분석 준비도 진단 방법 6가지 :
    • 분석 업무, 인력 및 조직 분석, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라
    • 분석 조직의 규모는 파악하지 않는다.

30. 다음 중 데이터가 처리되는 과정에서 변경되거나 손상되지 않고, 유지함을 보장하는 특성으로 옳은 것은?

① 데이터 정확성

② 데이터 일관성

③ 데이터 무결성

④ 데이터 완전성

정답 : 3번

  • 데이터 무결성 : 데이터가 처리되는 과정에서 변경되거나 손상되지 않고 유지함을 보장하는 특성
  • 데이터 정확성 : 실세계에 존재하는 객체의 표현 값이 정확하게 반영
  • 데이터 일관성 : 데이터가 지켜야 할 구조, 값, 표현되는 형태가 일관되게 저으이하고, 서로 일치해야 한다는 특성
  • 데이터 완전성 : 필수항목에 누락이 없어야 한다는 특성

2024.04.06 기출

31. 다음 중 빅데이터 분석 방법론의 데이터 분석 단계에서 수행하는 작업으로 옳지 않은 것은?

① 평가용 데이터 준비

② 데이터 모델링

③ 데이터 확인 및 추출

④ 모델링 적용 및 운영방안

정답 : 1번

  • 데이터 분석 단계의 5가지 단계
    • 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증

32. 다음 보기에서 설명하고 있는 내용으로 가장 적절한 것은?

수집한 데이터를 저장, 처리하고 분석할 수 있도록 포괄적으로 지원

① 빅데이터 마이닝

② 빅데이터 플랫폼

③ 빅데이터 처리 기술

④ 빅데이터 탐색기술

정답 : 2번

  • 빅데이터 플랫폼에 대한 설명, 기술들을 잘 사용할 수 있도록 준비된 환경

33. 다음 중 정량적 데이터와 정성적 데이터에 대한 설명으로 옳지 않은 것은?

① 정량적 데이터는 양적 데이터이다.

② 정성적 데이터는 질적 데이터이다.

③ 정량적 데이터 중 계수 데이터는 범주형 데이터로 변환이 가능하다.

④ 정성적 데이터 중 변수 데이터는 연속형 데이터로 변환 가능하다.

정답 : 4번

  • 정량적 데이터 : 정형, 반정형 데이터 / 정성적 데이터 : 비정형 데이터
  • 정형 또는 바정형의 유형의 정량적 데이터를 비정형 유형의 정성적 데이터로의 변환은 가능하지만, 그 반대로의 변환은 어렵다.

34. 다음 중 개인정보보호 관련 법률에 대한 설명으로 옳지 않은 것은?

① 개인정보 파기 시에 사유는 고지할 의무가 없다.

② 익명정보를 생산할 때 당사자의 동의를 구해야 한다.

③ 개인정보보호위원회는 개인정보보호 업무를 독립적으로 처리하기 위한 기관이다.

④ 데이터3법으로 개인정보보호법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 신용정보의 이용 및 보호에 관한 법률이 있다.

정답 : 2번

  • 익명정보를 생성하고자 할 때 그 당사자를 한정 못한다.

35. 다음 중 보기에서 설명하고 있는 비식별화 기법과 세부기술로 옳은 것은?

사용자에 대한 정보를 뒤섞어 정보의 손실 없이 특정 개인에 대한 추측을 할 수 없도록 한다. 

정답 : 총계처리 - 재배열

36. 다음 중 분산 저장방식으로 적절하지 않은 것은?

① GFS

② Ceph

③ HDFS

④ HBase

정답 : 4번

  • GFS, HDFS, 아마존 S3 파일 시스템이 대표적
    • 추가적으로 Ceph도 분산 컴퓨터 클러스터에 오브젝트 스토리지를 구현
  • HBase는 하둡 파일 시스템 위에 설치, 데이터 모델은 열 집합 기반의 저장소로 구성

37. 다음 중 Key-Value 데이터베이스에 대한 설명으로 옳지 않은 것은?

① 단순한 데이터 모델에 기반을 두기 때문에 복잡한 쿼리의 수행이 가능하다.

② 단순한 데이터 모델에 기반을 두기 때문에 쿼리의 질의 응답시간이 빠르다.

③ 단순한 데이터 모델에 기반을 두기 때문에 관계형 데이터베이스보다 확장성이 뛰어나다.

④ 데이터를 키(key)와 그에 해당하는 값(value)의 쌍으로 저장하는 데이터 모델에 기반을 둔다.

정답 : 1번

  • 확장성도 뛰어나고, 질의응답 시간도 빠르다.
  • 그냥 나머지 3개의 보기가 맞아서 1번이 틀린 듯

38. 다음 중 하향식 문제 탐색 과정에 대한 설명으로 옳지 않은 것은?

① 문제 탐색은 개인이 생각하는 문제를 간단하게 나열한다.

② 타당성 검토는 경제적, 기술적 타당성을 분석하는 단계이다.

③ 문제 정의는 식별된 비즈니스 문제를 데이터 문제로 변환한다.

④ 해결방안 탐색은 과제 정의 후 어떻게 해결할 것인지 방안을 탐색한다.

정답 : 1번

  • 하향식 문제 탐색 과정의 4단계
    • 문제 탐색, 문제 정의, 해결방안 탐색, 타당성 평가
  • 문제 탐색은 현황 분석, 인식된 문제점, 전략에서 기회나 문제를 탐색 해야하기에 개인이 생각하는 문제 나열이 아니다.

39. 다음 중 텍스트 마이닝에 대한 설명으로 옳지 않은 것은?

① 사용하지 않거나 분석에 필요 없는 불용어를 제거해야 한다.

② Tokening은 예측해야 할 정보를 하나의 특정 기본 단위로 자르는 작업이다.

③ Stemming는 동일한 뜻을 가진 형태가 다른 단어들을 같은 형태로 바꾸는 작업이다.

④ POS tagging은 분류나 군집화 등 빅데이터에 숨겨진 의미 있는 정보를 발견하는데 사용하기도 한다.

정답 : 4번

  • POS tagging은 문장 내 단어들의 품사를 식별하여 태그를 붙여줌 .

2024.09.07 기출

40. 다음 보기에서 설명하고 있는 조직의 분석 성숙도의 단계로 옳은 것은?

- 데이터 분석을 위한 도구와 시스템을 구축중
- 일부 숙련된 직원에게 데이터 분석을 의존 

① 도입

② 활용

③ 확산

④ 최적화

정답 : 1번

  • 도입 : 분석을 시작하여 환경과 시스템을 구축
  • 활용 : 분석 결과를 실제 업무에 적용
  • 확산 : 전사 차원에서 분석을 관리하고 공유
  • 최적화 : 분석을 진화시켜 혁신 및 성과 향상에 기여

41. 다음 중 기존 데이터에 노이즈를 추가하여 데이터 비식별화한 후 데이터 분석을 수행하는 방법은? (비슷한 문제 또 틀림)

① l- 다양성

② k-익명성

③ 차등 보호

④ 가명 처리

정답 : 3번

  • 차등 보호 : 개인정보가 포함된 데이터에 노이즈를 추가하여 분석 결과에 영향을 주지 않도록 함.
  • l-다양성 : 특정인 추론이 불가능하다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮춤
  • k-익명성 : 특정인임을 추론할 수 있는지 여부를 검토 및 일정 확률 수준 이상 비식별 되도록 하는 기법

42. 다음 중 데이터 웨어하우스에서 데이터를 저장하기 위해 추출하고 정제 및 변환하는 곳은?

① ODS

② OLAP

③ Meta-data

④ Data Mart

정답 : 1번

  • ODS(Operational Data Store) : 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리하는 기능
    • OLAP : 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션

43. 다음 중 데이터 품질 진단 및 개선 절차로 옳은 것은?

정답 : 진단대상정의 -> 품질진단실시 -> 진단결과분석 -> 개선계획수립 -> 개선수행 -> 품질통제

2025.04.05 기출

44. 집중형 조직구조에 대한 설명으로 옳지 않은 것은?

① 분석 결과를 현업에 빠르게 적용할 수 있다.

② 내부에서 전사 분석과제의 우선순위를 정한다.

③ 현업 부서와 분석 업무가 중복되거나 이원화될 수 있다.

④ 전사 분석 업무를 별도의 전담조직에서 수행한다.

정답 : 1번

  • 집중형 조직구조 : 전사 분석 업무를 별도의 전담조직에서 수행하는 것
  • 분석 결과를 빠르게 현업에 적용할 수 있는 구조는 분산형 조직구조

45. 다음 중 정보를 추가하거나 결합하여야 개인을 식별할 수 있는 정보는?

정답 : 가명정보

  • 단독으로는 개인을 식별 X, 다른 정보와 결합하면 가능

46. 다음 중 데이터 산업의 구조에서 서비스 영역에 해당하는 것은?

① 배치 시스템 제공

② 데이터 수집 도구 제공

③ 데이터 정보 제공

④ 네트워크 장비 제공

정답 : 3번

  • 인프라 영역 : 데이터 수집, 저장, 분석, 관리 등의 기능을 담당
  • 서비스 영역 : 데이터 활용을 위한 교육, 데이터 자체 제공, 가공한 정보 제공

47. 다음 중 데이터 웨어하우스의 특징과 거리가 먼 것은?

① 통합성

② 확장성

③ 시계열성

④ 주제지향성

정답 : 2번

  • 데이터 웨어하우스 특징 : 주제 지향성, 통합성, 시계열성, 비휘발성

48. 데이터를 수집하는 방법에 대한 설명으로 옳은 것은?

① 관찰은 특정 가설을 검증하기 위해 조작된 조건에서 데이터를 수집한다.

② FGI는 작은 그룹의 참가자들을 모아 집단적인 토론을 통해 의견과 경험을 수집하는 방법이다.

③ 실험은 실시간 또는 사전에 녹화된 비디오 또는 사진, 음악, 인터뷰 등을 통해 이루어질 수 있다.

④ 설문조사는 사람들의 의견이나 행동에 대한 데이터를 수집하는 일반적인 방법으로 깊은 인사이트를 얻을 수 있다.

정답 : 2번

  • FGI(Focused Group Interview) : 작은 그룹 참가자들이 모여 집단적인 토론을 통해 의견과 경험을 수집하는 방법

2과목 : 빅데이터 탐색

2021.10.02 기출

1. 차원축소 기법 중 하나인 요인분석에 대한 설명으로 틀린 것은?

① 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법이다.

② 독립변수와 종속변수를 구분하고, 주로 기술통계에 의한 방법을 이용한다.

③ 변수를 축소하거나 변수의 특성을 파악하고 파생변수를 생성할 때도 용이하다.

④ 영향력이 큰 주요변수와 유사한 변수를 제거하면서 소수의 요인으로 축약하는 기법이다.

정답 : 2번

  • 요인분석은 다양한 변수들 간의 상호 의존성을 파악하고 잠재적인 구조를 추출하는 비지도학습이다.
  • 주로 변수들 간의 공분산 또는 상관계수를 활용하여 요인을 도출한다.

2. 변수 변환 기법 중 Box-Cox 변환 기법에 대한 설명으로 올바르지 않은 것은?

① 데이터가 가진 스케일이 심하게 차이가 나는 경우 그 차이를 그대로 반영하기보다는 상대성이 반영된 데이터로 변환하는 과정이다.

② 변수들의 분포가 오른쪽으로 꼬리가 긴 것을 감소시키기 위해 로그변환을 하기도 한다.

③ 기존 변수에 특정 조건 혹은 함수 등을 적용하여 새롭게 재정의한 통계량을 활용하여 분석을 수행한다.

④ 변수에 제곱근을 취하면 오히려 선형적인 특징을 가지게 되어 의미 해석이 쉬어진다.

정답 : 4번

  • Box-Cox 변화은 데이터의 스케일이 심하게 차이나는 경우에 그 차이를 상대적으로 반영되도록 데이터를 변환하는 기법
    • 지수 함수와 로그 함수의 일반화된 형태, 데이터가 양수 0에 가까운 값이 없는 경우에 적용이 가능
  • 제곱근을 취하는 것은 데이터의 비대칭성을 줄이는 데에 도움, negative skew 데이터에서는 선형성을 악화시킬수도 있어서 틀린 답변이다.

2022.04.09 기출

3. 다음 중 시공간데이터가 아닌 것은?

① 지도 데이터

② 패턴 데이터

③ 패널 데이터

④ 격자 데이터

정답 : 3번

  • 패널데이터는 종단자료라고 하며, 여러 개체들을 복수의 시간에 걸쳐서 추적하여 얻은 데이터를 뜻함.
    • 시계열 데이터와 횡단 자료가 합쳐진 데이터로 동일한 응답집단에서 여러 시점에 거쳐 추적해서 조사한 데이터

4. 다음 중 주성분분석에 대한 설명으로 잘못된 것은?

① 선형 결합하여 새로운 변수를 만든다.

② 분산이 커지도록 한다.

③ 데이터가 연속형인 경우에 사용한다.

④ 직관적으로 이해할 수 있다.

정답 : 4번

  • 실제 저차원으로 표현된 대상 데이터 결과를 만들어내기 위해 수학적 개념을 포함하기에 직관적으로 이해하기 쉬운 것이 아니다.

5. 다음 중 비정형 텍스트 데이터 전처리 기법이 아닌 것은?

① 토크나이징

② 어간추출

③ POS tagging

④ stemming

정답 : 2번

  • 어간추출은 자연어 처리 기법 중 하나

오답 정리

  • 토크나이징 : 자연어 처리를 위해서 텍스트에 대한 정보를 단위별로 나누는 것
  • Part-Of-Speech(POS) tagging : 문장 내 단어들의 품사를 식별하여 태그를 붙여줌
  • Stemming : 동일한 뜻을 가진 형태가 다른 단어들을 같은 형태로 바꾸어 주는 작업

6. 자료의 분포가 오른쪾으로 긴꼬리일 경우에 대한 설명으로 맞는 것은?

  • 왜도의 부호와, 최빈값, 중앙값, 평균값의 대소 비교를 하시오

정답 : 왜도 > 0, 최빈값 < 중앙값 < 평균

7. 다음 중 포아송분포에 대한 설명으로 틀린 것은?

① 단위시간 안에 사건이 몇 번 발생하는 것을 표현하는 이산 확률분포이다

② 기댓값과 분산이 동일한 확률분포이다.

③ 이항분포가 n(시행횟수)이 커지고 성공확률 p가 커져 1에 가까우면 포아송 분포가 된다.

④ 특정 시간대에 은행창구에 도착한 고객수, 책 한페이지당 오탈자 수 등이 포아송의 대표적 예이다.

정답 : 3번

  • 이항분포의 포아송근사
    • 이항분포가 n이 커지고 성공확률 p가 0에 가까우면 평균 사건 발생수 람다 = np가 될 수 있고, 포아송 분포를 따른다.

8. 다음 중 초기하 분포의 설명으로 적절하지 않은 것은?

① 확률변수 값으로서 일정 횟수의 베르누이 시행에서 성공횟수를 가진다.

② 성공확률은 일정하지 않다.

③ 각 시행은 독립적이다.

④ 이산형 확률분포를 따른다.

정답 : 3번

  • 비복원 추출에서 N개 중에 n개를 추출했을 때 원하는 것 k개를 뽑힐 확률을 나타내는 이산확률분포
    • 비복원의 경우는 뒤의 시행에 영향을 받기에 독립적이 아니다.

2022.10.01 기출

9. 다이어트를 위한 신약이 개발되었다. 임의로 추출된 20명의 사람에게 체중감량 약을 투여한 후 약의 전후 효과를 비교하고자 한다. 약 투여 후 체중이 줄었는지 검정하기 위한 분포로 옳은 것은?

① 대응표본 단측 검정

② 대응표본 양측 검정

③ 독립표본 단측 검정

④ 독립표본 양측 검정

정답 : 1번

  • 대응표본은 동일한 개체 또는 그룹에 대핸 두 가지 조건을 비교하는 경우에 사용
    • 약을 투여하기 전과 후의 체중 비교로 이 경우에는 대응표본이 적절
  • 체중이 줄었는지를 검증하기 위해 단측 검정을 진행
  • 단측 검정 : 가설 설정할 때, 대립 가설의 한 방향성을 고려하여 검정

10. 다음 중 인코딩 기법에 대한 설명으로 옳지 않은 것은?

① 원핫 인코딩을 적용하면 sparse(드믄, 희박한) 데이터가 된다.

② 타깃 인코딩은 종속변수 값들의 표준편차를 활용한다.

③ 레이블 인코딩은 각 범주를 숫자에 대치시킨다.

④ 원핫 인코딩을 적용할 때 보다 바이너리 인코딩을 적용할 때 모데 학습속도가 빠르다.

정답 : 2번

  • 타깃 인코딩 : 종속 변수를 활용해 범주형 특성을 인코딩 하는 기법으로 주로 분류 문제에서 사용하고, 각 범주에 대한 종속 변수의 평균 값을 인코딩으로 사용
    • 표준편차는 관련이 없는 데이터 분포의 특성을 보이기에 타깃 인코딩에 사용 X

2023.04.08 기출

11. 2,4,6,8,10의 표본평균값과 표본분산을 구하시오

정답 : 표본평균 : 6, 표본분산 : 10

  • 표본평균은 주어진 데이터의 총합을 데이터의 개수로 나눈 값
  • 표본분산은 각 데이터와 표본평균 간의 차이를 제곱하여 모두 더한 후, 데이터의 개수 -1로 나눈 값

12. 독립변수 12개와 절편을 포함하는 회귀모델에서, 독립변수 1개당 범주 3가지를 가지면 회귀계수는?

정답 : 25

  • 회귀 모델에서 독립변수 수에는 절편도 포함.
  • 12개에 대해 3개의 범주를 가진다고 가정
    • 하나의 독립변수당 범주별 회귀계수는 범주 수 - 1개 필요
    • 하나의 독립변수당 회귀계수 수는 2
  • 절편은 회귀 모델에서 모든 독립변수가 0일 때의 예측값을 나타내는 상수 항
    • 따라서 절편에 해당하는 회귀계수는 1개
  • 최종 계산 : 12 * 2 + 1 = 25

13. 원-핫 인코딩에 대한 설명으로 틀린 것은?

① 공간효율이 좋다.

② 범주형 변수를 수치형 변수로 변환하는 방법 중 하나이다.

③ 범주 간의 거리 계산이 의미가 없을 수 있다.

④ 각 범주를 명확하게 이진 변수로 표현하기 때문에 해당 범주가 모델의 결과에 어떤 영향을 미치는지 파악할 수 있다.

정답 : 1번

  • 범주형 변수가 많은 경우 원핫-인코딩을 적용하면 변수의 개수가 기하급수적으로 증가 -> 차원의 저주
    • 공간효율적인 방법이 아니라 변수의 차원 증가에 따른 공간 사용량 증가에 유의해야 함.

14. 데이터의 이상값 발생 원인으로 옳지 않은 것은?

① 측정 오류

② 처리 오류

③ 표본 오류

④ 보고 오류

정답 : 4번

  • 측정 오류 : 데이터 수집 또는 측정 과정에서 발생한 오류
  • 처리 오류 : 데이터 처리 단계에서 발생하는 오류
  • 표본 오류 : 표본 추출과정에서 발생하는 오차
    • 보고 오류는 없는 말

15. 기초 통계량에 대해 옳지 않은 설명은?

① 사분위수는 3분위에서 1분위수를 뺀 것이다.

② 왜도는 분포의 기울어진 정도를 설명한 통계량이다.

③ 첨도값이 3에 가까우면 정규분포와 비슷하다.

④ 변동계수는 측정 단위가 서로 다른 자료를 비교하고자 할 때 쓰인다.

정답 : 1번

  • 사분위수는 25,50,75인데, 3분위에서 1분위를 빼면 50%

16. 다음 중 결측치를 처리하는 방법으로 적절하지 않은 것은?

① 단순 대체법

② 다중 대체법

③ 완전 삭제법

④ 회귀 대체법

정답 : 3번

  • 각각 다 있는 방법
  • 결측치가 있는 데이터를 분석에서 완전히 제거한다면 데이터의 손실이 발생
    • 완전 삭제법은 옳지 않는 방법

2023.09.23 기출

17. 명목형 데이터를 시각화 할 때 사용할 수 있는 그래프가 아닌 것은?

① 히스토그램

② 파레토차트

③ 트리맵

④ 파이차트

정답 : 1번

  • 히스토그램은 연속형 데이터의 분포를 시각화하는 경우 사용
  • 파레토그램 : 자료들이 어떤 범주에 속하는가를 나타내는 계쑤형 자료, 빈도를 내림차순하여 막대의 높이로 나타낸 그림
    • 각 범주의 상대적 중요도를 표현

18. 다음 중 시공간 데이터에 대한 설명으로 옳지 않은 것은?

① 공간 데이터에 시간의 흐름을 결합한 데이터이다.

② 시간 데이터와 공간 데이터를 각각 추출할 수 있다.

③ 공간 데이터는 다차원 구조이다.

④ 공간 데이터에서 시간 데이터를 계산하여 추출할 수 있다.

정답 : 4번

  • 공간 데이터에는 시간 정보가 포함되어 있지 않기에 공간 데이터만으로는 시간 정보 도출이 불가
    • 공간 데이터는 X,Y,Z 축 3가지 축을 포함하는 다차원 구조

2024.04.06 기출

19. 다음 중 서열척도 변수들 간의 상관관계를 측정할 때 사용하는 값은?

① 피어슨 상관계수

② 스피어만 상관계수

③ Phi 계수

④ 자기 상관계수

정답 : 2번

  • 스피어만 상관계수 : 변수들이 서열척도로 측정될 때 그들 간의 순위 상관관계를 측정하는 비모수적 방법
    • 피어슨 상관계수 : 두 변수 간의 선형 관계를 측정하는 통계량
    • Phi 계수 : 두 이진 변수 간의 상관 관계를 측정

20. 제 1종 오류, 제 2종 오류 정리

제 1종 오류 : 귀무가설이 참일 떄, 이를 기각하는 오류, 데이터 분석 결과 효과나 차이가 있다고 잘못 결론짓는 오류

제 2종 오류 : 대립가설이 참일 때, 귀무가설을 기각하지 못하는 오류, 실제로 효과나 차이가 있는데 데이터 분석 결과에서 차이가 없다고 잘못 결론짓는 오류

21. 모델의 편향과 분산 관계에 대한 설명으로 옳은 것은?

① 모델이 복잡하면 편향이 커지고, 분산이 작아진다.

② 모델이 단순하면 편향이 작아지고, 분산이 커진다.

③ 편향이 낮고 분산도 낮으면 좋은 모델이다.

④ 편향과 분산은 상충관계(trade-off)에 있지 않다.

정답 : 3번

  • 편향 : 모델의 예측이 얼마나 실제값과 다른지
  • 분산 : 학습 데이터의 변동에 얼마나 민감한지

22. 암 발생률과 소득의 상관관계를 다른 변수들을 제외하고 분석하고 싶을 때 사용하는 기법은?

① 군집분석

② 편상관계수

③ F분포

④ 카이제곱

정답 : 2번

  • 편상관계수 : 두 변수 간의 순수한 상관관계를 구하는 기법, 다른 변수들의 영향을 통제

23. 다음 중 다변량분산분석(MANOVA)에 대한 설명으로 옳은 것은?

① 독립변수 1개 이상, 종속변수 1개이다.

② 독립변수 여러 개, 종속변수 1개이다.

③ 독립변수 1개 이상, 종속변수 여러 개이다.

④ 독립변수 1개, 종속변수 여러 개이다.

정답 : 3번

  • ANOVA : 1개의 독립변수를 측정하여 집단 간 평균 비교를 하는 경우
  • MANOVA : 1개 이상의 독립변수를 측정하여 집단 간 평균벡터에 대한 비교를 하는 경우

2024.09.07 기출

24. 다음 중 동질성 검정을 위한 표본을 추출하는 방법으로 적합한 것은?

① 단순추출

② 계통추출

③ 층화추출

④ 군집추출

정답 : 3번

  • 동질성 검정은 두 개 이상의 집단이 특정 특성에 대해 동일한 분포를 가지는지 검정하는 방법
    • 집단 별 특성을 고려해 층을 나눈 후 각각에서 표본을 추출하는 층화추출을 적용하면 집단 간 비교에서 편향을 최소화하고 대표성 확보 가능

25. 다음 분포의 성질에 대한 설명 중 옳은 것을 고르시오.

① 포아송 분포는 평균제곱 = 분산이다.

② 표준정규분포를 만족하는 확률변수의 제곱은 자유도 n인 카이제곱 분포를 따른다.

③ 정규분포의 모수는 세 개이다.

④ 초기하분포는 연관성 없이 추출한다.

정답 : 2번

  • 표준정규분포를 따르는 독립적인 확률변수의 제곱합은 자유도 n인 카이제곱 분포를 따른다.
    • 정규분포의 모수는 두 개(평균, 분산)이다.

26. 다음 중 이산확률분포에 해당하지 않는 것은?

① 이항분포

② 포아송분포

③ 초기하 분포

④ F 분포

정답 : 4번

  • F 분포는 연속형 확률분포 / 초기하분포는 이산확률분포이다.

27. 다음 중 데이터의 노이즈를 처리하는 방법으로 옳지 않은 것은?

① 구간화

② 군집화

③ 회귀값 대치

④ 표준화

정답 : 4번

  • 표준화는 데이터 분포의 정규화가 목적이며 노이즈 처리는 아니다.

28. 다음 표는 두 집단의 표본분산 비교 결과이다. 이에 대한 설명으로 옳지 않은 것은?

집단 A : 자유도 - 8 / 표본분산 - 12.5
집단 B : 자유도 - 9 / 표본분산 - 10

① 집단 A의 자유도가 8이므로 표본의 수는 9이다.

② 두 집단의 분산 비교를 위해 F-검정을 사용할 수 있다.

③ 결정계수를 이용하면 두 변수 간 설명력을 알 수 있다.

④ p-value가 유의수준보다 작으면 귀무가설을 기각할 수 있다.

정답 : 3번

  • 결정계수는 회귀모형에서 종속 변수의 변동을 독립변수가 얼마나 잘 설명하는지 나타내는 지표
    • 단순히 두 집단의 표본분산을 비교하는 것

29. 다음 중 순위는 있으나, 항목 간 간격이 일정하지 않아 평균 계산이 부적절한 척도는?

① 간격 척도

② 비율 척도

③ 서열 척도

④ 명목 척도

정답 : 3번

  • 서열척도는 값들 간의 순위는 있지만 간격의 의미가 없다.
    • 따라서 수치적 평균 의미가 모호

2025.04.05 기출

30. 다음 중 집단 내 이질적이고, 집단 간 동질적인 특성을 가진 모집단을 대상으로 표본을 추출할 때 적합한 방법은 무엇인가?

① 군집 추출

② 층화 추출

③ 단순 무작위 추출

④ 체계적 추출

정답 : 1번

  • 군집 추출 : 집단 내 이질, 집단 간 동질
  • 층화 추출 (반대) : 집단 내 동질, 집단 간 이질

31. 초기하분포(Hypergeometric Distribution)에 대한 설명으로 잘못된 것은?

① 모집단은 유한하며 두 가지 범주로 구분된다.

② 성공 확률은 동일하다.

③ 시행은 서로 독립적으로 이루어진다.

④ 표본은 모집단에서 비복원추출로 선택된다.

정답 : 3번

  • 초기하분포는 비복원추출이기에 앞선 시행 결과가 다음 시행에 영향을 줌.
    • 시행 간에 독립성이 X

3과목 : 빅데이터 모델링

2021.10.02 기출

1. 앙상블 기법에 대한 설명 중 옳은 것은?

① 보팅(Voting)은 서로 다른 모델들을 결합할 수 없다.

② 배깅(Bagging)에서 부트스트래핑(Bootstrapping)의 조건은 기초 데이터셋이 생성된 샘플 데이터셋 하나보다 크기가 작아야 한다.

③ 부스팅(Boosting)은 잘못 분류된 훈련 샘플에 대해 가중치를 높인다.

④ 스태킹(Stacking)은 단일 모델에 대한 연속 예측 결과를 다시 훈련 데이터로 사용한다.

정답 : 3번

  • 부스팅은 여러 약한 학습기를 순차적으로 학습하고 예측하면서 잘못 예측 분류된 훈련 샘플에 대해 가중치를 부여하고 업데이트된 가중치로 훈련 데이터를 다시 학습한다.

오답 정리

  • 보팅은 서로 다른 모델을 결합하여 다수결 투표를 통해 최종 예측
  • 배깅에서 부트스트래핑의 조건은 기초 데이터셋과 생성된 샘플 데이터셋의 크기가 동일해야 한다.
  • 스태킹은 여러 개의 기본 모델들이 예측한 결과를 새로운 훈련 데이터로 사용해서 최종 모델을 학습 시킨다.

2. 활성화 함수 소프트맥스(Softmax)에 대한 설명으로 옳지 않은 것은?

① 세 개 이상으로 분류하는 다중 클래스 분류에서 사용된다.

② 시그모이드(Sigmoid)와 비슷하게 0~1 사이에 변환하여 출력한다.

③ 신경망의 출력층에서 사용된다.

④ 출력값의 총합은 항상 1 이상인 특징을 가진다.

정답 : 4번

  • 활성화 함수인 소프트맥스는 입력값을 0~1 사이에 출력이 되도록 정규화를 하고, 출력값들의 총합이 항상 1이 되는 특징을 나타낸다.

3. 종속변수가 연속형 변수일 때 의사결정나무의 분류 기준으로 적합한 것은?

① 카이제곱 통계량

② 지니 지수

③ 분산 분석

④ 엔트로피 지수

정답 : 3번

  • 종속변수가 연속형 변수일 때 분산분석, F 통계량등이 분류기준으로 사용
  • 분산분석(ANOVA)는 그룹 간 평균 차이를 검정하는 통계적 방법으로 의사결정나무에서는 이러한 평균 차이를 기준으로 데이터를 분할

오답 정리

  • 카이제곱 통계량은 범주형 변수들 간 관계를 검정할때 사용
  • 지니 지수는 의사결정나무의 분기점을 선택하는 데 사용되는 기준 중 하나
  • 엔트로피 지수는 주로 범주형 변수에 사용되며 불순도를 나타내는 지표

4. 서포트벡터머신(SVM)의 커널함수인 RBF(Radial Basis Function)함수에 대한 설명으로 옳지 않은 것은?

① cost C와 gamma 값 조정으로 성능을 향상시킬 수 있다.

② RBF 커널을 이용하면 비선형 경계를 만들 수 있다.

③ 가우시안 커널로도 불리며 gamma는 데이터 샘플의 영향력을 행하는 거리를 비례적으로 결정한다.

④ C가 낮으면 과소적합이 될 수 있다.

정답: 3번

  • gamma는 데이터 샘플의 영향력을 행하는 거리를 결정, 클수록 거리는 짧아진다.

오답 정리

  • C는 오류를 허용하는 전략으로 작을수록 관련 데이터 샘플이 다른 클래스에 속하는 것을 많이 허용하기에 과소적합이 될 수 있다.

5. 주성분 분석과 요인 분석과의 공통점으로 잘못된 설명은?

① 변수들 중에서 개념적으로 비슷한 변수들을 잠재적인 요인으로 통일한다.

② 상관관계가 있는 변수들은 축소된 개수의 변수로 변환한다.

③ 전체 변수가 아닌 주성분/요인 분석으로 데이터에 대한 이해도가 높아진다.

④ 차원축소를 위한 기법에 속한다.

정답 : 1번

  • 주성분 분석은 데이터들 간의 상관성을 토대로 새로운 변수인 주성분들을 만든다.
  • 요인분석은 데이터들간의 상관성을 토대로 비슷한 변수들을 묶어 잠재변수를 만든다.

6. 데이터 스케일링(Scaling)에 대한 설명으로 옳지 않은 것은?

① 정규분포화로 특성들의 평균을 0, 분산을 1로 스케일링 한다.

② 정규화로 특성들을 [0, 1]로 스케일링 한다.

③ 변수의 크기, 범위나 척도가 다르지 않은 경우 스케일링이 필요하다

④ 수치형 변수에만 적용된다.

정답 : 3번

  • 스케일링은 주로 변수들 간 범위나 척도가 다를 때 사용되는 전처리 기법

7. 딥러닝 모델에서 초매개변수(Hyperparameter)의 특징이 아닌 것은?

① 초매개변수란 자동으로 정해지는 매개변수 값을 뜻한다.

② 미니배치 크기가 작으면 더 많은 가중치 업데이트를 할 수 있다.

③ 은닉층 수가 많을수록 특정 데이터에 더 최적화할 수 있다.

④ 모델 학습과정에 반영되므로 학습 시작전에 조정이 가능하다.

정답 : 1번

  • 초매개변수란 모델 내부가 아닌 학습 이전에 사용자가 수동적으로 설정하는 값
  • 딥러닝 모델에서 초매개변수는 학습률, 미니배치 크기, 은닉층/뉴런의 수, 드롭아웃 비율 등을 포함

2022.04.09 기출

8. 다음 중 시계열 자료의 성분이 아닌 것은?

① 불규칙 성분

② 추세성분

③ 계절성분

④ 주기성분

정답 : 4번

  • 시계열 자료의 성분 : 불규칙/추세/계절/순환 및 복합성분

9. 과적합(과대적합)을 해결하기 위한 방법으로 맞지 않는 것은?

① 활성화함수 적용

② 배치 정규화

③ 드롭아웃

④ L2 규제

정답 : 1번

  • 활성화함수는 입력신호의 총합을 출력신호로 변환하는 함수
    • 전혀 연관성 X

10. 군집분류 시 기본적인 가정으로 틀린 것은?

① 군집 내에 속한 개체들의 특성은 동일하다.

② 개체들의 속성을 기준으로 분류한다.

③ 군집 간 개체들의 특성은 서로 이질적이다.

④ 개별군집의 특성은 군집에 속한 개체들의 평균값으로 나타낸다.

정답 : 2번

  • 군집의 개수 또는 구조와 관계없이 개체간의 거리를 기준으로 분류

11. 회귀분석의 기본적인 가정으로 설명이 틀린 것은?

① 선형성 : 독립변수와 종속변수가 선형적이여야 함.

② 잔차 등분산성 : 잔차들의 분산이 1로 일정해야 함

③ 잔차 정규성 : 잔차의 기댓값은 0이며 정규분포를 이루어야 함.

④ 다중공선성 : 3개 이상의 독립변수간의 상관관계로 인한 문제가 없어야 함.

정답 : 2번

  • 잔차 등분산성은 잔차들의 분산이 일정해야 하는 것
    • 굳이 1로 일정할 필요는 없다.

12. 텍스트 마이닝에서 문장을 2개 이상 단어로 분리,비교하는 것은?

① TF-IDF

② 토픽 모델링

③ N-gram

④ Tokenization

정답 : 3번

  • N-gram은 n개의 연속적인 요소로 추출하는 방법이다.
  • 연속된 n개의 단어를 하나의 토큰화 단위로 분리

13. 범주 불균형 데이터에서 분류모델의 평가지표로 부적합한 것은?

① 민감도

② 특이도

③ 정확도

④ ROC 곡선

정답 : 3번

  • 정확도는 불균형 데이터에서 굳이 사용하지 않는다.

14. 모집단의 형태에 관계없이 주어진 연속형 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 비모수 통계 검정법에 해당되지 않는 것은?

① 월콕슨 부호순위 검정

② 맥니마 검정

③ 부호검정

④ 크루스칼-왈리스 검정

정답 : 2번

  • 맥나마 검정은 2개의 대응된 명목형 데이터의 행과 열의 주변 확률이 같은지를 검정하는 방법

15. 분석모형구축 절차에서 분석모형 설계의 세부 설명과 관계없는 것은?

① 분석 모델링 설계와 검정

② 분석 시나리오 작성

③ 모듈 개발 및 테스트

④ 분석 모델링에 적합한 알고리즘 설계

정답 : 2번

  • 분석 시나리오 작성은 분석 모형 설계 이전의 단계

2022.10.01 기출

16. 다음 보기 중 드롭아웃 효과와 동일한 효과를 가져올 수 있는 기법은?

① 학습률 조정

② 부트스트랩

③ 활성함수 변경

④ 데이터 증강

정답 : 4번

  • 드롭아웃은 신경망에서 과적합을 방지하기 위해 사용되는 정규화 기법으로 학습 중 일부 뉴런을 무작위 제거하여 일반화 능력을 향상
  • 데이터 증강은 기존 데이터에 노이즈를 추가하는 등 다양한 변형을 가함으로써 신경모델의 과적합 방지가 가능

17. 다음 중 텍스트 마이닝 기법으로 단어를 벡터화하는 Text To Vector 변환이 아닌 것은?

① TF-IDF

② POS-tagging

③ 원핫 인코딩

④ Bag of Words

정답 : 2번

  • POS-tagging은 텍스트에서 단어의 품사를 식별하고 태깅, 붙이는 절차로 자연어 처리의 전단계에서 사용
  • Text To Vector 변환 기법 : Bag of Words, TF-IDF, 원핫 인코딩 포함

18. 다음 중 k-fold 교차 검증에 대한 설명으로 옳지 않은 것은?

① 데이터셋을 k개로 나눈다.

② k개 중 하나만 검증셋으로 활용한다.

③ 데이터 양이 충분하지 않을 때 사용되는 편이다.

④ 훈련, 검증, 테스트 데이터셋을 2:3:5 비율로 구성한다.

정답 : 4번

  • K-fold는 데이터셋을 k개로 나누어 이 중 하나만 검증셋으로 활용하는 것이기에 4번은 아예 틀린 말

19. 다음 중 인공신경망 모형에서 과적합을 방지할 수 있는 기법으로 옳지 않은 것은?

① 정규화

② 가지치기

③ 드롭아웃

④ 조기 종료

정답 : 2번

  • 가지치기는 인공신경망 모형이 아닌 의사결정나무 모형에서 노드에 대한 분할 과정에 대한 반복으로 인한 과적합 방지를 위함.

20. 다음 중 중위수를 통한 비모수 검정에 대한 설명으로 옳지 않은 것은?

① 월콕슨 순위합 검정은 중위수를 검정하는 방법으로 모수적 방법에서의 t-test와 같다.

② 크루스칼-왈리스는 분산분석(ANOVA)에서 정규성 가정이 만족되지 않을 때 사용하는 비모수 검정이다.

③ 만-휘트니 검정은 양측 모수 검정이다.

④ 표본 크기가 매우 작을 경우 중위수를 통한 비모수 검정력은 더 약화된다.

정답 : 3번

  • 만-휘트니는 두 개의 독립 표본과 이들 모집단의 중앙값이 동일한지 평가하는 비모수 검정

21. 요인분석과 관련된 설명으로 옳지 않은 것은?

① 요인회전으로 직각회전방식과 사각회전방식이 있다.

② Varimax는 열을 단순화하는 방식으로 직각회전방식에 속한다.

③ 요인분석의 공분산 행렬은 대칭행렬의 조건을 만족한다.

④ 요인점수는 다수 변수들에 대한 응답을 소수의 요인으로 축약시킨 것이다.

정답 : 2번

  • Varimax는 요인회전 방법 중 하나, 요인들 간의 상관계수 행렬을 최대한 독립적으로 만드는 것을 목표로 함.
  • 요인 회전 방법은 직각회전방식과 사각회전방식이 있다.
    • 직각회전방식 : 요인들 사이의 상관관계를 0으로 만들어 요인을 서로 독립적으로 가정 (여기에 Varimax, Quartimax가 속함)
    • 사각회전방식 : 요인들 사이의 상관관계를 0이 아닌 값으로 유지(여기에 Promax, Oblimin이 존재)

22. 다음 중 의사결정나무 분석 결과에서 뿌리노드에서 분할을 시작하지 못하는 가장 적절한 이유는?

① 데이터가 서로 비슷하기 때문이다.

② 데이터 유형이 잘못되어 있다.

③ 변별력 있는 변수가 없어 분리를 정지한다.

④ 데이터 수가 적다.

정답 : 3번

  • 분석 목적과 자료 구조에 따른 적절한 분리기준, 정지규칙이 없을 경우 뿌리에서 시작을 못함.

23. 다음 중 주성분 분석에 대한 설명으로 옳지 않은 것은?

① 주성분끼리는 서로 직교한다.

② 주성분 분석을 하기 위해선 변수의 수가 표본의 수보다 항상 커야 한다.

③ 주성분 분석은 고차원 공간의 데이터를 저차원 공간의 데이터로 변환시킨다.

④ 주성분은 기존 변수들의 선형결합으로 이루어져 있다.

정답 : 2번

  • 주성분의 차원 수는 표본의 차원 수보다 작거나 같다.

24. 다음 중 머신러닝 기반 데이터 분석 결과를 공유 또는 유지보수를 위해 관리하는 산출물로 옳지 않은 것은?

① 분석 계획서

② 분석결과 및 예측 결과

③ 사용 및 유지보수 가이드

④ 알고리즘 보완 계획서

정답 : 4번

  • 결과 산출물 : 분석 계획서, 데이터 확보 방안, 분석결과 및 예측결과, 비즈니스 성과, 사용 및 유지보수 가이드 등이 존재

2023.04.08 기출

25. 인공 신경망 학습 모델 중 업데이트 게이트와 리셋 게이트를 사용하여 장기 의존성 문제를 보완한 모델은?

① RNN

② CNN

③ GRU

④ LSTM

정답 : 3번

  • GRU : LSTM과 비교하여 출력, 입력, 삭제 게이트의 3개 게이트 대신에 업데이트 게이트와 리셋 게이트를 사용하여 은닉 상태를 업데이트 하는 계산의 효율성을 향상
  • 장기 의존성문제를 다루면서도 LSTM보다 더 간결한 구조

26. 다음 중 시계열 데이터에서의 공분산 기법을 뜻하는 것은?

① 지니계수

② 엔트로피 계수

③ 실루엣 계수

④ 자기상관

정답 : 4번

  • 공분산은 동일 시간대에 두 개 변수 간 상관관계를 분석하는 통계적 지표
  • 서로 다른 두 시간대에서 변수값 간의 상관관계는 자기 상관 관계로 시계열 데이터 변화 추이

27. 랜덤 포레스트 기법에 대한 설명으로 옳지 않은 것은?

① 약 분류기를 결합하여 강 분류기를 만드는 기법이다.

② 트리로 만든 예측은 다른 트리들과 상관 관계가 작아야 한다.

③ 부스팅을 사용하여 부트스트랩된 훈련 표본들에 대한 다수의 의사결정 트리를 만든다.

④ 알파컷을 사용한다.

정답 : 3번

  • 랜덤 포레스트 알고리즘은 배깅을 사용
    • 독립적인 의사결정 트리를 생성해 다수결 투표로 결과를 결합하는 방식

28. 다음 보기 중 시계열 데이터 분석에 관한 것으로 옳지 않은 것은?

가. 추세변동은 장기적인 추세경향이 나타나는 것이다. 
나. 횡단면처럼 종단면은 관측값 간의 독립성이 중요하다.
다. 지수평활법은 과거값에 높은 가중치를, 최근값에 작은 가중치를 부여한다. 
라. 이동평균법은 관측값 전부에 동일한 가중치를 부여하고 평균을 계산하여 예측한다.

정답 : 나, 다

  • 종단면은 하나의 변수를 여러 시점에서 관측한 자료로 특정 독립변수가 존재. 시계열 데이터에서는 시간에 따른 관측값의 연관성을 분석하므로, 동일한 시간에 대한 여러 관측값은 서로 상관관계를 가질 수 있다.
  • 지수평활법은 최근의 자료에 더 높은 가중치를 부여하여 최신 정보에 더 민감하게 반응

29. Causal Analysis 대한 내용으로 옳지 않은 것은?

① Causal Inference에서는 어떠한 사건의 원인을 알지만 원인이 되는지 아닌지를 의심이 되는 입력을 따로 정의할 수 있다.

② Causal Discovery는 어떤 현상 자체, 즉 Y를 스스로 정의할 수 있는 방법론이다.

③ Causal Discovery는 데이터 칼럼(column)을 독립변수 X와 종속변수 Y로 나누어 정의한다.

④ 인접 행렬(Adjacency Matrix)을 상호 연결성을 나타내는 지표로 사용된다.

정답 : 3번

  • Causal Discovery는 데이터 칼럼을 모두 독립변수 X로 정의하고 시작

30. 통계적 추론에 대한 설명으로 잘못된 것은?

① 모집단을 통해 표본집단을 추론한다.

② 통계적 추론의 목적은 추정과 가설검정에 있다.

③ 점추정은 모집단의 특성을 하나의 수치로 추정한다.

④ 신뢰구간을 추정할 때 모분산 (시그마^2)을 알고 있다면, 표본의 크기와 관계없이 정규분포를 사용한다.

정답 : 1번

  • 통계적 추론은 표본집단을 추출하여 모집단의 특성을 추론

31. 회귀분석 모형의 구축 절차를 순서대로 맞게 나열한 것은?

정답 : 독립변수와 종속변수 설정 -> 회귀계수 추정 -> 독립변수별 회귀계쑤 유의성 검정 -> 모형 유의성 검정

2023.09.23 기출

32. 수식 관련 문제 \(minimize: (1/2n) ||y - Xβ||² + λ ||β||₁\)

정답 : 라쏘

  • 릿지 : 손실함수에 가중치 제곱의 합을 더하는 유형
  • 라쏘 : 손실함수에 가중치의 절댓값의 합을 더하는 유형

33. 다음 중 사전에 군집 개수를 설정하지 않아도 되는 것은?

① 가우시안 혼합행렬

② 스펙트럼 군집분석

③ 계층적 군집분석

④ k-평균 군집 분석

정답 : 3번

  • 계층적 군집분석은 군집의 개수를 마지막에 선정

34. 향상도(LIFT) 계산 식

정답 : \(Lift = P(A ∩ B) / (P(A) * P(B))\)

35. 확률변수 X의 분포가 정규분포일 때 크기가 n인 표본분산의 분포는?

① 항상 정규분포이다

② 표본수에 따라 정규분포 또는 t분포를 따른다.

③ 자유도 n-1의 카이제곱분포를 따른다.

④ 표본평균의 분포와 동일하다.

정답 : 3번

  • 정규분포를 따르는 확률변수 X에서 표본분산은 자유도 n-1을 가지는 카이제곱분포를 따른다.

2024.04.06 기출

36. 다음중 샘플링에 사용되지 않는 기법은?

① Metropolis-Hastings Algorithm

② Perfect Sampling

③ EM Algorithm

④ Rejection Sampling

정답 : 3번

  • EM 기법 : Latent 변수를 활용하여 최대우도 추정량을 구하는 방법
  • 샘플링 기법 종류
    • 마르코프 체인, Metropolis-Hastings Algorithm, Perfect/Rejection 샘플링

37. 다음 빈칸에 공통으로 들어갈 용어로 적절한 것은?

시퀀스투시퀀스(seq2seq)에서 인코더를 통해 ( )가 만들어지고 디코더가 ( )를 받아 출력시퀀스가 된다. 

정답 : 컨텍스트 벡터

38. 다음 중 경사하강법에 대한 설명으로 옳은 것은?

① 확률적 경사하강법은 전체 데이터 중 일부를 랜덤추출하여 사용하는 방법이다.

② 모멘텀은 관성을 이용해 지역최소를 극복하고 전역최소를 찾아가는 방법이다.

③ Adaptive Gradient(AdaGrad)는 이전 기울기에 따라 속도가 달라진다.

④ Adam은 배치 경사하강법과 모멘텀 방식의 장점을 합친 경사하강법이다.

정답 : 2번

  • 모멘텀은 관성을 적용해 진행하던 속도로 진행하고자 하므로 지역최소에 빠지더라도 가속도를 더해 해당 지점을 벗어나 이동이 가능

오답 정리

1번 - 확률적 경사하강법은 학습 데이터 중 일부를 랜덤 선택 손실 함수의 경사를 따라 최적의 모델을 찾는 방법

3번 - 가중치의 업데이트 횟수에 따라 학습율을 조절하여 속도가 달라진다.

4번 - Adam은 RMSProp과 모멘텀 방식의 장점을 합친 경사하강법

39. 결정계수에 대한 설명으로 옳은 것은?

① 1은 종속변수의 변동이 독립변수에 의해 설명되지 않음을 의미한다.

② 0은 종속변수의 변동이 모두 독립변수에 의해 설명됨을 의미한다.

③ 결정계수 값의 범위는 0~1이다.

④ 회귀모형에 독립변수를 더 많이 추가하면 항상 결정계수 값이 높아진다.

정답 : 3번

  • 회귀모형에서 독립변수를 많이 추가하면 항상 결정계수를 향상은 가능하지만, 영향력이 적은 변수를 추가하면 낮아질 수도 있다.

40. 다음의 앙상블 기법과 관련된 설명들 중 옳지 않은 것은?

① Voting - 투표를 통해 값을 결정한다.

② Batch - 샘플 집합으로서 주로 배깅에 활용된다.

③ Bagging - 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계한다.

④ Stacking - 동일한 샘플로 다양한 유형의 모델을 학습한다.

정답 : 2번

  • 배치는 샘플의 집합이며 배깅에 활용하지 않는다.

41. 선형 회귀와 로지스틱 회귀에 대한 설명으로 옳지 않은 것은?

① 종속변수가 범주형인 경우 로지스틱 회귀를 사용한다.

② 선형, 로지스틱 회귀 모두 잔차 정규성을 가정한다.

③ 선형회귀 계수를 최소제곱량(LSE)으로 추정하면 불편추정량의 특성을 가진다.

④ 선형, 로지스틱 회귀 모두 MLE로 계수추정이 가능하다.

정답 : 2번

  • 선형 회귀와 로지스틱 회구 모두 MLE로 계수 추정이 가능
  • 선형회귀만 선형성, 독립성, 등분산성, 정규성 조건을 따른다.

2024.09.07 기출

42. 다음 중 의사결정나무(Decision Tree)의 분리 기준이 아닌 것은?

① 지니(Gini) 지수

② 엔트로피

③ 카이제곱 통계량

④ F-통계량

정답 : 4번

  • 지니 지수 : CART 알고리즘
  • 엔트로피 : 정보 이득의 기반이 되는 개념으로 ID3, C4.5 등의 결정트리 알고리즘에서 사용
  • 카이제곱 통계량 : CHAID 알고리즘에서 사용

43. 서포트 벡터 머신(SVM)에서 (가)는 초평면에 직교하고, (나)는 초평면의 이동(offset)을 결정한다. (가)와 (나)에 들어갈 알맞은 용어는?

정답 : 가 : 가중치 벡터, 나 : 편향

44. 다음 중 연결법에 대한 설명이 잘못된 것은?

① 단일 연결법 : 두 군집 사이의 거리 중 최소값을 기준으로 계산(Minimum linkage)

② 중심 연결법 : 두 군집의 중심 간 거리로 계산(Centroid linkage)

③ 완전 연결법 : 두 군집 사이의 거리 중 최대값을 기준으로 계산(Complete linkage)

④ 와드 연결법 : 두 군집 사이의 거리를 평균으로 계산(Average linkage)

정답 : 4번

  • 평균 연결법에 대한 설명 -> 애초에 영어가 매칭이 안되어있음.

45. 다음 중 네트워크 그래프에서 노드들이 전반적으로 연결된 정도를 나타내는 지표는?

① 포괄성

② 밀도

③ 전이성

④ 정도

정답 : 2번

  • 밀도 : 네트워크에서 실제 존재하는 간선 수를 가능한 최대 간선 수로 나눈 값으로 그래프 전체의 연결 밀도

46. 다음 중 경사하강법(Gradient Descent) 기반 최적화 알고리즘으로 보기 어려운 기법은?

① AdaBoost (Adaptive Boosting)

② RMSProp

③ Adagrad

④ Nesterov Momentum

정답 : 1번

  • AdaBoost : 약한 분류기를 순차적으로 결합하는 앙상블 학습

47. 군집 분석에 대한 설명으로 옳지 않은 것은?

① 레이블이 없는 데이터를 유사한 속성끼리 그룹화하는 비지도 학습 기법이다.

② 계층적 군집분석에서는 한 번 군집이 형성되면 절대로 군집을 이동하지 않는다.

③ k-평균 군집은 k값이 클수록 노이즈에 영향이 적고 경계가 뚜렷해진다.

④ k-평균 군집은 비계층적 군집분석 방법으로, 계층적 군집분석보다 빠르고 k값(군집 수)을 미리 정해야 한다.

정답 : 3번

  • k-평균 군집에서 k값이 커질수록 노이즈를 별도의 군집으로 잘못 분리
    • 노이즈에 민감 + 과도한 군집 분할로 해석력이 떨어진다.
  • 계층적 군집분석에서는 한 번 합쳐진 군집을 다시 쪼개거나 이동 X

2025.04.05 기출

48. 다음 중 과적합 문제를 해결하는 방법으로 적절하지 않은 것은?

① 정규화 사용

② 조기 종료

③ 드롭아웃 적용

④ ReLU 함수 사용

정답 : 4번

  • ReLU는 인공신경망에서 입력 신호를 출력 신호로 변환하는 역할로 과적합과 전혀 연결 X
  • 정규화는 과도한 가중치 값을 패널티로 제한하여 모델 복잡도를 줄여 과적합 해결

49. 다음 중 초매개변수(hyperparameter)에 해당하지 않는 것은?

① KNN의 K값

② 인공신경망의 은닉층 수

③ 결정 트리의 깊이

④ 인공신경망의 가중치 값

정답 : 4번

  • 신경망 가중치는 인공신경망이 훈련 데이터로부터 학습하는 과정에서 뉴런 간의 연결 강도를 나타내는 값

50. 의사결정나무에 관한 설명으로 옳지 않은 것은?

① 전처리가 필요없다.

② 데이터의 양이 많아도 적합하다.

③ 데이터가 많아지면 적합하지 않다.

④ 분류와 회귀문제 모두에 사용된다.

정답 : 3번

  • 의사결정나무는 데이터가 많을수록 분할 기준이 명확해져 더 좋은 성능을 낼 수 있다.

51. 다음 중 정규성 검정 방법이 아닌 것은?

① Q-Q plot

② Kolmogorov-Smirnov test

③ Shapiro-Wilk test

④ t-test

정답 : 4번

  • t-test는 두 집단의 평균 비교

52. 다음 중 성공 확률 p를 오즈의 로그값으로 변환하는 함수는?

① 시그모이드 함수

② 오즈비

③ 로그우도

④ 로짓함수

정답 : 4번

  • 로짓함수는 확률의 오즈에 자연로그를 취한 값

4과목 : 빅데이터 결과 해석

2021.10.2 기출

1. 성과지표에 관한 설명으로 옳지 않은 것은?

① 정밀도(Precision)은 양성으로 예측한 샘플 중에서 실제 양성인 샘플의 비율을 나타낸다.

② 재현율(Recall)은 실제 양서인 샘플 중에서 양성으로 예측한 샘플의 비율을 나타낸다.

③ 데이터 시각화를 위해 새로운 지표를 생성하지 않아도 된다.

④ R^2 지표는 회귀 모델의 성능을 측정하는 지표로 종속변수는 실제값이다.

정답 : 3번

  • 데이터 시각화를 위해 정확도, 정밀도, 민감도, F1 score 등의 성과지표를 포함하거나 새로운 지표를 만들어 사용하여야 한다.

2. 관계시각화에 대한 설명으로 적절하지 않은 것은?

① 변수 간의 연관성을 분석한다.

② 산점도, 버블차트, 히스토그램 등이 대표적이다.

③ 그래프 시각화는 노드와 엣지로 데이터들 사이의 관계를 시각화한다.

④ 트리 시각화는 계층적인 관계를 가진 데이터를 표현하는데 사용한다.

정답 : 2번

  • 히스토그램은 변수 값의 분포를 시각적으로 표현하나 변수 간의 관계를 시각화 하지 않는다.

3. 회귀분석 모형의 적합성을 평가할 때 적절하지 않은 것은?

① 잔차는 서로 상관성이 없고 동일한 분산을 가져야 한다.

② 잔차의 정규성 검정을 위해 QQ 플롯을 활용할 수 있다.

③ 회귀계수 추정값이 0이어도 y절편 추정값이 0이 아니면 모형은 유의하다.

④ 결정계수 값이 1에 가까울수록 모형의 설명력이 높다.

정답 : 3번

  • 회귀분석에서 회귀계수 추정값이 0인 경우는 해당 독립변수가 종속변수에 대해 유의미한 영향을 주지 않는다는 것을 의미한다.

2022.04.09 기출

4. 시공간 시각화 기법으로 적절하지 않은 것은?

① 히스토그램

② 막대그래프

③ 지도 맵핑

④ 카토그램

정답 : 1번

  • 히스토그램은 데이터의 구간별 분포를 표현하는데 사용으로 시공간 시각화랑은 결이 다름

5. 초매개변수 최적화를 위한 방법으로 가장 거리가 먼 것은?

① 베이지안 최적화

② 그리드 탐색

③ 랜덤 탐색

④ 경사 하강법

정답 : 4번

  • 경사하강법은 가장 성능이 좋은 모델을 구축하기 위해 머신러닝 알고리즘이 내부적인 파라미터를 조정하는 과정에서 사용되는 방법

6. 민감도, 특이도, 정확도에 대한 설명으로 적절한 것은?

① 민감도와 특이도가 둘 다 1일 때 정확도는 1이다.

② 특이도가 1일 때 정확도는 1/2이다.

③ 민감도가 1/2일 때 정확도는 1/2이다.

④ 민감도와 특이도가 같을 때 정확도는 민감도의 1/2이다.

정답 : 1번

  • 정확도 : (TP + TN) / (TP+TN +FP +FN)
  • 민감도 : TP / (TP + FN)
    • 재현율 : 실제 Positive 인 대상 중에서 Positive로 예측한 값의 비율
  • 특이도 : TN / (TN + FP)
    • 특이도 : 실제 Negative인 대상 중에서 Negative로 예측한 값의 비율
    • 민감도가 1이라는 것은 FN이 0, 특이도가 1이면 FP가 0
    • 따라서 정확도가 1이 된다.

7. 다음 중 비교시각화 도구로 가장 거리가 먼 것은?

① 막대그래프

② 레이더차트

③ 히트맵

④ 산점도

정답 : 4번

  • 비교시각화 도구 히트맵, 체르노프페이스, 스타차트, 평행좌표계, 다차원척도법
  • 산점도는 관계시각화 도구로 주로 사용해서 적절치 않다.

2022.10.01 기출

8. 보기 중 ROC 곡선의 축을 구성하는 지표로 맞게 구성된 것은?

① 정확도, 특이도

② 민감도, 특이도

③ 정밀도, 정확도

④ 민감도, 정확도

정답 : 2번

  • ROC 곡선은 FPR(False Positive Rate)를 가로축으로 TPR(True Positive Rate)을 세로축으로 하는 곡선
    • TPR은 민감도 또는 재현율이라고 부르고, 실제 참인 값이 정확히 예측되어야 하는 수준, FPR은 1-특이도로 구할 수 있다.

9. 다음 중 ROC 곡선을 이용한 분류모델 평가에 대한 설명으로 옳지 않은 것은?

① AUC의 면적이 클수록 분류모델의 성능이 좋다.

② ROC 곡선으로 혼동행렬을 구할 수 있다.

③ 임계값을 변화시키면 곡선도 따라서 변화한다.

④ 세로축은 재현율을 나타낸다.

정답 : 2번

  • 혼돈행렬은 분류 모델의 예측과 실제를 깁반으로 결과를 표현하는 행렬
  • ROC 곡선은 모델의 민감도와 1에서 특이도 사이의 트레이드오프 관계를 시각화, 혼동행렬을 표현하면서 ROC 곡선을 구할 수 있다.

10. 분석 결과 스토리텔링을 준비하는 과정에서 수행해야 하는 일로 적절하지 않은 것은?

① 스토리보드 도구 검증

② 사용자 데이터 정의

③ 사용자 시나리오 작성

④ 스토리보드 기획

정답 : 1번

  • 분석 결과의 스토리 텔링 절차
    1. 스토리텔링을 위해 어떤 사용자 데이터가 필요한지 정의
    2. 사용자 관점에서 분석 결과를 이해할 수 있또록 시나리오 작성
    3. 스토리텔링의 흐름과 내용을 구성하기 위한 스토리보드 기획

11. 다음 중 정규성 검정 기법 종류로 옳지 않은 것은?

① q-q 플롯

② 카이제곱 검정

③ 샤피로-윌크 검정

④ 콜모고르프 스미르노프 검정

정답 : 2번

  • 정규성 검정은 데이터가 정규 분포를 따르는지 여부를 평가하는데 사용
  • 카이제곱 검정은 범주형 변수들 간의 상관관계를 검정하는 통계적 방법

12. 다음 보기 중 앙상블 모형에 대한 설명으로 옳은 것을 모두 고르시오.

가. 랜덤포레스트가 대표적인 앙상블 모형이다.
나. 배깅은 훈련 데이터셋으로부터 부트스트랩을 통해 각각의 부분집합을 생성한 후 독립적인 모델을 학습시킨다. 
다. 앙상블 모형은 직관적으로 이해하기 쉽다. 

정답 : 가, 나

  • 앙상블 모형은 여러 개의 기본 모형을 결합하여 예측을 수행하기에 직관적 이해가 어렵다.

13. 다음 중 비교시각화 기법으로 가장 거리가 먼 것은?

① 스타차트

② 체르노프페이스

③ 버블차트

④ 히트맵

정답 : 3번

  • 버블차트는 3개의 변수를 동시에 시각화하는 관계 시각화 기법

14. 다음 중 관계시각화 기법으로 가장 거리가 먼 것은?

① 산점도

② 히트맵

③ 누적막대 그래프

④ 버블차트

정답 : 3번

  • 누적막대그래프는 여러 항목 값들이 서로 누적된 형태로 시각화되는 그래프, 상대적인 크기를 보여주며 전체 값의 변화 및 구성 비율을 파악

15. 신경망 모형에서 발생하는 Gradient Vanishing 문제에 대한 설명으로 옳은 것은?

① 신경망 학습 과정에서 기울기가 점차 커지다가 발산하는 경우이다.

② 오차 역전파 과정에서 기울기가 감소하여 가중치가 업데이트되지 않는 현상이다.

③ 기울기 소실을 방지하기 위해 활성화 함수로 시그모이드 함수를 사용할 수 있다.

④ 그래디언트 클리핑(Gradient Clipping)을 통해 해결할 수 있다.

정답 : 2번

  • Gradient Vanishing 은 심층 신경망에서 발생하는 문제로, 오차역전파 알고리즘을 통해 업데이트 되는 가중치의 기울기가 사라지거나 소실되어 가중치가 업데이트 되지 않는 현상을 말함.
    • 4번 : 그래디언트 클리핑 : 기울기 값의 크기를 제한해, 그래디어트 폭주 문제를 해결하는 방법

16. 다음 중 재현율(Recall)에 대한 공식으로 옳은 것은?

정답 : TP / (TP + FN)

2023.04.08 기출

17. 다음 보기 중 ROC 곡선에 대한 설명으로 옳은 것은?

① 특이도가 증가할수록 민감도도 증가한다.

② 곡선 아래 면적이 0.5에 가까울수록 성능이 좋다.

③ 로지스틱 회귀분석 모형의 성능을 측정하는 데 사용할 수 있다.

④ 특이도는 음성인 케이스를 양성으로 잘못 예측한 비율이다.

정답 : 3번

  • ROC곡선은 가로축을 1-특이도, 세로축을 민감도로 하여 그리는 곡선
    • 분류 모형의 정확도를 평가하는데 주로 사용
  • 특이도는 음성으로 예측한 것이 실제 음성인 것의 비율, 음성인 것을 양성으로 잘못 예측한 비율은 1-특이도

18. Kolmogorov-Smirnov 검정에 대한 설명으로 맞지 않는 것은?

① 2개의 집단이 동일한 분포를 이루고 있는지를 검증한다.

② 비모수 검정방식이다.

③ 데이터가 정규분포를 따르는 지를 검증할 때 사용된다.

④ 확률밀도함수를 사용하여 두 분포의 차이를 측정한다.

정답 : 4번

  • Kolmogorov-Smirnov 검정 : 두 분포 간의 차이를 비교하는 비모수적 통계 검정 방법으로 누적분포함수를 사용하여 두 분포의 차이를 측정
    • 주어진 표본 데이터가 이론적으로 기대되는 분포(이항, 정규, 포아송)와 일치하는 지의 여부를 검정할 때 이용

19. 데이터 분할 방법에 대한 설명으로 틀린 것은?

① 홀드아웃(Holdout)은 데이터를 훈련 데이터셋과 테스트 데이터셋으로 분할한다.

② 훈련 데이터셋으로 학습한다.

③ 스트라티파이드(Stratified) 방법은 데이터를 여러 개의 세트로 나누고, 각 그룹을 한 번씩 검증 세트로 사용한다.

④ 테스트 데이터셋으로 성능을 확인한다.

정답 : 3번

  • 스트라티파이드 분할 방법 : 클래스 불균형이 있는 경우, 각 클래스의 비율을 유지하면서 데이터를 분할하는 방법, 분류 문제에서 클래스별로 균형있는 훈련, 검증 및 테스트셋을 생성하는데 사용

20. 학습률에 대한 설명으로 맞지 않은 것은?

① 머신러닝 알고리즘에서 조정할 수 있는 하이퍼파라미터의 하나이다.

② 학습률은 0과 1사이의 값으로 설정된다.

③ 학습률이 작으면 학습시간이 오래 걸린다.

④ 학습률이 크면 반복 횟수도 많아진다.

정답 : 4번

  • 반복 횟수는 모델과 데이터의 특성에 따라 달라지며, 학습률에 따라 반복횟수를 설정하는 것이 아니다.

21. 배깅에 관련된 내용으로 옳지 않은 것은?

① 부트스트랩(Bootstrap) 샘플링을 이용한 앙상블 기법이다.

② 불안정한 모형일수록 더 좋은 성능을 발휘한다.

③ 별도의 검증 데이터 없이 out of bag 데이터를 초매개변수를 최적화 하거나 성능 검증을 할 수 있다.

④ 모델의 편향과 분산을 줄일 수 있다.

정답 : 4번

  • 배깅은 개별 모델의 분산을 감소시키고 예측의 안전성을 향상시킨다.
    • 개별 모델의 편향을 감소시키거나 개선하지는 않는다.

2023.09.23 기출

22. 적합도 검정에 대한 설명으로 잘못된 것은?

① 귀무가설이 기각되더라도 기대도수 합과 전체도수의 합은 동일하다

② t-검정, F-검정, 카이제곱 검정이 대표적이다.

③ 기대도수, 실제도수 차이가 커지면 카이제곱 통계량이 커진다.

④ 범주형 데이터의 분포가 기대되는 분포와 일치하는지 검증하는 방법이다.

정답 : 2번

  • t-검정은 평균 차이 검정, F-검정은 분산 또는 회귀모형 유의성 검정이다.
  • 적합도 검정에서 기대도수는 이론적인 분포를 따르는 경우 예상되는 도수
  • 전체도수는 실제 관측된 데이터의 총 개수를 의미
  • 관측된 데이터가 기대되는 분포와 얼마나 일치하는지 평가
    • 따라서 전체 데이터의 수는 변하지 않는다.

23. 의사결정나무의 정지 규칙으로 옳지 않은 것은?

① 깊이(뎊스)가 최대이면 멈춘다.

② 유의성이 임계치에 미달이면 멈춘다

③ 가지 끝 노드에 속한 샘플 개수가 일정 개수 이하이면 멈춘다

④ 가지에 남은 노드 개수가 0이면 멈춘다.

정답 : 4번

  • 의사결정나무의 정지 조건
    • 최대 깊이, 최소 샘플 수, 불순도 감수

24. 다음 중 정준상관분석(Canonical Analysis)을 적용할 수 있는 가장 적합한 경우는?

① 집단 1개일 때 여러 변수 간 상관관계 분석

② 집단 2개일 때 두 집단 간의 상관관계 분석

③ 다수 집단일 때 상관관계 분석

④ 암묵적인 상관을 찾고 싶을 때 탐색적 분석으로 사용

정답 : 2번

  • 정준상관분석은 두 변수 집단 간의 연관성을 분석하기 위해, 각 집단에 속한 변수들의 선형결합의 상관계수를 이용하여 분석하는 방법

25. 다음 중 과적합에 대한 설명으로 잘못된 것은?

① 학습 데이터의 수를 늘리면 과적합이 된다.

② 과적합은 학습 데이터와 검증 데이터 간 성능 차이가 크지만, 과소적합은 그 차이가 적다.

③ 학습 데이터에 대한 성능은 매우 우수하지만 검증 데이터에 대한 성능은 크게 저하되는 경우를 말한다.

④ 과적합이나 과소적합 모두 일반화의 능력을 저하시키므로 균형을 찾는 것이 중요하다.

정답 : 1번

  • 과적합은 학습 데이터에 과하게 학습이 되어 오히려 검증 데이터에서는 성능이 떨어지는 경우
    • 학습 데이터의 수를 늘리는 것은 과적합을 줄이는 데 도움을 준다.

26. 다음 중 k-fold 교차검증에서 k=10일 때 옳지 않은 설명은?

① 각 폴드는 학습 데이터로 1번 사용한다.

② 각 폴드는 평가 데이터로 1번 사용한다.

③ 평가 데이터는 전체 데이터의 10%를 차지한다.

④ k=2일 때보다 모델 성능이 향상한다.

정답 : 1번

  • 전체 데이터를 10개로 나누고, 10번을 반복해 학습하고 평가
    • 각 폴드는 학습 데이터로 9번, 평가 데이터로 1번 사용

2024.04.06 기출

27. 지역별 매출과 수익을 시각화 하기에 가장 적절한 방법으로 짝지어진 것은?

정답 : 매출 : 코로플레스맵, 수익 : 버블차트

  • 코로플레스맵 : 지역별 수치를 표현하는데 적합
    • 매출액 중 일부인 수익은 버블차트로 표현하는 것이 적절
  • 지역의 넓이차를 언급하면 카토그램을 사용하는 것이 적절

2024.09.07 기출

28. ROC 커브에서 x축은 음성오분류율(False Positive Rate)이다. ROC 커브의 y축은 무엇인가?

① 정확도

② 민감도

③ 특이도

④ 정밀도

정답 : 2번

  • ROC곡선은 FPR에 따른 TPR 변화를 표현

29. 다음 중 데이터 수가 적을 때 유용한 교차검증 방법은 무엇인가?

① 홀드 아웃

② Stratified k-폴드 교차검증

③ k-폴드 교차검증

④ Leave-One-Out 교차검증(LOOCV)

정답 : 4번

  • LOOCV : 전체 데이터셋에서 한 개의 데이터만 테스트에 사용, 나머지는 n-1개 데이터를 모두 학습해 모두 학습에 사용하는 방식
    • 데이터셋이 작거나 정밀한 성능평가가 필요할 때 유용

30. 인공신경망에 대한 설명으로 옳은 것은?

① 신경망에서 은닉층이 없고 출력층만 있을 때, 시그모이드 활성화 함수를 이용하는 경우 수학적으로 로지스틱 회귀분석 모형과 동일하다.

② 오차 역전파는 입력층 -> 은닉층 -> 출력층으로 진행하면서 가중치를 수정한다.

③ 오차는 예측값과 실제값의 차이를 계산하는 것으로 가중치 함수를 사용한다.

④ 인공신경망은 선형적 관계 학습에 주로 이용된다.

정답 : 1번

  • 신경망에서 은닉층 생략, 입력층과 출력층이 바로 연결
    • 이는 단일 계층 구조와 동일한 형태가 된다.
  • 3번 : 오차는 예측값과 실제값의 차이를 계산하는 것으로 손실 함수를 사용

31. MDS와 t-SNE에 대한 설명으로 옳지 않은 것은?

① MDS는 최적화 과정에서 글로벌 최적화를 보장하지 않는다.

② t-SNE는 실행할 때마다 결과가 다르게 보일 수 있다.

③ MDS는 2차원 공간에서 데이터 사이의 상대적 거리를 표현한다.

④ t-SNE는 지도학습 방법을 사용하여 각 데이터 사이의 거리를 구한다.

정답 : 4번

  • MDS(Multidimensional Scaling) : 다차원 척도법 - 데이터 간 거리 또는 유사도 정보만으로 데이터의 구조를 시각화
  • t-SNE : 고차언 데이터를 저차원으로 시각화하는데 쓰이는 비지도 학습
    • 확률 기반 동작 실행마다 결과가 다르다.

32. 활성화 함수에 대한 설명으로 가장 거리가 먼 것은?

① 시그모이드 함수를 미분했을 때 최소가 되는 x값은 0이다.

② 머신러닝에서 사용하는 활성화함수는 일반적으로 비선형 함수이다.

③ ReLu 함수를 사용하면 기울기 소멸을 예방할 수 있다.

④ 하이퍼볼릭 탄젠트(Tanh) 함수는 -1에서 1 사이의 값을 출력한다.

정답 : 1번

  • 시그모이드 함수를 미분하면 x = 0에서 최댓값을 가진다.
    • 그 외의 값은 점점 작아짐

33. 워드 임베딩에 대한 설명으로 옳은 것은?

① TF-IDF는 단어 간 의미 유사도를 측정하기 위해 거리 기반 기법을 사용한다.

② 코사인 유사도는 0이 가장 높은 유사도를 나타내며, 값이 작을수록 유사하다.

③ 워드 임베딩은 단어가 등장하는 주변 문맥 정보를 기반으로 의미를 반영한 벡터를 학습한다.

④ 워드 임베딩은 단어의 의미를 고려하지 않고 단순히 출현 빈도에 따라 벡터를 구성한다.

정답 : 3번

  • 워드 임베딩 : 주변 단어들과 함께 나타나는 패턴을 학습하여 의미 기반의 벡터 표현 생성

  • 1번 : TF-IDF 는 거리 기반 기법이 아닌 각 단어의 중요도를 문서 내 출현 빈도와 전체 문서에서의 희귀도를 조합하여 계산하는 통계 기반 기법

2025.04.05 기출

34. 학습곡선(Learning Curve)에 대한 설명으로 가장 적절한 것은?

① 모델의 성능이 학습 시간에 따라 어떻게 변화하는지를 보여준다.

② 과대적합의 경우 훈련오차와 검증오차가 모두 높다.

③ 곡선이 수평으로 수렴하는 경우 데이터를 추가해도 성능이 높아지지 않는다.

④ 과소적합의 경우 성능이 높아질 때까지 데이터를 추가한다.

정답 : 3번

  • 학습곡선은 학습 데이터의 양에 따른 성능 변화를 보여준다.
  • 곡선이 수평으로 수렴하는 경우 데이터를 추가해도 효과가 없어서 모델 변경을 고려한다.

35. 과대적합 해소 방안으로 적합하지 않은 것은?

① 규제를 약하게 한다.

② 데이터의 양을 증가시킨다.

③ 복잡한 모델을 단순화한다.

④ 드롭아웃을 적용한다.

정답 : 1번

  • 규제가 약하다는 것은 페널티의 영향이 작다는 의미로 과대적합이 더 심해진다는 말과 같다.

36. 과대적합에 대한 설명으로 옳은 것은?

① 신경망에서의 과대적합은 은닉층의 수를 증가시킴으로써 해소할 수 있다.

② 과대적합에서는 훈련 데이터에서 성능이 낮고, 검증 데이터에서 성능이 높다.

③ 과대적합은 모델이 너무 단순하여 충분한 학습이 이루어지지 않은 상태이다.

④ 데이터의 수가 적으면 과대적합이 된다.

정답 : 4번

  • 데이터의 수가 적으면 훈련 데이터의 노이즈나 특이점까지 일반적 패턴으로 학습하기 쉬워 과대적합할 가능성이 높다.

37. 학습 횟수(Epoch)와 분석 모형의 성능 간의 관계에 대한 설명으로 잘못된 것은?

① 학습 횟수가 너무 적으면 과소적합이 발생할 수 있다.

② 학습 횟수가 늘어날수록 검증 오차는 감소한다.

③ 학습 횟수가 늘어나면 모델의 일반화 능력이 감소될 수 있다.

④ 조기 종료(Early Stopping)는 과적합을 방지하기 위한 대표적인 전략 중 하나이다.

정답 : 2번

  • 학습이 지나치게 반복되면 모델이 훈련 데이터에 과하게 적응하여 훈련오차는 감소하고 검증 오차가 증가하는 과대적합이 된다.

태그:

카테고리:

업데이트: