봉지라면의 봉지 속 이야기

BongjiNoodle's Packet Inside Story

나의 진솔담백한 이야기

컴퓨터공학/데이터분석기초실습

데이터분석기초실습] 1. 소개

봉지라면 2022. 11. 3. 16:49
반응형

소개

  • 개요
  • 학습 목표
  • 교재 및 참고서적
  • 데이터사이언스 소개 및 이해
  • 데이터사이언스 적용 예시
  • 데이터분석 과정
  • 데이터분석 필요능력
  • 데이터사이언스와 Python (vs. R)

 

 

 

 

 

 


데이터 분석 기법을 이해하기 위해 데이터 처리편집, 통계적 분석, 시각화 예측 등 데이터 사이언스의 기본적인 개념 및 기술 학습

  • Python을 활용하여 데이터 수집, 가공, 분석, 시각화하는 능력 배양
  • 머신러닝 이론 학습을 통해 예측적 데이터 분석 방법 학습

 

학습 목표

데이터 분석을 위한 알고리즘/기법 등을 살펴보고, 프로그래밍 언어를 활용하여 실제 컴퓨터 환경에서 구현 및 실습

  • Python Review
  • Data Manipulation
  • Data Visualization
  • Data Prediction/Estimation

 

주교재

Python Data Science Handbook (1st Edition)

 


데이터 사이언스 소개 및 이해

데이터사이언스에 대해 이야기하는 이유?

4차 산업혁명으로 인하여 대량의 빅데이터가 생성

  • Structured Data: 정해진 서식에 따라 생성된 데이터
    (DB에 저장된 정보: Log Data, XML 데이터 등)
  • Unstructured Data: 크기와 내용이 통일되지 않아 정리하기 어려운 데이터
    (Web 문서 데이터, SNS 데이터, Youtube 동영상, Instagram 사진 등)

막대한 양의 빅데이터를 소프트웨어와 연계하여 신속 정확하게 정보를 창출하고 활용하는 기술에 대한 중요성이 높아짐

 

데이터 기반으로 한 실생활에서의 다양한 질문들

주택 가격을 예측하는 방법은?
초등생 자녀의 수학 능력과 상관 관계가 높은 변수는?
훌륭한 직원을 뽑는 인터뷰 방법은?
웹사이트를 개선하는 방법은?
TV 광고가 제품 판매에 얼마만큼의 영향을 주는가?
비싼 와인이 더 맛있는가?

 

데이터사이언스(Data Science)란?

기존의 정형/비정형 데이터를 사용하여 주어진 질문에 대한 합리적인 답(Insight)을 내릴 수 있게 해주는 활동

"기존에 있던 대륙을 발견했던 콜럼버스가 신대륙을 발견했던 것과 같다" (Prof.Hector Garcia-Molina, Stanford University)

컴퓨터 도구를 효율적으로 이용하고, 적절한 알고리즘을 사용하여 실제적인 문제에 답을 내리는 활동

  • 데이터 취득, 가공, 수집, 저장 등의 데이터 프로세싱 기술 필요
  • 통계, 자료구조(알고리즘), 데이터마이닝, 머신러닝/딥러닝 등 데이터 분석에 관한 전반적인 기술 필요

Role required in Data Science Project(데이터사이언스 프로젝트에 필요한 역할)

  • Data Scientist: employs techniques and theories drawn from math, statistics, computer science and information science
    (수학, 통계, 컴퓨터 과학 및 정보 과학에서 파생된 기술과 이론을 사용합니다)

 


데이터분석 과정

Process Flows for Data Analysis

  1. 문제정의
  2. 분석할 데이터의 정의
  3. 분석계획/표본(Sample) 데이터의 수집
  4. 데이터 취득
  5. 데이터 전처리 및 정제
  6. 탐색적 데이터 분석
  7. 기계학습 등을 이용한 분류 또는 예측 모델링
  8. 보고서 작성

 

데이터분석 시 필요한 능력

  • 해당 분야에 대한 지식
  • 통계학 지식
    탐색적 데이터 분석
    신뢰구간
    유의수준
  • 모델링 지식
    기계학습
    딥러닝
    비정형데이터분석
  • 코딩능력
    R/파이썬 등

 

데이터 사이언스와 Python

가장 널리 사용되는 데이터사이언스 프레임 워크

인터프리팅 방식의 고급 프로그래밍 언어

  • 1991년 네덜란드 국립연구소에서 근무하던 귀도 반 로섬(Guido van Rossum)에 의해 개발

다양하고 방대한 야의 라이브러리 제공 (통계, 데이터 처리, 시각화, 머신 러닝 등)

  • Scikit-Learn (데이터마이닝, 머신러닝 라이브러리)
  • Matplotlib (시각화)
  • Numpy (다차원 배열처리)
  • Pandas (데이터 분석)

 

Python의 특징

장점

  • 쉽게 읽고, 쓰고, 배울 수 있는 인터프리팅 방식의 고급 프로그래밍 언어
  • 컴퓨터 환경(플랫폼)에 독립적인 프로그램 개발 가능
  • 객체지향 프로그래밍 가능
  • 다양한 기능(라이브러리) 지원

단점

  • 매번 인터프리터를 거쳐서 프로그램이 실행되기 때문에 상대적으로 컴파일링 방식의 언어보다는 느림
  • 모바일 환경에 적합하지 않음

 

Python vs. R

R과 파이썬은 각각 장단점이 존재

어떤 것을 선택할 것인가는 사용자의 선택 (해결하고자 하는 문제에 따라 다름)

최근 R을 사용하던 사용자들이 파이썬으로 넘어오는 것을 종종 목격 중

딥러닝 관점과 고속처리 관점, 웹과의 연동 등에서 파이썬이 R에 비해 우수

파이썬 구문이 R에 비해 복잡도가 더 높음

 


본 데이터분석기초실습은 [지능형 데이터 공학 및 응용 연구실 - 경상국립대학교 컴퓨터과학부]에서 수업한 자료를 토대로 정리하여 작성하였습니다.



반응형