CLAUD COMPUTERING

[클라우드 컴퓨터링] 머신러닝, 딥러닝과 빅데이터

ch010104 2025. 9. 11. 20:03

AI, 머신러닝, 딥러닝의 관계

- 세 가지 용어는 종종 혼용되지만, 명확한 포함 관계를 가지고 있음

- if-else 규칙에 따라 기계가 특정 방식으로 행동하는 것도 AI의 한 종류로 볼 수 있음

  • 인공지능 (Artificial Intelligence, AI):
    - 가장 넓은 개념으로, 기계가 학습이나 문제 해결과 같은 인간의 인지 능력을 모방하는 모든 경우를 의미
    - 간단하게는 미리 프로그래밍됨
  • 머신러닝 (Machine Learning, ML):
    - 인공지능의 한 분야로, 알고리즘이 데이터를 학습하며 시간이 지남에 따라 성능을 향상시키는 기술
    - 머신러닝 모델은 예측과 실제 값 사이의 오류(손실 함수)를 최소화하는 최적화 알고리즘이라고 할 수 있음
  • 딥러닝 (Deep Learning, DL):
    - 방대한 양의 데이터로부터 다층 신경망(multi-layered neural networks)이 학습하는 기술을 의미

- 이들의 관계는 인공지능이라는 가장 큰 우산 아래 머신러닝이 있고, 그 안에 딥러닝이 속해 있는 구조


머신러닝의 3가지 핵심 알고리즘

- 크게 지도 학습과 비지도 학습으로 나뉘며, 주요 알고리즘은 다음과 같음

1. 비지도 학습 (Unsupervised Learning)

- 정답(레이블)이 없는 데이터에서 스스로 패턴과 구조를 찾아내는 방식

  • 군집화 (Clustering): 비슷한 특성을 가진 데이터끼리 묶어 여러 그룹으로 나누는 기법
  • 예를 들어, 유사한 구매 패턴을 가진 고객을 그룹핑하거나 토픽이 비슷한 뉴스 기사를 묶는 데 사용

2. 지도 학습 (Supervised Learning)

- 정답(레이블)이 있는 데이터로 학습하여 새로운 데이터의 결과를 예측하는 방식

  • 분류 (Classification):
    - 데이터를 미리 정의된 카테고리 중 하나로 예측하는 기법
    - 스팸 메일을 필터링하거나(스팸 vs. 정상) 이미지 속 객체를 인식하는(개 vs. 고양이) 사례가 대표적
  • 회귀 (Regression):
    - 데이터 간의 관계를 학습해 연속적인 숫자 값을 예측하는 기법
    - 집의 크기에 따른 가격 예측이나 날씨에 따른 아이스크림 판매량 예측 등이 여기에 해당

딥러닝, 무엇이 다른가?

- 다층 구조의 인공 신경망을 사용한다는 점에서 기존 머신러닝과 차별화

  • 가장 큰 차이점은 특징 추출(Feature Extraction)의 자동화
  • 기존 머신러닝에서는 '자동차' 이미지를 학습시키려면 인간이 먼저 자동차의 특징(바퀴, 창문, 모양 등)을 식별하여 추출한 뒤 알고리즘에 입력해야 했음
  • 딥러닝 모델은 이 과정이 필요 없으며 , 원본 데이터(raw data)에서 스스로 특징을 학습하고 인식하여 정확한 예측

빅데이터와 딥러닝의 만남

- 딥러닝은 방대한 양의 데이터에 의해 구동

- 앤드류 응(Andrew Ng) 교수는 "딥러닝 모델이 로켓 엔진이라면, 빅데이터는 그 엔진을 움직이는 연료"라고 비유

  • 성능의 확장성: 딥러닝 모델은 학습 데이터의 양이 증가할수록 정확도가 계속 향상되는 경향이 있음
  • 전통적인 머신러닝 모델은 데이터가 일정 수준을 넘으면 성능이 더 이상 개선되지 않는 포화 지점에 도달
  • 주의할 점:
    - 하지만 딥러닝이 항상 정답은 아님
    - 데이터가 적을 때는 오히려 전통적인 머신러닝의 효율이 더 높을 수 있음
    - 따라서 문제의 성격과 데이터의 규모에 맞는 적절한 기술을 선택하는 것이 중요


ML 시스템의 현실: 코드보다 중요한 인프라

  • 실제 머신러닝 시스템에서 순수한 ML 코드가 차지하는 비중은 매우 작음
  • 성공적인 ML 시스템을 위해서는 데이터 수집, 검증, 특징 추출, 리소스 관리, 분석 도구, 모니터링 및 서빙 인프라 등 복잡하고 방대한 주변 인프라가 필수적임
  • 머신러닝 기술이 아무리 발전해도, 이를 안정적으로 운영하고 활용하기 위한 탄탄한 인프라가 뒷받침되어야 함
  • 과거 하둡(Hadoop)은 Mahout과 같은 프로젝트를 통해 머신러닝 인프라를 제공하려 했으나 큰 성공을 거두지는 못함
  • 이는 ML 시스템 구축의 복잡성을 보여줌