20년 뇌과학 공부, 핵심만 4시간에 압축 (통합본)
20년 뇌과학 공부, 핵심만 4시간에 압축 (통합본)
본 문서는 4개 파트를 하나로 통합한 버전입니다. 분리된 버전: [[40@library/_references/lectures/lecture-2025-11-10_brain-science-20-years/index|강의 전체 개요]]
Part 1: 인공지능과 컴퓨터 과학의 역사
타임스탬프: 00:00 - 01:05 핵심 질문: AI와 컴퓨터는 어떻게 다른 길을 걸어왔는가?
학습 목표
이 파트를 마치면 다음을 할 수 있습니다:
- AI와 컴퓨터 과학의 출발점 차이를 설명할 수 있다
- XOR 문제와 히든 레이어의 중요성을 이해한다
- 2012년 딥러닝 혁명의 의미를 파악한다
- CNN이 시각 인식에서 왜 혁명적이었는지 안다
- 인터넷(WWW)의 탄생 배경을 이해한다
강의 개요
AI는 처음부터 인간을 닮으려고 했습니다. 컴퓨터가 계산과 정보 처리를 목표로 했다면, AI는 인간의 내면까지 흉내내려는 야심으로 시작했죠. 1950년대 진공관 컴퓨터 시대부터 2012년 딥러닝 혁명까지, 60년의 여정은 결국 한 질문으로 수렴됩니다: “기계가 정말 생각할 수 있는가?”
박문호 박사는 자신의 반도체 연구 경험을 바탕으로, 하드웨어의 진화가 AI 알고리즘의 발전과 어떻게 맞물렸는지 생생하게 설명합니다. 특히 2012년 ImageNet 대회에서 토론토 대학 Hinton 연구팀이 일으킨 파장은, AI 역사의 전환점이었습니다.
핵심 개념
1. AI와 컴퓨터의 출발점 차이
[00:00-00:08]
얼마 전 중국에서 하프 마라톤을 완주한 AI 로봇이 화제였습니다. 이 로봇은 단순히 계산을 잘하는 것이 아니라, 인간처럼 균형을 잡고 걷고 뛰는 능력을 보여줬죠. 이것이 AI와 컴퓨터의 근본적 차이입니다.
컴퓨터는 계산을 빨리, 정확하게 하려는 목적으로 만들어졌습니다. 엑셀 파일을 처리하고, 데이터베이스를 관리하고, 이메일을 보내는 것이 컴퓨터의 역할입니다. 반면 AI는 “인간을 흉내낸다”는 목표로 출발했습니다. 인간처럼 말하고, 추론하고, 심지어 속마음까지 이해하려는 시도였죠.
여기서 핵심 질문이 나옵니다: 인간을 흉내낸다는 것은 무엇일까요? 겉으로 보이는 행동만 따라하면 될까요, 아니면 내면의 “꿍꿍이”까지 이해해야 할까요? 인간은 말과 행동이 다를 수 있습니다. 사기를 치고, 거짓말을 하고, 남을 설득하는 능력도 인간의 일부입니다. 이 모든 것을 흉내내려면, 기계도 “속마음”이라는 개념을 가져야 합니다.
실전 연습:
- 질문: ChatGPT는 정말 당신의 질문을 “이해”하는 걸까요, 아니면 패턴을 따라하는 걸까요?
- 생각해보기: 이해와 패턴 인식의 경계는 어디일까요?
2. 1950년대 컴퓨터의 탄생: ENIAC
[00:25-00:40]
1950년, ENIAC이라는 컴퓨터가 처음 등장했습니다. 크기가 교실 하나만 했고, 가동하면 도시 하나의 전력이 들어갈 정도로 거대했습니다. 진공관(vacuum tube)으로 만들어진 이 컴퓨터는, 현재 우리가 주머니에 넣고 다니는 스마트폰보다 계산 능력이 훨씬 떨어졌습니다.
박문호 박사가 대학에 들어간 1979년, 선배들은 아직 진공관을 공부했습니다. 하지만 박사 본인은 트랜지스터와 실리콘 반도체 시대의 첫 세대였죠. 진공관에서 트랜지스터로, 트랜지스터에서 집적회로(IC)로, 다시 초고밀도 집적회로(VLSI)로 발전하는 과정은 불과 30년 만에 일어났습니다.
이 하드웨어 혁명이 없었다면, AI는 영원히 이론으로만 남았을 것입니다. 딥러닝이 2012년에야 터진 이유도, GPU(그래픽 처리 장치)가 행렬 연산을 초고속으로 처리할 수 있게 되면서였습니다.
비유: ENIAC은 마치 증기기관차 같은 존재입니다. 느리고 무겁지만, 인류가 “기계로 생각할 수 있다”는 가능성을 처음 본 순간이었습니다.
3. 인터넷의 탄생: CERN의 실험실
[00:10-00:13]
박문호 박사가 유럽 여행 중 CERN(유럽 입자물리 연구소)을 방문했을 때, 전시관 구석에 낡은 모니터와 키보드가 놓여 있었습니다. 설명을 보니, 바로 월드 와이드 웹(WWW), 즉 인터넷의 출발점이었습니다.
CERN에서는 입자가속기를 사용해 입자를 충돌시키고, 그 파편을 분석합니다. 수천 명의 연구자들이 각자 다른 실험실에서 데이터를 분석하다 보니, 데이터를 공유할 방법이 필요했습니다. 한 실험실에서 얻은 결과를 다른 실험실로 보내야 했죠. 그래서 만든 것이 바로 인터넷입니다.
인터넷은 단순히 정보의 “거미망(web)”이 아닙니다. 두 실험실 사이에 정보를 전송하는 “통로”가 있었다는 것, 그것이 지금 80억 인류가 사용하는 인터넷의 시작입니다. 기술은 필요에서 태어납니다. 인터넷도 예외가 아니었죠.
역사적 의미:
- 1989년, Tim Berners-Lee가 CERN에서 WWW 제안
- 1991년, 첫 웹사이트 공개
- 현재, 50억 명 이상이 인터넷 사용
4. AI 연구의 출발: 1956년
[00:28-00:35]
AI 연구는 1956년, 다섯 명의 대가급 연구자들이 모여 시작했습니다. 당시엔 낙관적이었습니다. “인간의 기본적인 능력도 어떤 단순한 계산이 굉장히 복합적으로 이루어진 것일 뿐이다. 우리가 만들 수 있을 것이다.”
하지만 현실은 냉혹했습니다. 몇 가지 성과를 내다가, 1969년 한 논문이 등장하면서 AI 연구는 침체기에 빠집니다. 그 논문은 “XOR 게이트를 인공 신경망으로 구현할 수 없다”는 것을 증명했습니다.
XOR(exclusive OR)은 간단한 논리 게이트입니다. AND, OR, NOT 게이트는 단순한 신경망으로도 구현할 수 있지만, XOR은 불가능했습니다. 이 하나의 문제가 AI 연구를 10년 이상 얼어붙게 만들었습니다.
XOR 문제:
입력 A | 입력 B | 출력
0 | 0 | 0
0 | 1 | 1
1 | 0 | 1
1 | 1 | 0
이 간단한 패턴조차 2층 신경망으로는 학습할 수 없었습니다. 이유는 XOR이 “선형 분리 불가능(not linearly separable)”하기 때문입니다. 즉, 직선 하나로는 0과 1을 구분할 수 없다는 뜻입니다.
5. 히든 레이어의 발견
[00:46-01:00]
1980년대 중반, 해결책이 나왔습니다: 히든 레이어(hidden layer)입니다. 입력층(input layer)과 출력층(output layer) 사이에 중간 층을 하나 더 넣으면, XOR 문제를 풀 수 있다는 것을 발견했습니다.
히든 레이어는 “보이지 않는 층”입니다. 입력도 아니고 출력도 아닌, 중간에서 정보를 변환하는 층이죠. 이 층이 입력 데이터를 “재표현(re-representation)”하면서, 선형 분리 불가능한 패턴도 학습할 수 있게 되었습니다.
박문호 박사는 이를 “은닉 변수(hidden variable)”와 연결합니다. 우리가 직접 볼 수 없지만, 결과에 영향을 미치는 숨겨진 요인. 소비자의 “숨겨진 욕망”이나 학습자의 “숨겨진 이해 패턴”처럼요. AI가 학습한다는 것은, 바로 이 은닉 변수를 찾아내는 과정입니다.
비유: 히든 레이어는 번역기와 같습니다. 한국어를 영어로 바로 번역하기 어려우면, 중간에 “의미”라는 추상적 표현으로 변환한 뒤, 다시 영어로 변환하는 것이죠. 히든 레이어도 마찬가지로 입력을 “의미 공간”으로 변환합니다.
6. 2012년 혁명: ImageNet 대회
[00:02-00:06]
2012년, AI 역사의 전환점이 옵니다. 캐나다 토론토 대학의 Hinton 교수 연구팀이 ImageNet 시각 인식 대회에 출전했습니다. 그 전까지 12년 동안, 전 세계 연구팀들이 시각 인식 정확도를 70% 근처에서 1%씩 올리기 위해 치열하게 경쟁하고 있었습니다.
그런데 토론토 대학 팀이 첫 출전에서 10% 이상의 정확도 향상을 이뤄냈습니다. 80% 근처였던 정확도가 단숨에 90% 를 넘어선 것입니다. 전 세계 연구자들이 충격을 받았습니다. 일본의 한 전문가는 “내가 이 분야를 계속 해야 하나 말아야 하나 고민했다”고 말할 정도였습니다.
어떻게 이런 일이 가능했을까요? 답은 딥러닝(deep learning)이었습니다. 히든 레이어를 1개가 아니라 여러 개, 수십 개까지 쌓은 “깊은” 신경망이었습니다. 특히 CNN(Convolutional Neural Network, 합성곱 신경망)이라는 구조가 핵심이었습니다.
ImageNet 정확도 변화:
- 2010년: ~71% (MIT, 도쿄공대 등)
- 2011년: ~74% (세계 최고 연구팀들)
- 2012년: 84.7% (토론토 대학, AlexNet)
- 2015년: 96.4% (ResNet, 인간 수준 넘어섬)
왜 중요한가? 시각 인식은 자율 주행의 핵심입니다. 사람이 지나가는지, 차가 오는지, 신호등이 무슨 색인지 구분 못 하면 목숨이 위험합니다. 98-99% 정확도가 나와야 상용화가 가능한데, 2012년 이전까지는 그 문턱을 넘지 못했습니다. 딥러닝이 그 문을 열었습니다.
7. CNN: 시각 패턴의 혁명
[00:05-00:06]
CNN은 왜 시각 인식에 혁명을 일으켰을까요? 인간의 시각 피질(visual cortex) 구조에서 영감을 받았기 때문입니다. 인간의 뇌는 이미지를 볼 때, 먼저 선과 모서리 같은 저수준 특징(low-level features)을 감지합니다. 그 다음 곡선과 모양 같은 중간 수준 특징을, 마지막으로 “고양이”나 “자동차” 같은 고수준 개념(high-level concepts)을 인식합니다.
CNN도 마찬가지입니다. 첫 번째 층에서는 모서리를, 두 번째 층에서는 모양을, 세 번째 층에서는 부분 객체를, 마지막 층에서는 전체 객체를 인식합니다. 이 계층적 구조가 시각 인식의 핵심입니다.
그리고 CNN은 “위치 불변성(translation invariance)”을 가집니다. 고양이가 이미지의 왼쪽에 있든 오른쪽에 있든, 같은 고양이로 인식합니다. 이전의 완전 연결 신경망(fully connected network)은 이게 불가능했습니다.
CNN의 핵심 아이디어:
- Convolution (합성곱): 작은 필터로 이미지를 스캔
- Pooling (풀링): 중요한 특징만 남기고 압축
- 계층적 특징 학습: 저수준 → 고수준 특징
비유: CNN은 마치 탐정이 단서를 찾는 과정과 같습니다. 먼저 작은 흔적(모서리)을 찾고, 그것들을 조합해 패턴(모양)을 만들고, 최종적으로 범인(객체)을 특정하는 것이죠.
상세 설명
배경: 왜 AI는 오래 걸렸나?
AI 연구가 1956년에 시작했는데, 왜 2012년에야 터졌을까요? 세 가지 이유가 있습니다.
첫째, 컴퓨팅 파워입니다. 딥러닝은 엄청난 계산량을 요구합니다. 히든 레이어가 많아질수록, 파라미터(가중치) 수가 기하급수적으로 증가합니다. GPT-4는 1조 7천억 개의 파라미터를 가지고 있습니다. 이를 학습하려면 수천 개의 GPU가 몇 달 동안 돌아야 합니다. 1980년대 컴퓨터로는 불가능했습니다.
둘째, 데이터입니다. ImageNet은 1400만 장의 라벨링된 이미지를 제공했습니다. 딥러닝은 데이터가 많을수록 성능이 좋아집니다. 인터넷이 보편화되면서, 대규모 데이터셋을 구축할 수 있게 되었습니다.
셋째, 알고리즘입니다. Backpropagation(역전파)는 1986년에 발명되었지만, 깊은 신경망에서는 잘 작동하지 않았습니다. “Vanishing gradient(기울기 소실)” 문제 때문입니다. 2000년대 들어 ReLU 활성화 함수, Batch Normalization, Dropout 같은 기법들이 개발되면서, 깊은 신경망도 학습 가능해졌습니다.
전환점: Hinton의 통찰
Geoffrey Hinton 교수는 1980년대부터 신경망 연구를 해왔습니다. “AI 겨울(AI winter)”이라 불리는 침체기에도 신경망을 고수했죠. 많은 연구자들이 SVM(Support Vector Machine)이나 Decision Tree 같은 다른 방법론으로 갔지만, Hinton은 신경망이 언젠가 터질 것을 믿었습니다.
2006년, Hinton은 “Deep Belief Network”라는 논문을 발표하면서, 깊은 신경망을 효과적으로 학습하는 방법을 제시했습니다. Pre-training(사전 학습)이라는 기법을 사용해, 층별로 하나씩 학습한 뒤, 전체를 fine-tuning하는 방법이었습니다.
그리고 2012년, Hinton의 제자들인 Alex Krizhevsky와 Ilya Sutskever가 AlexNet을 만들어 ImageNet 대회를 휩쓸었습니다. 이후 딥러닝은 폭발적으로 성장했고, AI는 새로운 시대로 접어들었습니다.
결론: AI는 뇌를 닮아가고 있다
AI와 뇌과학은 서로 영향을 주고받으며 발전하고 있습니다. CNN은 시각 피질에서 영감을 받았고, RNN(Recurrent Neural Network)은 뇌의 순환 구조를 모방했습니다. 최근의 Transformer 모델도, Attention 메커니즘은 뇌의 주의 집중과 유사합니다.
박문호 박사는 이렇게 말합니다: “인공지능은 처음부터 컴퓨터와 다른 길로 갔습니다. 인간을 흉내내고. 그럼 인간을 흉내낸다는 것은, 인간은 꿍꿍이 속에 있잖아요. 그 속마음이 뭐냐, 이걸 알아야만 인간이 되는 거잖아요.”
AI가 정말 “생각”하는지는 아직 모릅니다. 하지만 AI가 인간의 패턴을 학습하고, 인간처럼 반응하고, 심지어 인간을 속일 수도 있다는 것은 분명합니다. 그렇다면 “생각”과 “패턴 인식”의 경계는 어디일까요? 이 질문은 Part 3 (뇌 구조)에서 다시 다룰 것입니다.
실습 과제
기초 과제
- 히든 레이어 시각화:
- XOR 문제를 2D 평면에 그려보세요 (4개 점)
- 직선 하나로는 분리 불가능함을 확인하세요
- 히든 레이어를 추가하면 어떻게 분리되는지 상상해보세요
- ImageNet 검색:
- ImageNet 웹사이트 방문
- “고양이” 카테고리에 몇 장의 이미지가 있는지 확인
- 다양한 각도, 배경의 고양이 이미지를 보며, CNN이 왜 필요한지 이해
- AI vs 컴퓨터 비교표 작성:
| 항목 | 컴퓨터 | AI | |-----------|-----------------|-------------------| | 목적 | 계산, 정보처리 | 인간 흉내내기 | | 핵심 능력 | 속도, 정확성 | 패턴 인식, 추론 | | 예시 | 엑셀, 데이터베이스 | ChatGPT, 자율주행 |
심화 과제
- AlexNet 논문 읽기:
- “ImageNet Classification with Deep Convolutional Neural Networks” (2012)
- 8개 층 구조를 그려보기
- 왜 5개 Convolution층 + 3개 Fully Connected층인지 생각해보기
- TensorFlow Playground 실습:
- https://playground.tensorflow.org/ 방문
- XOR 패턴 선택
- 히든 레이어 없이 학습 → 실패 확인
- 히든 레이어 1개 추가 → 성공 확인
- 뉴런 수, 학습률 조정해보며 실험
- 자신만의 CNN 아키텍처 설계:
- 손글씨 숫자 인식을 위한 CNN 구조 그려보기
- 몇 개의 Convolution층이 필요한가?
- Pooling은 어디에 넣을까?
- 최종 출력은 10개 클래스 (0-9)
이해도 체크 퀴즈
선다형
- AI와 컴퓨터의 가장 큰 차이는?
- A) 속도
- B) 크기
- C) 목적 (인간 흉내 vs 계산)
- D) 가격
정답: C 해설: 컴퓨터는 계산과 정보 처리가 목적이지만, AI는 처음부터 인간의 지능을 모방하려는 목표로 출발했습니다.
- XOR 문제가 중요한 이유는?
- A) 수학적으로 복잡해서
- B) 히든 레이어의 필요성을 보여줘서
- C) 컴퓨터가 못 풀어서
- D) 실생활에 자주 나와서
정답: B 해설: XOR은 선형 분리 불가능하므로, 히든 레이어 없이는 학습할 수 없습니다. 이 문제가 AI 발전의 중요한 전환점이 되었습니다.
- 2012년 ImageNet 대회에서 토론토 대학팀의 혁신은?
- A) 데이터를 2배로 늘림
- B) 딥러닝(CNN)으로 정확도 10% 향상
- C) GPU를 처음 사용함
- D) 새로운 알고리즘 발명
정답: B 해설: AlexNet이라는 깊은 CNN으로 기존 대비 10% 이상 정확도를 향상시켜, 딥러닝 시대를 열었습니다.
- CNN이 시각 인식에 효과적인 이유는?
- A) 빠르기 때문에
- B) 계층적으로 특징을 학습하기 때문에
- C) 데이터가 적게 필요해서
- D) 학습이 쉬워서
정답: B 해설: CNN은 저수준 특징(모서리) → 중간 수준(모양) → 고수준(객체)로 계층적으로 학습하며, 인간 시각 피질과 유사합니다.
- 인터넷(WWW)은 어디서 탄생했나?
- A) MIT
- B) Stanford
- C) CERN (유럽 입자물리 연구소)
- D) Google
정답: C 해설: CERN 연구자들이 실험 데이터를 공유하기 위해 만든 것이 인터넷의 시작입니다.
서술형
-
히든 레이어가 “은닉 변수”와 어떻게 연결되는지 설명하세요.
모범 답안: 히든 레이어는 입력과 출력 사이에서 데이터를 “재표현”하는 중간 층입니다. 이 층이 학습하는 것은 우리가 직접 볼 수 없는 숨겨진 패턴, 즉 은닉 변수입니다. 예를 들어, 고양이 이미지를 인식할 때, 히든 레이어는 “귀 모양”, “수염”, “털 질감” 같은 중간 특징들을 학습합니다. 이것들은 입력(픽셀)도 아니고 출력(고양이)도 아니지만, 인식에 중요한 역할을 합니다.
-
딥러닝이 2012년에야 성공한 이유 세 가지를 쓰세요.
모범 답안: 1) 컴퓨팅 파워: GPU가 행렬 연산을 초고속으로 처리할 수 있게 되었습니다. 2) 데이터: ImageNet 같은 대규모 데이터셋이 구축되었습니다. 3) 알고리즘: ReLU, Batch Normalization, Dropout 같은 기법으로 깊은 신경망 학습이 가능해졌습니다.
복습 노트 (Flashcard)
카드 1
앞면: AI와 컴퓨터의 출발점 차이는? 뒷면: 컴퓨터는 “계산”이 목적, AI는 “인간 흉내”가 목적
카드 2
앞면: ENIAC은 무엇인가? 뒷면: 1950년 등장한 최초의 전자식 컴퓨터, 교실 크기, 진공관 사용
카드 3
앞면: 인터넷(WWW)은 어디서 왜 만들어졌나? 뒷면: CERN 입자물리 연구소, 실험 데이터 공유 목적
카드 4
앞면: XOR 문제란? 뒷면: 선형 분리 불가능한 패턴, 히든 레이어 없이는 학습 불가
카드 5
앞면: 히든 레이어의 역할은? 뒷면: 데이터를 “재표현”하여 복잡한 패턴 학습 가능하게 함
카드 6
앞면: 2012년 ImageNet 혁명은? 뒷면: 토론토 대학(Hinton) 팀이 CNN으로 정확도 10% 향상, 딥러닝 시대 개막
카드 7
앞면: CNN의 핵심 아이디어 3가지는? 뒷면: 1) Convolution (작은 필터로 스캔), 2) Pooling (압축), 3) 계층적 특징 학습
카드 8
앞면: 딥러닝이 늦게 발전한 이유는? 뒷면: 컴퓨팅 파워, 데이터, 알고리즘 (3가지 모두 필요)
카드 9
앞면: Geoffrey Hinton은 누구? 뒷면: 딥러닝의 아버지, 신경망 연구 고수, 2012년 ImageNet 우승팀 지도교수
카드 10
앞면: CNN이 인간 뇌와 유사한 점은? 뒷면: 계층적 특징 학습 (저수준 → 고수준), 시각 피질 구조 모방
참고 자료
논문
- “ImageNet Classification with Deep CNNs” (Krizhevsky et al., 2012) - AlexNet 원논문
- “Learning representations by back-propagating errors” (Rumelhart et al., 1986) - Backpropagation
- “Deep Learning” (LeCun, Bengio, Hinton, 2015) - Nature 리뷰 논문
영상
- 3Blue1Brown: “But what is a neural network?” (YouTube)
- Computerphile: “Deep Learning” (YouTube)
- Andrew Ng: Coursera Deep Learning Specialization
웹사이트
- TensorFlow Playground: https://playground.tensorflow.org/
- ImageNet: https://image-net.org/
- Papers With Code: https://paperswithcode.com/
Part 2: 확률, 인과관계, 그리고 은닉 변수
타임스탬프: 01:05 - 02:15 핵심 질문: 우리는 원인을 정말 알고 있는가?
학습 목표
이 파트를 마치면 다음을 할 수 있습니다:
- 베이지안 추론의 기본 개념을 이해한다
- 인과관계와 상관관계의 차이를 구분한다
- 은닉 변수가 의사결정에 미치는 영향을 안다
- 조건부 확률의 의미를 설명할 수 있다
- AI가 “원인”을 학습하는 방법을 이해한다
강의 개요
“공부를 열심히 하면 성적이 오른다.” 당연해 보이는 이 문장은 사실 확률의 문제입니다. 공부 (원인)와 성적 (결과) 사이에는 보이지 않는 수많은 변수들이 숨어 있습니다. 이해력, 집중력, 건강상태, 시험의 난이도… 이것들이 바로 “은닉 변수”입니다.
박문호 박사는 AI가 학습한다는 것이 결국 이 은닉 변수를 찾아내는 과정이라고 말합니다. 베이지안 추론은 불확실성 속에서 최선의 판단을 내리는 방법이고, 히든 레이어는 이 은닉 변수를 표현하는 수학적 도구입니다.
핵심 개념
1. 확률이란 무엇인가? (01:05-01:15)
모든 의사결정은 확률입니다. “내일 비가 올까?”는 기상 데이터를 바탕으로 한 확률적 예측입니다. “이 주식이 오를까?”도 마찬가지죠. 우리는 미래를 확정할 수 없으니, 확률로 생각해야 합니다.
확률에는 두 가지 해석이 있습니다. 첫째, 빈도주의(frequentist) 관점: “동전을 100번 던지면 50번은 앞면이 나온다.” 과거 데이터의 빈도로 확률을 정의합니다. 둘째, 베이지안(Bayesian) 관점: “내가 가진 정보로는 앞면이 나올 확률이 50%라고 믿는다.” 믿음(belief)의 정도로 확률을 정의합니다.
AI는 베이지안 관점에 가깝습니다. 데이터를 보면서 믿음을 업데이트하죠. ChatGPT가 문장을 생성할 때도, 다음 단어의 확률 분포를 계산합니다.
2. 베이지안 추론: 사전 → 사후 (01:15-01:30)
베이지안 추론의 핵심은 업데이트입니다. 사전 확률(prior probability)에서 시작해, 증거(evidence)를 보고, 사후 확률(posterior probability)로 업데이트합니다.
베이즈 정리:
P(원인|결과) = P(결과|원인) × P(원인) / P(결과)
사후 확률 = 가능도 × 사전 확률 / 정규화 상수
예를 들어, 병원 검사를 받았다고 합시다. 검사 결과가 양성이 나왔습니다. 정말 병에 걸린 걸까요?
- 사전 확률 P(병): 전체 인구 중 이 병에 걸린 비율 (예: 0.1%)
-
**가능도 P(양성 병)**: 병에 걸렸을 때 검사가 양성 나올 확률 (예: 99%) -
**P(양성 건강)**: 건강한데 검사가 양성 나올 확률 (위양성, 예: 5%)
베이즈 정리로 계산하면, 검사 결과가 양성이어도 실제 병에 걸렸을 확률은 생각보다 낮습니다. 왜냐하면 사전 확률이 매우 낮기 때문입니다.
이것이 베이지안 사고입니다. 증거만 보지 말고, 사전 확률도 고려하라는 것이죠.
3. 인과관계 vs 상관관계 (01:30-01:45)
“아이스크림 판매량이 늘면 익사 사고가 증가한다.” 상관관계가 있습니다. 그렇다면 아이스크림이 익사의 원인일까요? 아닙니다. 숨겨진 제3의 변수, 즉 “날씨”가 원인입니다. 더운 날씨 때문에 아이스크림도 많이 팔리고, 수영도 많이 하는 것이죠.
상관관계: 두 변수가 함께 변한다 (A ↔ B) 인과관계: 한 변수가 다른 변수를 일으킨다 (A → B)
인과관계를 찾는 것은 어렵습니다. 왜냐하면 관찰만으로는 불충분하기 때문입니다. 개입(intervention)이 필요합니다. 즉, A를 강제로 변경했을 때 B가 변하는지 확인해야 합니다.
Judea Pearl의 “인과 추론(causal inference)” 이론은 이를 수학적으로 정리했습니다. 그래프 모델(causal graph)로 인과관계를 표현하고, do-calculus로 개입의 효과를 계산합니다.
4. 은닉 변수: 보이지 않는 원인 (01:45-02:00)
소비자가 왜 이 제품을 샀을까요? “가격이 저렴해서”라고 대답할 수 있지만, 진짜 이유는 숨겨져 있을 수 있습니다. “브랜드 이미지”, “친구 추천”, “광고 효과”… 이것들이 은닉 변수입니다.
AI의 히든 레이어도 마찬가지입니다. 입력(이미지)에서 출력(고양이)으로 가는 과정에서, 히든 레이어는 “귀 모양”, “수염”, “털 질감” 같은 중간 특징을 학습합니다. 이것들은 우리가 명시적으로 가르치지 않았지만, 모델이 스스로 발견한 은닉 변수입니다.
마케팅의 핵심은 소비자의 “숨겨진 욕망”을 찾는 것입니다. 교육의 핵심은 학습자의 “숨겨진 이해 패턴”을 찾는 것이고요. AI도 마찬가지입니다. 데이터에서 은닉 변수를 찾아내는 것이 학습의 본질입니다.
5. 조건부 확률과 의사결정 (02:00-02:15)
의사결정은 조건부 확률의 연속입니다. “A가 일어났을 때, B가 일어날 확률은?” 이 질문에 답하면서 우리는 행동합니다.
| 조건부 확률: P(B | A) = “A가 일어났다는 조건 하에, B가 일어날 확률” |
예를 들어, “비가 올 때, 우산을 가져갈 확률”은 높지만, “맑을 때, 우산을 가져갈 확률”은 낮습니다. 조건(날씨)에 따라 확률(행동)이 달라지죠.
강화학습도 마찬가지입니다. “현재 상태가 S일 때, 행동 A를 하면 보상 R을 받을 확률은?” 이 조건부 확률을 최대화하는 정책(policy)을 학습합니다.
박문호 박사는 이렇게 말합니다: “일주일 후에 내가 뭘 결정할 거가 바로 사후 확률입니다. 지금 여러 정보가 들어오는 확률이 달라지면서, 최종 결정이 달라지는 거죠.”
상세 설명
베이지안 사고의 힘
베이지안 사고는 단순히 수식이 아니라, 세상을 보는 방식입니다. 우리는 항상 불완전한 정보를 가지고 있습니다. 확정적으로 알 수 있는 것은 거의 없죠. 베이지안 사고는 이 불확실성을 인정하고, 증거를 보면서 믿음을 점진적으로 업데이트하는 방법입니다.
AI도 마찬가지입니다. 처음에는 무작위로 시작하지만 (사전 확률), 데이터를 보면서 (증거), 점점 더 정확한 모델로 수렴합니다 (사후 확률). 이것이 학습입니다.
인과 추론의 중요성
상관관계만 보면 잘못된 결론에 도달합니다. “공부 시간과 성적은 상관관계가 높다”는 사실은, “공부하면 성적이 오른다”는 인과관계를 보장하지 않습니다. 만약 “머리가 좋은” 학생이 공부도 많이 하고 성적도 좋다면, 진짜 원인은 “지능”일 수 있습니다.
Judea Pearl의 “인과 사다리(ladder of causation)” 개념이 중요합니다:
- Association (연관): A와 B가 함께 나타난다
- Intervention (개입): A를 바꾸면 B가 바뀐다
- Counterfactual (반사실): A를 안 했다면 B는 어땠을까?
AI는 1단계는 잘하지만, 2-3단계는 아직 어렵습니다. 딥러닝은 패턴을 찾지만, 인과관계를 이해하지는 못합니다. 이것이 AI의 한계이기도 하고, 앞으로의 도전 과제이기도 합니다.
실습 과제
기초 과제
- 베이즈 정리 계산:
- 검사 정확도 95%, 질병 유병률 1%일 때
- 양성 결과가 나왔을 때 실제 병에 걸렸을 확률은?
- (힌트: 위양성 확률도 고려)
- 상관 vs 인과 구분:
- 다음 중 인과관계가 있는 것은?
- A) 키와 몸무게
- B) 수면 시간과 건강
- C) 신발 크기와 수학 실력
- 각각에 대해 은닉 변수가 있는지 찾아보세요
- 다음 중 인과관계가 있는 것은?
심화 과제
- Judea Pearl의 “The Book of Why” 1장 읽기
- 실생활 의사결정 분석:
- 최근 내린 중요한 결정 하나 선택
- 사전 확률, 증거, 사후 확률을 표로 정리
- 어떤 은닉 변수가 영향을 미쳤는지 추측
이해도 체크 퀴즈
- 베이지안 추론의 3단계는?
- A) 가설 → 실험 → 결론
- B) 사전 → 증거 → 사후
- C) 입력 → 처리 → 출력
정답: B
- 은닉 변수의 예시가 아닌 것은?
- A) 소비자의 숨겨진 욕망
- B) 히든 레이어의 중간 특징
- C) 온도계에 표시된 온도
정답: C (관찰 가능함)
- 인과관계를 확인하려면?
- A) 상관계수 계산
- B) 개입(intervention) 실험
- C) 데이터 많이 수집
정답: B
복습 노트 (Flashcard)
카드 1: 베이지안 추론이란? → 사전 확률에서 시작해 증거를 보고 사후 확률로 업데이트
카드 2: 은닉 변수란? → 보이지 않지만 결과에 영향을 미치는 숨겨진 요인
카드 3: 상관관계 vs 인과관계? → 상관은 함께 변함, 인과는 원인이 결과를 일으킴
Part 3: 뇌 구조와 신경과학의 원리
타임스탬프: 02:15 - 03:30 핵심 질문: 전기 신호가 어떻게 의식이 되는가?
학습 목표
- 대뇌피질 6개 층 구조를 이해한다
- 뉴런과 시냅스의 작동 원리를 설명할 수 있다
- 상구(SC)의 역할과 주의 메커니즘을 안다
- 뇌와 AI 신경망의 공통점과 차이점을 파악한다
핵심 개념
1. 대뇌피질의 6개 층 구조 (02:45-03:00)
대뇌피질(cerebral cortex)은 6개 층으로 이루어져 있습니다. 각 층은 특정 유형의 뉴런들이 모여 있고, 층 간 연결이 정보 처리의 핵심입니다.
- Layer 1: 수평 연결, 넓은 범위 통합
- Layer 2-3: 피질 간 연결, 연상 기능
- Layer 4: 감각 입력 수신 (시상으로부터)
- Layer 5: 운동 명령 출력 (척수, 뇌간으로)
- Layer 6: 피드백, 시상으로 다시 신호 전송
이 계층 구조는 CNN의 다층 구조와 유사합니다. 정보가 층을 거치면서 점점 더 추상적이고 고수준의 표현으로 변환됩니다.
2. 뉴런과 시냅스 (02:15-02:30)
뉴런(신경세포)은 전기 신호를 전달합니다. 한 뉴런에는 수천 개의 시냅스(synapse, 신경연접)가 있고, 각 시냅스는 다른 뉴런과 연결됩니다.
신호 전달 과정:
- 전기 신호가 뉴런의 축삭(axon)을 따라 이동
- 시냅스 말단에 도달
- 신경전달물질(neurotransmitter) 방출
- 다음 뉴런의 수용체에 결합
- 다음 뉴런 활성화 또는 억제
이 과정은 AI 신경망의 가중치 합 → 활성화 함수와 유사합니다.
3. 상구(Superior Colliculus): 주의의 물리적 기반 (03:00-03:15)
상구(SC)는 중뇌에 있는 구조로, 시각 정보를 처리하고 눈의 움직임을 제어합니다. 특히 “주의(attention)”의 물리적 기반입니다.
무언가가 시야의 가장자리에서 움직이면, SC가 즉시 반응해 눈을 그쪽으로 돌립니다. 의식적 판단 없이, 자동으로 일어나는 과정입니다.
AI의 Attention 메커니즘도 이 뇌 구조에서 영감을 받았습니다. 중요한 정보에 집중하고, 덜 중요한 정보는 무시하는 것이죠.
상세 설명
뇌와 AI의 공통점
- 계층적 구조: 층을 거치면서 추상화
- 병렬 처리: 여러 뉴런/유닛이 동시에 작동
- 연결 가중치: 시냅스 강도 / 가중치
- 학습: 연결 강도 조정 (Hebbian learning / Backpropagation)
뇌와 AI의 차이점
- 스파이크 신호 vs 연속 값: 뇌는 이산적 펄스, AI는 실수
- 에너지 효율: 뇌는 20W, 대형 AI는 수백 kW
- 가소성: 뇌는 평생 변화, AI는 학습 후 고정 (일반적으로)
- 의식: 뇌는 있음(?), AI는 없음(?)
이해도 체크 퀴즈
- 대뇌피질은 몇 개 층? → 6개
- 신경전달물질의 역할은? → 시냅스 간 신호 전달
- 상구(SC)의 주요 기능은? → 시각 정보 처리 및 주의 제어
복습 노트 (Flashcard)
카드 1: 대뇌피질 층 구조 → 6개 층, 각 층은 고유 기능 카드 2: 뉴런 신호 전달 → 전기 신호 → 신경전달물질 → 다음 뉴런 카드 3: 상구(SC) → 시각 주의의 물리적 기반, 눈 움직임 제어
Part 4: 강화학습과 삶의 패턴
타임스탬프: 03:30 - 04:21 핵심 질문: 어떤 패턴의 삶을 살 것인가?
학습 목표
- 강화학습의 기본 원리를 이해한다
- RLHF(인간 피드백 강화학습)의 작동 방식을 안다
- 몰입(flow) 상태의 뇌과학적 의미를 파악한다
- 삶의 패턴과 뇌과학을 연결할 수 있다
핵심 개념
1. 강화학습: 보상 기반 학습 (03:30-03:45)
강화학습(Reinforcement Learning)은 보상(reward)을 통해 학습합니다. 개에게 간식으로 행동을 가르치는 것과 같습니다. 좋은 행동을 하면 보상, 나쁜 행동을 하면 벌 (또는 보상 없음).
강화학습의 핵심 요소:
- 상태 (State): 현재 상황
- 행동 (Action): 선택 가능한 행동들
- 보상 (Reward): 행동의 결과로 받는 신호
- 정책 (Policy): 상태에서 행동을 선택하는 규칙
AI는 수많은 시행착오를 거치며, 누적 보상을 최대화하는 정책을 학습합니다. AlphaGo가 바둑을 배운 방식도, ChatGPT가 인간 선호도를 배운 방식(RLHF)도 강화학습입니다.
2. RLHF: 인간 피드백 강화학습 (03:45-04:00)
RLHF는 Reinforcement Learning from Human Feedback의 약자입니다. ChatGPT가 “좋은 답변”을 생성하는 핵심 기술이죠.
RLHF 3단계:
- Supervised Learning: 사람이 쓴 좋은 답변으로 기본 모델 학습
- Reward Model 학습: 사람이 여러 답변에 순위를 매김 → 보상 예측 모델 학습
- PPO (Proximal Policy Optimization): 보상 모델을 기준으로 정책 최적화
사람의 “주인이 좋아할 만한 문장을 점진적으로 매일매일 찾아가기”는 효율이 높습니다. 명시적 규칙 없이, 선호도만으로 학습하는 것이죠.
3. 몰입(Flow): 자아가 사라지는 순간 (04:10-04:21)
몰입은 “전체를 모니터링하고 있는 내 셀프가 안 보인다”는 상태입니다. 게임에 집중할 때, 운동할 때, 예술 활동할 때 경험하는 그 상태죠.
뇌과학적으로 몰입은 전전두엽(PFC, 자아 모니터링)의 활동이 줄어들고, 감각-운동 영역만 활성화된 상태입니다. “나”라는 관찰자가 사라지고, 행동과 인식이 하나가 됩니다.
박문호 박사는 이것이 좋은 삶의 패턴이라고 말합니다. 자의식에 갇히지 않고, 현재 순간에 완전히 몰입하는 것.
4. 삶의 패턴: 타이밍이 전부다 (04:00-04:10)
“배가 고를 때 밥 먹는 맛이 있잖아. 똑같은 거예요. 배가 고플을 때 기다려야 되는 거야.”
박문호 박사의 결론은 단순하지만 강력합니다: 타이밍. 적절한 시점에 적절한 자극을 받는 것이 좋은 삶입니다.
뱀을 보고 놀란 경험은 뇌에 각인됩니다. 다음부터는 뱀만 보면 자동으로 경계합니다. 이것이 학습입니다. 한 번의 강한 경험이 패턴을 바꿉니다.
강화학습도 마찬가지입니다. 보상 신호의 타이밍이 중요합니다. 행동 직후에 보상을 주면 학습이 빠르지만, 시간이 지나면 연결이 약해집니다.
인생도 그렇습니다. “들어갈 시점 굉장히 중요한 건 맞아요. 딱 자려보고 있다가 말등이 탁 타는 거예요.”
상세 설명
강화학습과 베이지안 추론의 만남
강화학습과 확률론은 같은 뿌리입니다. 강화학습의 보상은 결국 “이 행동이 좋을 확률”을 나타냅니다. 베이지안 추론으로 불확실성을 다루며, 최선의 행동을 선택합니다.
“배지한 이론하고 확률로서 다시 만나는 거예요.” 박문호 박사의 말처럼, AI의 모든 길은 확률로 통합니다.
자유의지는 환상인가?
뱀을 보고 놀란 후, 다음부터는 자동으로 반응합니다. 의식적 선택 없이, 뇌가 알아서 움직입니다. 그렇다면 자유의지는 환상일까요?
박문호 박사는 명확한 답을 주지 않습니다. 대신 질문을 던집니다: “자아가 사라지는 몰입 상태가 진짜 나일까, 아니면 자아를 관찰하는 상태가 진짜 나일까?”
이 질문은 뇌과학의 한계이기도 하고, 철학의 시작이기도 합니다.
실습 과제
기초 과제
- 자신의 몰입 경험 기록:
- 언제 몰입 상태를 경험했는가?
- 그때 “나”라는 의식이 있었는가?
- 어떤 조건에서 몰입이 일어났는가?
- RLHF 이해:
- ChatGPT에게 같은 질문을 3번 하고, 답변 비교
- 어떤 답변이 “더 좋은지” 순위 매기기
- 이것이 RLHF의 Reward Model 학습과 같음을 이해
심화 과제
- 강화학습 코드 실습:
- OpenAI Gym 설치
- CartPole 환경에서 간단한 강화학습 구현
- 보상 신호만으로 학습되는 과정 관찰
- 삶의 패턴 분석:
- 최근 1주일 일과를 기록
- 어떤 “보상 신호”가 행동을 유도했는지 찾기
- 원하는 삶의 패턴을 위해 어떤 보상 구조를 설계할지 계획
이해도 체크 퀴즈
- 강화학습의 핵심은? → 보상을 통한 학습
- RLHF의 핵심 단계 3개는? → Supervised → Reward Model → PPO
- 몰입 상태의 뇌과학적 특징은? → 전전두엽 활동 감소, 자아 관찰 중단
복습 노트 (Flashcard)
카드 1: 강화학습이란? → 보상 신호를 통해 최적 정책 학습 카드 2: RLHF란? → 인간 피드백으로 보상 모델 학습 → 정책 최적화 카드 3: 몰입 상태란? → 자아가 사라지고 행동과 인식이 하나가 됨