바퀴오리 2호는 던전에 들어가 보물 상자나 출구 등을 찾아야 한다. 바퀴오리 2호는 보물 상자에 들어 있는 아이템이나 보물을 입수하면서 출구에 빠르게 도달하고, 스핑크스를 쓰러뜨린 다음 돌아와야 한다. 던전 안은 미로 구조로 되어 있다. 이 미로를 그저 더듬으면서 나아가서 출구에 도달할 수도 있지만, 같은 곳을 뱅뱅 돌 수도 있고, 막다른 길에 도달할 수도 있을 것이다. 그럼 어떻게 해야 효율적이고 확실하게 보물 상자나 출구를 찾을 수 있을까?
--- p.25
상태나 상태 사이를 오가는 데 필요한 비용이 항상 변하지 않고, 목표 지점이 하나뿐이라면 A* 알고리즘으로 목표 지점에 다다를 수 있다. 그러나 바퀴오리 2호가 실제로 취하는 행동이 한눈팔지 않고 곧장 목표 지점으로 가는 것뿐일까? 가는 도중에 특정한 시각에 나타나는 아이템을 얻어야 하고, 또 다른 특정 시각에 지나가는 적을 피해야만 할 수도 있다. 또, 목표 지점도 여러 곳 존재할 수 있다. 그렇다면 그중에서도 가장 ‘이득이 되는’ 목표 지점으로 가야 할 것이다. 그러나 그렇다고 해서 모든 행동 패턴을 시도해 볼 수는 없는 일, 그럼 어떻게 해야 할까?
--- p.75
강화 학습에는 ‘학습’이라는 말이 포함되어 있기 때문에, 언뜻 보면 동적 계획법이나 제어 이론의 최적 제어론 등과는 전혀 다른 것처럼 보이지만, 실제로는 이들과 매우 공통점이 많은 이론이다.
강화 학습 이론은 처음부터 상태 공간이나 상태와 상태 사이의 인접 관계를 부여하지 않기 때문에, 지식이나 환경의 불확실성을 고려하지 않으면 안 된다. 그 때문에 결정적 시스템이 아닌 확률적 시스템으로서 시스템을 모형화한다는 점과 보상을 받아가면서 학습하는, 다시 말해 온라인 학습을 가정하고 있다는 것이 5장에서 다뤘던 동적 계획법과의 차이점이다. 강화 학습 이론은 수학적으로는 마르코프 결정 프로세스를 전제로 한 최적화 문제로 볼 수 있다.
--- p.101
바퀴오리 2호의 목적은 미로를 빠져나와 스핑크스를 물리치는 것이었다. 그러기 위해서는, 먼저 미로 안에서 목표 지점과 보물 상자를 찾아내야만 한다. 아는 것이 없으면 아무것도 할 수 없으므로 먼저 바퀴오리 2호에게 지도를 주었다. 또, 바퀴오리 2호는 자신의 위치를 정확히 알 수 있다고 가정하였다. 이렇게 구축한 상태 공간에서, 먼저 단순한 탐색 알고리즘인 깊이우선 탐색과 너비우선 탐색을 도입하였다. 깊이우선 탐색은 스택이라는 자료구조를 이용하며 너비우선 탐색은 큐 자료구조에 기반을 두고 있어 오픈 리스트를 관리하고 탐색을 수행하는 방법에 차이가 있었다. 그러나 이 탐색 기법들은 상태 공간을 ‘샅샅이’ 뒤져야 하므로 목표 지점을 효율적으로 탐색하는 것이 보장되지 않았다.
--- p.222
이렇게 ‘가정’이 필요 없도록 단계적으로 기능을 추가하는 식의 인공지능 연구 단계를 구성하는 것이 매우 중요하다. 이를 위해서라도 학습자, 설계자, 연구자 자신이 항상 ‘무엇을 가정하고 있는지’를 주의 깊게 생각하는 것이 중요하다. 이를 위해서는 ‘문제를 해결한다’, ‘실세계를 바꾼다’는 생각을 늘 의식하면서 연구 개발에 매진하는 것이 중요하다. 지능을 만들기 위한 가정을 명확하게 하고, 그 가정을 하나씩 완화하도록 노력하면 바퀴오리 2호의 지능은 사람의 지능에 가까워질 것이다.
--- p.226