[인공지능 알아보기]게임, 알파고, 자율주행에 쓰이는 강화학습

강화학습(Reinforcement learning)이란? 강화학습(Reinforcement learning)은 기계학습의 한 영역입니다.에이전트(Agent)가 환경(Environment)에서 반복적인 시행착오를 통해 작업수행 방법을 학습하는 머신러닝 기법의 한 유형입니다.행동심리학에서 영감을 받았으며 어떤 환경 속에서 정의된 에이전트가 현재 상태를 인식하고 선택 가능한 행동 중 보상을 극대화하는 행동 또는 행동 순서를 선택하는 방법을 이야기합니다.

강화학습은 게임이론, 제어이론, 운용과학, 정보이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 무리지능, 통계학, 유전적 알고리즘 등의 분야에서도 활용되고 있습니다.

영어로는 Reinforcement Learning이라고 하는데 여기서 Reinforcement는 강화, 증강이라는 것을 의미합니다.강화학습을조금더쉽게이야기를하면일단해보면서경험을통해실력을 키워가는것이라고할수있습니다.그 행동의 결과가 자신에게 유리한 것이었다면 상을 받고 불리한 것이었다면 벌을 받고 나오고 앞으로는 어떤 선택을 하는 것이 유리한지 스스로 알게 됩니다.

사람이 어떤 것을 체험을 통해 배우고 추후 적용할 것이라고 생각합니다.비지드 학습과 지도 학습 등과는 별도로 제공되는 데이터 세트에 의존하는 것이 아니라 환경에서 다양한 행동을 하면서 나오는 결과에 대한 것. 즉 경험을 통해 데이터를 구축하고 생성되는 데이터를 활용하는 것을 중점적으로 다룹니다.

행동(Action) 어떤 상태에서 취할 수 있는 행동을 의미합니다.상태(State) 에이전트가 행동하기 위해 필요한 구체적인 정보 에이전트(Agent) 어떤 행동을 선택하는 주최자 보상(Reward) 어떤 상태에서 행동했을 때 생기는 결과물, 에이전트가 학습할 수 있는 유일한 정보 정책(Policy) 모든 상태에서 에이전트가 어떤 행동을 해야 하는지를 정해 두는 것, 목표 최적 정책을 찾는 것(최대화는 최고의 정책)

예1) 게임 게임

우리가 게임을 하는 주체라고 가정하면 게임을 시작하기 전에 규칙을 학습하고 어떤 방법으로 해야 하는지 간단한 방식만 파악합니다. 그 후 게임을 실제로 진행하면서 어떤 행동을 했을 때 점수가 깎이는지, 또 어떤 행동을 했을 때 점수가 올라가고 경험치가 올라가는지를 파악할 수 있습니다. 이렇게 게임을 하면서 어떤 상태에서는 어떤 행동을 해야 더 많은 보상을 받을 수 있는지 파악할 수 있습니다. 게임을 거듭할수록 빠른 판단을 내리고 점점 더 높은 점수와 경험치를 얻게 됩니다.

이를 강화학습으로 가져오면 ‘게임=환경(Environment)’/ ‘게임을 하는 나=에이전트(Agent)’/ ‘보이는 게임의 화면=상태(State)’/ ‘내가 하는 조작=행동(Action)’/ ‘점수 상하=보상(Reward)’/ ‘판단=정책(Policy)’에 해당합니다.

예2) 알파고(AlphaGo) 2016년 3월 9일부터 15일까지 총 5회에 걸쳐 이세돌과 알파고(영어: AlphaGo)의 바둑 대결이 이루어졌습니다. 최고의 바둑 인공지능 프로그램과 바둑 최고의 인간 실력자의 대결로 큰 주목을 받았습니다. 결과적으로는 알파고가 4승 1패로 이세돌에게 승리했습니다. 당시 이 대국은 많은 사람들에게 인공지능이 사람 수준을 넘어설 수도 있다는 생각을 심어주면서 충격에 휩싸였습니다. 이 알파고에도 강화학습의 원리가 적용되었습니다. 바둑은 그 경우의 수가 우주 전체에 존재하는 수소 원자의 수보다 많다는 표현이 사용될 정도입니다.

그럼 당연히 경우의 수를 많이 아는 사람, 즉 이기는 수를 많이 파악하고 전세를 잡고 흔드는 사람이 우승한다고 할 수 있습니다. 알파고가 이 경우의 수를 학습하는 데 강화학습이 적용되었습니다.

이것 역시 기본적인 바둑 규칙을 익히고 나서 우선은 많이 해보고 스스로 수를 학습하는 것이 필요했습니다. 이세돌이 바둑을 두었던 세월을 추월할 수 있을 정도로 알파고가 똑똑해진 이유는 사람은 많은 게임을 하면서 체력적인 소모를 겪기 때문에 쉬는 시간이 필요합니다. 알파고는 기계이기 때문에 쉴 시간도 없이 빠르고 많은 경기를 치를 수 있었기 때문에 이런 승리가 가능했다고 할 수 있습니다.

사례 3)AITOM-AI끝말 잇기 현 재 AITOM에서 제공 중인 AI학습 서비스 가운데[AI끝말 잇기]에 강화 학습의 원리가 적용됐습니다. [AI끝말 잇기]의 경우는 총 3단계 학습 단계를 거치면 최종 단계인 4단계에서 자신이 만든 끝말 잇기 AI을 친구 AI와 경쟁하도록 구성되어 있습니다.

그 중 3단계에 강화 학습이 적용됐습니다. 최종 목표는 단연 친구 AI와 경기를 했을 때 AI가 승리하기입니다. 이런 목표를 달성하기 위해서 우선 1단계와 2단계 게임을 통해서 AI가 단어를 학습할 수 있도록 지원합니다.

게임을 통해서 구축된 단어 데이터를 바탕으로 3단계는 내가 단어를 학습시킨 AI가 스스로를 복제하고 경쟁합니다. 이때 하나의 키워드로 몇번이나 게임을 진행하면서 해당 단어가 제시어의 때 어떤 단어를 말하면 이길지 스스로 파악하는 것이 예컨대[강화 학습][습기][분위기][만원자]로 끝나게 됐다면 AI는 스스로 게임을 통해서”만석자”이라는 단어를 제시할 때 승리의 리와ー도을 가질 수 있다는 것을 알아챕니다. 이런 점을 파악하고 4단계, 친구 AI와의 대결만으로 시작되는 단어를 제시해야 할 때 아는 여러가지만으로 시작되는 단어 중에서 이기기 위해서 만석자를 제시하게 됩니다.

1단계와 2단계에서 풍족하게 단어를 넣는 것도 중요하지만, 일명”한방 단어”이다[나트륨],[마그네슘],[상인]등의 단어를 학습하지 못하면 이기기 어렵기 때문에 그 단어를 전 단계에서 미리 학습시키는 것이 중요합니다.

오늘은 이처럼 강화 학습이 무엇인지 쉽게 공부할 시간을 가졌습니다.에이 아이 톰의 AI끝말 잇기도 강화 학습의 원리를 게임을 하면서 배울 수 있어 교육에 유용하게 쓸 수 있을 것으로 보이므로, 친구라 하면서 반에서 최고의 AI을 만들어 내는 강자를 가려내는 재미 있는 활동 수업을 엮어 봐도 좋다고 생각합니다:)

문의 전화 070-4161-9712문의 메일 [email protected]

초중등 AI 교육 플랫폼, AITOM!

error: Content is protected !!