AI는 이전에 인간이 해본 적이없는 방식으로 Q * bert를 속이는 법을 배웁니다.

AI는 고전 아케이드 게임 Q * bert에서 악용을 발견하고 실행 한 후 인류가 제공해야하는 최고의 속임수를 사용했습니다.

AI의 초기 반복은 Q * bert를 제대로 플레이하지만 게임 작동 방식을 학습하는 어느 시점에서 미친 점수를 쌓을 수있는 익스플로잇을 발견합니다. 당연히 점수를 찾는 모든 플레이어와 마찬가지로 프로세스를 반복하여 가능한 가장 효과적인 방법으로 점수를 높일 수 있습니다.

아래 비디오에서 AI가 플랫폼 주변에서 작동하는 것을 볼 수 있습니다. 처음에는 목적없이 플랫폼 사이를 뛰어 다니는 것처럼 보입니다. 다음 라운드로의 게임 진행 상황을 보는 대신 Q * bert는 모든 플랫폼이 깜박이기 시작하는 루프에 갇히게됩니다. 여기에서 AI는 엄청난 점수를 올리며 점수를 올릴 수 있습니다.

다음 읽기 : 가장 논란이 많은 게임 기록 중 하나가 마침내 불신을 받았습니다.

Windows 10으로 업그레이드하는 것을 피하는 방법

AI가 Q * bert 전쟁에서 승리 한 방법

타이틀의 역대 기록을 경신 한 AI는 진화 전략 알고리즘 프로그래밍 덕분에 엄청나게 높은 점수를 올렸습니다. 진화 전략 (ES)은 기존 AI가 세대 별 학습으로 인해 더 확장 가능한 것으로 간주되어 사용하는 일반적인 강화 학습 (RL)과 다릅니다.

각 학습 루프를 생성이라고하며 설정된 조건이 충족 될 때까지 (이 경우 최고 점수) 작업을 계속합니다. 연속적인 세대마다 AI는 이전 세대의 지식을 흡수하므로 동일한 목표를 달성하고이를 능가하는 데 더 좋습니다. 계속 진행하면 그 작업에서 절대적으로 타의 추종을 불허하는 AI로 끝날 것입니다. 이것이 바로 여기서 Q * bert 점수에서 일어난 일입니다.

에 설명 종이 , 독일 Freiburg 대학의 연구원이 지난주에 게시 한 버그는 알려진 양이 아닌 것으로 보입니다. 사실 그들은 버그를 찾는 것에 너무 놀라지는 않지만 AI가 어떻게 진행되어 점수 잠재력을 극대화하기 위해 매번 플레이 할 때마다 그것을 악용하는지 배운 것을 보는 것은 흥미 롭습니다.

다음 읽기 : 이 인공 지능은 슈퍼 마리오 브라더스를 마스터하는 법을 배웠습니다.

버그를 찾기 위해 에이전트는 먼저 첫 번째 레벨을 거의 완료하는 방법을 배워야했습니다.이 작업은 한 번에 수행되지 않았지만 많은 작은 개선 사항을 사용하여 연구원은 다음과 같이 설명했습니다. 등록 . 우리는 훈련의 어느 시점에서 자손 솔루션 중 하나가 버그를 발견하고 형제에 비해 훨씬 더 좋은 점수를 얻었을 것으로 생각합니다. 이로 인해 업데이트에 대한 기여도가 증가했습니다. 가중치가 가중 평균에서 가장 높은 것입니다. 이것은 점점 더 많은 자손들이 같은 벌레를 만나기 시작한 공간으로 천천히 해결책을 옮겼습니다.

우리는 버그가 나타나는 정확한 조건을 모릅니다. 에이전트가 차선으로 보이는 패턴을 따르는 경우에만 나타날 수 있습니다 (예 : 에이전트가 시간을 낭비하거나 생명을 잃는 경우). 그럴 경우 표준 RL이 버그를 찾기가 매우 어려울 것입니다. 증분 보상을 사용하면 한동안 많은 보상을 얻지 못하는 전략을 배우는 것보다 빠르게 보상을 얻는 전략을 배우게됩니다. 갑자기 큰 승리.

관련보기 드래그 스터 챔피언 토드 로저스가 35 년 만에 왕관을 잃었습니다. 이 인공 지능은 17 일 동안 슈퍼 마리오 브라더스 1-2를 마스터하는 법을 배웠습니다. 이 AI가 Twitch에서 GTA V에서 운전하는 법을 배우는 것을보세요

그러나 봇의 놀라운 결과에도 불구하고 연구원들은 이것이 RL보다 ES 학습을 옹호하는 사례라고 말하지 않습니다. 사실, 두 시스템 모두 고유 한 문제가 있으며 두 시스템의 조합은 대체로 앞으로 나아갈 최상의 옵션으로 간주됩니다.

다른 Atari 게임에서 동일한 ES 방식은 동일한 긍정적 인 결과를 가져 오지 못했습니다. 반면에 RL은 세계 최고의 GO 선수를 꺾는 것을 포함하여 왼쪽, 오른쪽 및 중앙 기록을 경신하는 책임이 있습니다. ES는 여전히 자체적 인 위치를 가지고 있으며 실제로 Nvidia가 더 많은 계산 능력을 필요로하지만 더 오랜 시간 동안 더 나은 결과를 달성하기 때문에 많은 AI 교육을 수행하는 방법입니다.

어느 쪽이 AI 개발의 미래가 될지에 관계없이 적어도 시스템을 속이는이 봇은 이만큼 나쁘지 않습니다. 이제 불명예스러운 비디오 게임 세계 챔피언 .