메인 스트리밍 서비스 AI는 이전에 인간이 해본 적이없는 방식으로 Q * bert를 속이는 법을 배웁니다.

AI는 이전에 인간이 해본 적이없는 방식으로 Q * bert를 속이는 법을 배웁니다.



AI는 고전 아케이드 게임 Q * bert에서 악용을 발견하고 실행 한 후 인류가 제공해야하는 최고의 속임수를 사용했습니다.

AI의 초기 반복은 Q * bert를 제대로 플레이하지만 게임 작동 방식을 학습하는 어느 시점에서 미친 점수를 쌓을 수있는 익스플로잇을 발견합니다. 당연히 점수를 찾는 모든 플레이어와 마찬가지로 프로세스를 반복하여 가능한 가장 효과적인 방법으로 점수를 높일 수 있습니다.

아래 비디오에서 AI가 플랫폼 주변에서 작동하는 것을 볼 수 있습니다. 처음에는 목적없이 플랫폼 사이를 뛰어 다니는 것처럼 보입니다. 다음 라운드로의 게임 진행 상황을 보는 대신 Q * bert는 모든 플랫폼이 깜박이기 시작하는 루프에 갇히게됩니다. 여기에서 AI는 엄청난 점수를 올리며 점수를 올릴 수 있습니다.

다음 읽기 : 가장 논란이 많은 게임 기록 중 하나가 마침내 불신을 받았습니다.

Windows 10으로 업그레이드하는 것을 피하는 방법

AI가 Q * bert 전쟁에서 승리 한 방법

타이틀의 역대 기록을 경신 한 AI는 진화 전략 알고리즘 프로그래밍 덕분에 엄청나게 높은 점수를 올렸습니다. 진화 전략 (ES)은 기존 AI가 세대 별 학습으로 인해 더 확장 가능한 것으로 간주되어 사용하는 일반적인 강화 학습 (RL)과 다릅니다.

각 학습 루프를 생성이라고하며 설정된 조건이 충족 될 때까지 (이 경우 최고 점수) 작업을 계속합니다. 연속적인 세대마다 AI는 이전 세대의 지식을 흡수하므로 동일한 목표를 달성하고이를 능가하는 데 더 좋습니다. 계속 진행하면 그 작업에서 절대적으로 타의 추종을 불허하는 AI로 끝날 것입니다. 이것이 바로 여기서 Q * bert 점수에서 일어난 일입니다.

에 설명 종이 , 독일 Freiburg 대학의 연구원이 지난주에 게시 한 버그는 알려진 양이 아닌 것으로 보입니다. 사실 그들은 버그를 찾는 것에 너무 놀라지는 않지만 AI가 어떻게 진행되어 점수 잠재력을 극대화하기 위해 매번 플레이 할 때마다 그것을 악용하는지 배운 것을 보는 것은 흥미 롭습니다.

다음 읽기 : 이 인공 지능은 슈퍼 마리오 브라더스를 마스터하는 법을 배웠습니다.

버그를 찾기 위해 에이전트는 먼저 첫 번째 레벨을 거의 완료하는 방법을 배워야했습니다.이 작업은 한 번에 수행되지 않았지만 많은 작은 개선 사항을 사용하여 연구원은 다음과 같이 설명했습니다. 등록 . 우리는 훈련의 어느 시점에서 자손 솔루션 중 하나가 버그를 발견하고 형제에 비해 훨씬 더 좋은 점수를 얻었을 것으로 생각합니다. 이로 인해 업데이트에 대한 기여도가 증가했습니다. 가중치가 가중 평균에서 가장 높은 것입니다. 이것은 점점 더 많은 자손들이 같은 벌레를 만나기 시작한 공간으로 천천히 해결책을 옮겼습니다.

우리는 버그가 나타나는 정확한 조건을 모릅니다. 에이전트가 차선으로 보이는 패턴을 따르는 경우에만 나타날 수 있습니다 (예 : 에이전트가 시간을 낭비하거나 생명을 잃는 경우). 그럴 경우 표준 RL이 버그를 찾기가 매우 어려울 것입니다. 증분 보상을 사용하면 한동안 많은 보상을 얻지 못하는 전략을 배우는 것보다 빠르게 보상을 얻는 전략을 배우게됩니다. 갑자기 큰 승리.

관련보기 드래그 스터 챔피언 토드 로저스가 35 년 만에 왕관을 잃었습니다. 이 인공 지능은 17 일 동안 슈퍼 마리오 브라더스 1-2를 마스터하는 법을 배웠습니다. 이 AI가 Twitch에서 GTA V에서 운전하는 법을 배우는 것을보세요

그러나 봇의 놀라운 결과에도 불구하고 연구원들은 이것이 RL보다 ES 학습을 옹호하는 사례라고 말하지 않습니다. 사실, 두 시스템 모두 고유 한 문제가 있으며 두 시스템의 조합은 대체로 앞으로 나아갈 최상의 옵션으로 간주됩니다.

다른 Atari 게임에서 동일한 ES 방식은 동일한 긍정적 인 결과를 가져 오지 못했습니다. 반면에 RL은 세계 최고의 GO 선수를 꺾는 것을 포함하여 왼쪽, 오른쪽 및 중앙 기록을 경신하는 책임이 있습니다. ES는 여전히 자체적 인 위치를 가지고 있으며 실제로 Nvidia가 더 많은 계산 능력을 필요로하지만 더 오랜 시간 동안 더 나은 결과를 달성하기 때문에 많은 AI 교육을 수행하는 방법입니다.

어느 쪽이 AI 개발의 미래가 될지에 관계없이 적어도 시스템을 속이는이 봇은 이만큼 나쁘지 않습니다. 이제 불명예스러운 비디오 게임 세계 챔피언 .

재미있는 기사

에디터의 선택

Excel에서 절대 값을 얻는 방법
Excel에서 절대 값을 얻는 방법
Excel로 시간을 보낸 후 Excel에 절대 값 함수가 있는지 궁금 할 수 있습니다. 고맙게도 있습니다. 숫자의 절대 값은 0에서 얼마나 멀리 떨어져 있는지입니다. 따라서 절대 값은
이제 OneDrive에서 파일에 대한 차등 동기화 지원
이제 OneDrive에서 파일에 대한 차등 동기화 지원
OneDrive는 Windows 10과 함께 무료 서비스로 번들로 제공되는 Microsoft에서 만든 온라인 문서 저장소 솔루션입니다. 클라우드에 문서 및 기타 데이터를 온라인으로 저장하는 데 사용할 수 있습니다. 또한 모든 장치에서 저장된 데이터의 동기화를 제공합니다. Microsoft는 오늘 OneDrive가 이제 차등 동기화를 지원한다고 발표했습니다.
Apple iPhone 8/8+ – 슬로우 모션 사용 방법
Apple iPhone 8/8+ – 슬로우 모션 사용 방법
슬로우 모션 비디오는 온라인에서 매우 인기가 있습니다. 어떤 사람들은 슬로우 모션을 사용하여 중요한 순간을 강조하고 더 중요하게 느끼게 합니다. 이 효과를 사용하여 패러디와 농담 비디오를 만들 수도 있습니다. 아이폰이 있다면
Samsung Galaxy J2 – 자동 고침을 끄는 방법
Samsung Galaxy J2 – 자동 고침을 끄는 방법
자동 고침은 거의 모든 전화기에 있고 많은 사람들이 매우 유용하다고 생각하는 기능입니다. 그러나 이 기능이 매우 불편하고 종종 매우 번거롭다고 생각하는 사용자가 여전히 많습니다. 휴대폰 제조사들이 비록
최고의 Instagram Reels 온라인 편집기
최고의 Instagram Reels 온라인 편집기
멋진 Instagram Reel을 만들기 위해 전문 동영상 편집자가 될 필요는 없습니다. 온라인 편집자는 몸에 창의적인 뼈대가 없더라도 놀라운 비디오와 전문가 수준의 릴을 만드는 데 도움을 줄 수 있습니다. 그만큼
Windows 10 릴리스 기록
Windows 10 릴리스 기록
Windows 10은 클래식 PC, 랩톱, 태블릿, 2-in-1 컨버터블, 휴대폰, Xbox One 및 IoT 장치를 비롯한 다양한 장치에서 실행되도록 만든 Microsoft의 최신 운영 체제입니다. 2015 년 7 월 29 일에 공개되었습니다. Windows 10은 정품을 보유한 사용자를위한 무료 업그레이드로 제공되었습니다.
802.11g Wi-Fi란 무엇입니까?
802.11g Wi-Fi란 무엇입니까?
802.11g는 무선 네트워크 통신을 위한 Wi-Fi 표준 기술입니다. 54Mbps 정격 연결을 지원하며 많은 홈 네트워크에서 사용됩니다.