강화 학습 : 파이썬 예제의 소개-일체 포함-php.cn

확률을 사용한 무작위 탐사 (Epsilon); 그렇지 않으면, 가장 잘 알려진 행동을 이용하십시오.

집

기술 주변기기

일체 포함

강화 학습 : 파이썬 예제의 소개

William Shakespeare

Mar 07, 2025 am 10:00 AM

강화 학습 (RL) : 에이전트 환경 상호 작용에 대한 깊은 다이빙

기본 및 고급 강화 학습 (RL) 모델은 종종 공상 과학 AI와 유사하게 현재의 큰 언어 모델을 능가합니다. 이 기사는 RL이 슈퍼 마리오에서 도전적인 수준을 정복 할 수있는 방법을 탐색합니다.

초기에 에이전트에는 게임 지식이 부족합니다 : 제어, 진행 역학, 장애물 및 승리 조건. 그것은 인간의 개입없이 강화 학습 알고리즘을 통해이 모든 것을 자율적으로 배웁니다.

. rl의 강점은 사전 정의 된 솔루션이나 명시 적 프로그래밍없이 문제를 해결하는 데 있습니다. 종종 데이터 요구 사항이 최소화됩니다. 이것은 다양한 분야에 영향을 미칩니다 :

자율 주행 차량 : Reinforcement Learning: An Introduction With Python Examples rl 에이전트는 실시간 트래픽 및 도로 규칙에 따라 최적의 운전 전략을 배웁니다. 로봇 공학 : Robots RL 교육을 통해 동적 환경에서 복잡한 작업을 마스터 복잡한 작업. 게임 ai : rl은 엄청난 잠재력을 가진 빠르게 진화하는 분야입니다. 향후 응용 프로그램은 자원 관리, 건강 관리 및 개인화 된 교육에서 예상됩니다. 이 튜토리얼은 RL 기초를 소개하여 에이전트, 환경, 행동, 상태, 보상 등과 같은 핵심 개념을 설명합니다. <: :> 에이전트 및 환경 : 고양이의 관점 가구 대신 긁힘 기둥을 사용하려면 고양이 밥을 훈련시키는 것을 고려하십시오. Bob은

에이전트

, 학습자이자 의사 결정자입니다. 객실은 환경 , 도전 과제 (가구) 및 목표 (긁힘 게시물)입니다. rl 환경은 다음과 같이 분류됩니다

개별 : 그리드 기반 게임처럼 단순화 된 방, 밥의 움직임과 방 변형을 제한합니다. 연속 :

우리의 방 예제는 정적 환경이다 (가구는 고정되어 있음). A
환경은 슈퍼 마리오 수준과 마찬가지로 시간이 지남에 따라 변하고 학습 복잡성을 증가시킵니다. <:> 행동 및 상태 : 가능성 정의 상태 공간 는 가능한 모든 에이전트 환경 구성을 포함합니다. 크기는 환경 유형에 따라 다릅니다
연속 환경에는 무한 상태 공간이 있습니다 (예 : 로봇, 실제 시나리오). 액션 공간

각 동작은 환경을 새로운 상태로 전환합니다 보상, 시간 단계 및 에피소드 : 진행 상황 측정 보상 에이전트를 인센티브합니다. 체스에서 조각을 포착하는 것은 긍정적입니다. 수표를받는 것은 음수입니다. Bob의 경우, 보상 긍정적 행동 (긁힘 포스트 사용)을 취급하는 반면, 물 분정은 부정적인 행동 (긁는 가구)을 처벌합니다. 시간 단계
an 에피소드 는 기본 상태에서 시작하여 목표가 달성되거나 에이전트가 실패 할 때 종료되는 일련의 시간 단계로 구성됩니다. 탐사 vs. 착취 : 행위 균형

에이전트는

확률을 사용한 무작위 탐사 (Epsilon); 그렇지 않으면, 가장 잘 알려진 행동을 이용하십시오.

예상되는 보상으로 행동을 확률 적으로 선호합니다 강화 학습 알고리즘 : 모델 기반 대 모델 프리 rl 알고리즘은 에이전트의 의사 결정을 안내합니다. 두 가지 주요 범주가 존재합니다 모델 기반 rl

에이전트는 행동을 계획하기 위해 환경의 내부 모델을 구축합니다. 이것은 샘플 효율적이지만 복잡한 환경에서는 어려운 일입니다. 예를 들어 모델 기반 및 모델없는 학습을 결합한 Dyna-Q입니다 모델이없는 rl
~~에이전트는 명시 적 모델없이 경험에서 직접 배웁니다. 이것은 더 간단하지만 샘플 효율이 적습니다. 예제는 다음과 같습니다. Q- 러닝 :~~
는 상태 쌍에 대한 Q- 값 (예상 미래 보상)을 배웁니다 Sarsa :
Q- 러닝과 유사하지만 실제 다음 조치를 기반으로 값을 업데이트합니다. 정책 그라디언트 방법 : 정책 매핑 상태를 행동에 직접 배우십시오. Deep Q-Networks (DQN) :
는 고차원 상태 공간을위한 Q- 러닝과 깊은 신경 네트워크와 결합합니다.
알고리즘 선택은 환경 복잡성 및 리소스 가용성에 따라 다릅니다 Q- 러닝 : 상세한 모양 Q- 러닝은 모델이없는 알고리즘 교육 에이전트 최적 전략입니다. Q- 테이블은 각 상태 쌍의 Q- 값을 저장합니다. 에이전트는 탐사 및 착취의 균형을 맞추고 엡실론-그레디 정책을 기반으로 행동을 선택합니다. Q- 값은 현재 Q- 값, 보상 및 다음 상태의 최대 Q- 값을 통합 한 공식을 사용하여 업데이트됩니다. 감마 (할인 계수) 및 알파 (학습 속도)와 같은 매개 변수는 학습 과정을 제어합니다. 체육관이있는 파이썬에서의 강화 학습 체육관은 RL 실험을위한 다양한 환경을 제공합니다. 다음 코드 스 니펫은 브레이크 아웃 환경과의 상호 작용 루프를 보여줍니다.
이 코드는 에이전트의 동작을 시각화하는 GIF를 생성합니다. 학습 알고리즘이 없으면 동작이 무작위입니다.

결론 강화 학습은 광범위한 응용 프로그램을 갖춘 강력한 기술입니다. 이 튜토리얼은 기본 개념을 다루었 고 추가 탐색을위한 출발점을 제공했습니다. 지속적인 학습을 위해 원본 기사에 추가 리소스가 나열되어 있습니다.