마르코 -O1 대 라마 3.2 : 어느 것이 더 낫습니까?
OpenAi의 O1 모델은 복잡한 문제를 해결하는 데있어 고급 기능으로 인해 LRM (Lair Posoning Models) 분야에서 상당한 흥분을 일으켰습니다. 이 기초를 바탕으로 Marco-O1Emerges는 수학 및 코딩과 같은 전통적인 분야를 강조 할뿐만 아니라 다양한 도메인에 걸쳐 개방형 문제 해결을 우선시하는 새로운 LRM입니다. Marco-O1의 주요 초점은 O1 모델이 명확한 표준과 정량화 가능한 보상이없는 영역으로 추론 능력을 일반화 할 수있는 정도를 탐색하는 것입니다. 이 탐사는 기존의 메트릭이 적용되지 않을 수있는 실제 시나리오에서 LRM의 잠재적 응용을 이해하는 데 중요합니다. 따라서 이러한 모델이 달성 할 수있는 것의 경계를 넓 힙니다.
학습 목표
- 사슬의 미세 조정 및 Monte Carlo Tree Search를 포함하여 Marco-O1 모델의 아키텍처 및 주요 기술을 이해하십시오.
- Marco-O1이 다양한 영역에서 복잡하고 개방형 문제 해결 작업에 대한 추론 전략을 어떻게 조정하는지 살펴보십시오.
- 모델의 출력의 자체 평가를 촉구하여 추론 정확도를 향상시키는 데 반사 메커니즘의 역할을 분석하십시오.
- 고급 추론 시나리오에서 출력의 깊이와 설명에 중점을 둔 Marco-O1 및 Llama 3.2의 추론 능력을 비교하십시오.
- 수학적, 논리 및 다국어 작업을 포함한 실제 문제 해결에서 Marco-O1의 실제 응용 프로그램을 검사하십시오.
이 기사는 Data Science Blogathon 의 일부로 출판되었습니다 .
목차
- 마르코 -O1은 무엇입니까?
- 고급 추론 기술
- llama 3.2는 무엇입니까?
- Ollama를 사용하여 Google Colab에서 모델을 실행합니다
- 비교를 시작합시다 : 마르코 -O1 대 라마 3.2
- 과제 1 : 논리적 추론
- 작업 2 : 딸기 테스트
- 작업 3 : 기하학적 기반 추론
- 과제 4 : 단계별 추론
- 작업 5 : 깨지기 쉬운 수학적 맥락
- 과제 6 : 모순 된 정보
- 결과 : 마르코 -O1 대 라마 3.2
- 결론
- 자주 묻는 질문
마르코 -O1은 무엇입니까?
Marco-O1은 Alibaba International Digital Commerce의 Marcopolo 팀이 개방형 문제 해결 작업을 해결하도록 설계된 고급 추론 모델입니다.
그것은 QWEN2 아키텍처를 기반으로 구축되었으며 추론 기능을 향상시키기 위해 MCTS (Carlo Tree Search) 기술의 정교한 조합을 사용합니다.
교육 데이터 세트
필터링 된 Open-O1 COT 데이터 세트, Marco-O1 COT 데이터 세트 및 Marco-O1 명령 데이터 세트의 조합으로 QWEN2-7B- 강조를 미세 조정함으로써 Marco-O1은 복잡한 작업의 처리를 향상시켰다.
- Open-O1 COT 데이터 세트 : 체계적인 추론 패턴을 촉진하기 위해 휴리스틱 필터링을 통해 정제됩니다.
- Marco-O1 COT 데이터 세트 : 복잡한 추론 경로를 공식화하기 위해 MCT를 사용하여 생성됩니다.
- Marco Instruction DataSet : 다양한 작업에서 교육 기능을 향상시키는 데 중점을 둡니다.
아래 이미지는 Open-01 COT 및 Marco-01 COT와 같은 데이터 세트의 사용을 자세히 설명하는 Marco-01의 추론 프로세스를 보여줍니다. 이 과정에는 프롬프트 경로를 선택하고 MCT를 수행하며 감독 된 미세 조정을 더 잘 정확하게 적용하는 것이 포함됩니다. 이로 인해 신뢰 점수가있는 최종 답변이 생성됩니다.
고급 추론 기술
이는 AI 모델이 여러 단계를 통한 추론, 의사 결정 최적화,보다 정확한 예측 및 응답을위한 불확실성을 통합 할 수있는 복잡한 작업을 처리 할 수있는 정교한 방법에 중점을 둡니다.
솔루션 공간 확장 Via Monte Carlo 트리 검색
MCTS는 임의의 샘플링을 통해 가능한 모든 답변을 탐색하여 사용자 쿼리에 대한 최상의 답변을 결정하는 데 사용됩니다. 위의 그림에서 볼 수 있듯이 MCT에서, MCTS에서, 다른 추론 경로와 노란색 Nodesspeciremise는 추가 탐색을 위해 선택됩니다. 녹색 노드는 최종 답변을 제공하는 반면 "선택"및 "백업"과 같은 화살표는 시스템이 선택을 평가하고 개선하는 방법을 보여줍니다.
신뢰 점수
이 시스템은 확률 (공식에 표시)을 사용하여 답을 생성 한 후 신뢰 점수를 계산하여 최종 출력을 개선합니다.
행동 전략
이 모델은 넓은 수준의 추론 (단계 수준 ) 과 다중 단계 추론 (미니 단계 레벨)의 두 가지 수준에서 작동 할 수 있습니다.
MCTS 검색에서 상이한 수준의 세분성이 탐구되었다. 모델의 검색 공간을 확장하고 문제 해결 기능을 향상시키기 위해 단계는 "미니 단계"라고하는 64 또는 32 토큰의 작은 단위로 나뉘 었습니다. 이 더 미세한 세분성으로 인해 모델은 추론 경로를보다 자세히 탐색 할 수있었습니다.
생각 후 반성
“WAIT! 어쩌면 나는 실수를했다! 처음부터 다시 생각해야합니다.” 각 사고 과정의 끝에. 이것은 모델이 추론 단계를 자기 반성하고 재평가하도록 유도합니다. 이 반사는 특히 원래 모델이 처음에 잘못 해결 한 어려운 문제에 대해 모델에 대해 크게 개선되었습니다.
주요 기능
- 개방형 추론 : 표준 답변 도메인 (수학 또는 코딩과 같은)에서 뛰어난 기존 모델과 달리 Marco-O1은 개방형 해상도를 강조하여 명확한 표준이없는 광범위한 응용 프로그램에 적합합니다.
- 솔루션 탐색 : MCTS 구현을 통해 모델은 결정을 내리기 전에 다양한 움직임을 고려하는 체스 플레이어와 유사한 여러 솔루션 경로를 탐색 할 수 있습니다. 이 접근법은 문제 해결을위한 가장 유망한 전략을 식별하는 데 도움이됩니다.
- 유연한 추론 전략 : Marco-O1은 발생하는 문제의 유형에 따라 추론 전략을 조정하여 복잡한 작업을 관리 가능한 단계로 효과적으로 분류합니다.
응용 프로그램
Marco-O1은 특히 효과적입니다.
- 전통적인 답변으로 충분하지 않은 복잡한 문제 해결 시나리오.
- 수학적 추론 작업.
- 미묘한 이해가 필요한 정교한 번역 작업.
llama 3.2는 무엇입니까?
LLAMA 3.2 모델에는 모바일 및 에지 장치 용으로 설계된 10 억 (1B) 및 30 억 (3B) 매개 변수 텍스트 모델이 포함되어 있으며 요약 및 지침과 같은 응용 프로그램의 효율적인 성능에 중점을 둡니다.
모델 아키텍처
LLAMA 3.2는 공개적으로 이용 가능한 소스에서 최대 9 조의 토큰으로 사전에 사전에 걸렸으며, 더 큰 모델 (LLAMA 3.1과 같은)의 지식 증류 기술을 통합하여 더 작은 크기를 유지하면서 성능을 향상 시켰습니다.
주요 기능
- Edge Devices 용으로 최적화 : 이 모델은 가볍게 설계되어 모바일 및 에지 장치에 배포에 적합합니다.
- 확장 컨텍스트 길이 : LLAMA 3.2는 최대 128k 토큰의 컨텍스트 길이 (~ 96,240 단어)를 지원하여 긴 입력을 처리하고 확장 된 상호 작용에 대한 컨텍스트를 유지합니다.
- 다국어 대화 지원 : 모델은 다국어 사용 사례에 최적화되어 여러 언어로의 상호 작용이 필요한 응용 프로그램에 효과적입니다.
응용 프로그램
LLAMA 3.2 3B는 특정 영역, 특히 추론 작업에서 주목할만한 성능을 보여주었습니다. ARC Challenge에서는 Gemma의 76.7을 넘어서 78.6 점을 얻었으며 PHI-3.5-MINI보다 87.4 점을 얻었습니다. 마찬가지로, Hellawag 벤치 마크에서 Llama 3.2 3B는 69.8 점을 얻었고, Gemma를 능가하고 Phi와 경쟁력을 유지했습니다.
따라서 Python 구현에 대한 다음 손에서 우리는 두 가지 모델에 대한 추론 기반 질문의 비교 평가를 수행합니다-Marco-O1과 Llama 3.2 3b. 이 비교 평가는 주로 마르코 -O1의 출력이 실제로 추론 기반 질문에 탁월한 지 여부를 확인하기 위해 수행됩니다.
Ollama를 사용하여 Google Colab에서 모델을 실행합니다
Ollama는 사용자가 CPU 및 GPU 모드로 큰 언어 모델을 쉽게 설정하고 실행할 수있는 고급 AI 도구입니다. 우리는 다음 단계에서 Ollama를 사용하여 Google Colab에서 이러한 모델을 실행하는 방법을 살펴 보겠습니다.
1 단계 : 라이브러리 설치
아래는 필요한 모든 라이브러리를 설치합니다.
! sudo apt 업데이트 ! sudo apt install -y pciutils ! PIP 설치 Langchain-Ollama ! curl -fssl https://ollama.com/install.sh | 쉿 ! PIP 설치 Ollama == 0.4.2
2 단계 : Google Colab에서 Ollama를 실행할 수있는 스레딩 프로세스 사용
이 단계에서는 Ollama가 Google Colab에서 효율적으로 실행할 수 있도록 스레딩을 설정했습니다. 스레딩을 사용하면 작업을 병렬 실행을 가능하게하여 부드러운 성능과 지연없이 더 빠른 처리를 보장합니다. 이 설정은 Colab 환경 내에서 리소스 집약적 인 작업을 완벽하게 실행하는 데 중요합니다.
스레딩 가져 오기 수입 하위 프로세스 수입 시간 def run_ollama_serve () : Subprocess.popen ([ "Ollama", "serv"])))) Thread = Threading.thread (target = run_ollama_serve) Thread.start () Time.sleep (5)
3 단계 : Ollama 모델을 당기기
! Ollama는 Marco-O1을 당깁니다
Marco-O1을 LLAMA3.2로 대체하여 LLAMA3.2 모델을 당기기 위해 동일한 코드를 사용할 수 있습니다.
STEP4 : 모델 쿼리
이 단계에는 입력에 따라 응답이나 통찰력을 얻기 위해 모델에 쿼리를 보내는 것이 포함됩니다. 텍스트 생성이나 질문에 대한 답변과 같은 작업의 모델과 상호 작용하는 데 도움이됩니다.
langchain_core.prompts import ChatPromptTemplate langchain_ollama.llms import ollamallm에서 IPYTHON에서 DISPLAY 가져 오기 MarkDown 템플릿 = "" "질문 : {Question}" "" " 프롬프트 = chatprompttemplate.from_template (템플릿) model = ollamallm (model = "marco-o1") 체인 = 프롬프트 | 모델 # 호출을위한 입력 준비 input_data = { "질문": '사과 2 마리가 있고 2 개를 더 사십시오. 나는 사과 2 개와 함께 파이를 굽습니다. 파이의 절반을 먹은 후에 몇 명의 사과가 남았습니까? '} # 입력 데이터로 체인을 호출하고 Markdown 형식으로 응답을 표시합니다. 응답 = chain.invoke (input_data) 디스플레이 (Markdown (응답))
비교를 시작합시다 : 마르코 -O1 대 라마 3.2
이 섹션에서는 Marco-O1 및 LLAMA 3.2의 출력을 비교하여 복잡한 추론 작업 및 실시간 응용 프로그램을 처리하는 데있어 강점과 차이점을 강조합니다. 응답을 검토함으로써 각 모델이 문제 해결에 접근하고 다른 사용 사례에 어떻게 적응하는지 더 잘 이해할 수 있습니다.
과제 1 : 논리적 추론
“사과 2 개가 있고 2 개를 더 사십시오. 나는 사과 2 개와 함께 파이를 굽습니다. 식사 후<br> 파이의 절반이 남은 사과는 몇 개입니까?”
마르코 -O1의 출력
Llama 3.2의 출력 (3B 모델)
두 모델 모두 정확한 응답을 제공하지만 Marco-O1은 LLAMA 3.2에 비해 자세한 설명을 제공합니다.
작업 2 : 딸기 테스트
"딸기는 몇 명입니까?"
마르코 -O1의 출력
Llama 3.2의 출력 (3B 모델)
위의 출력에서 알 수 있듯이 LLAMA 3.2 모델의 응답은 부정확하고 Marco-O1 모델의 응답은 정확합니다.
작업 3 : 기하학적 기반 추론
"10 단위의베이스와 5 단위의 높이가있는 삼각형의 영역은 무엇입니까?"
마르코 -O1의 출력
Llama 3.2의 출력 (3B 모델)
위의 출력에서 알 수 있듯이 두 모델은 정확한 응답을 제공하지만 Marco-O1 모델의 응답은 LLAMA 3.2에 비해 조금 더 설명됩니다.
과제 4 : 단계별 추론
"자동차에 $ 20,000가 있고 매년 1,000 달러의 감가 상각이라면<br> 3 년 후에 가치가 있습니까? "
마르코 -O1의 출력
Llama 3.2의 출력 (3B 모델)
위의 출력에서 알 수 있듯이 두 모델은 정확한 응답을 제공하지만 Marco-O1 모델의 응답은 LLAMA 3.2에 비해 조금 더 설명됩니다.
모호한 음절
“모든 새들은 날 수 있습니다. 펭귄은 새입니다. 펭귄이 날 수 있습니까?”
마르코 -O1의 출력
Llama 3.2의 출력 (3B 모델)
두 모델이 정확한 응답을 제공하더라도 위의 출력에서 알 수 있듯이, Marco-O1 모델의 응답은 LLAMA 3.2에 비해 답변에 도달하기 위해 많은 인수와 이중 점검을 제시하는 방법을 더 설명하고 정교하게 설명합니다.
작업 5 : 깨지기 쉬운 수학적 맥락
“올리버는 토요일에 58 번 금요일에 44 개의 키위를 뽑습니다. 일요일에, 그는 금요일에 한 일을 두 배로 뽑았지만 그 중 5 명은 평균보다 작았습니다. 올리버는 몇 명의 키위를 가지고 있습니까?”
마르코 -O1의 출력
Llama 3.2의 출력 (3B 모델)
두 모델 모두 정확한 응답을 제공하더라도 위의 출력에서 알 수 있듯이 LLAMA 3.2의 응답은 추가 정보와 혼동되므로 쿼리에 제공된 평균보다 작음)가 부정확하여 실제 답변에서 5를 빼냅니다. 그러나 Marco-O1의 출력은 자세한 설명과 함께 정확합니다.
과제 6 : 모순 된 정보
”존은 땅콩에 알레르기가 있습니다. 그는 땅콩 버터 샌드위치를 먹었고 기분이 좋았습니다. 무엇<br> 요한의 알레르기에 대해 결론을 내릴 수 있습니까?”
마르코 -O1의 출력
Llama 3.2의 출력 (3B 모델)
Marco-O1 모델의 응답에서 볼 수 있듯이, 답변에 도달하기 위해 많은 논증과 이중 점검을 제시하는 것은 많은 설명과 정교합니다. Llama 3.2의 반응은 "그가 단순히 배가 화를 내거나 땅콩 버터에 대한 편협을 가졌다"는 정보에 따라 완전히 정확하지 않은 것 같습니다.
결과 : 마르코 -O1 대 라마 3.2
일 | 마르코 -O1 성능 | LLAMA 3.2 (3B 모델) 성능 | 우승자 |
---|---|---|---|
과제 1 : 논리적 추론 | 자세한 설명으로 정확합니다 | 정확하지만 덜 상세합니다 | 마르코 -O1 |
작업 2 : 딸기 테스트 | 정확한 | 부정확합니다 | 마르코 -O1 |
작업 3 : 기하학 추론 | 자세한 설명으로 정확합니다 | 정확하지만 덜 상세합니다 | 마르코 -O1 |
과제 4 : 단계별 추론 | 자세한 설명으로 정확합니다 | 정확하지만 덜 상세합니다 | 마르코 -O1 |
과제 5 : 모호한 음절 | 정교한 설명 및 이중 점검으로 정확합니다 | 정확하지만 덜 상세합니다 | 마르코 -O1 |
작업 6 : 깨지기 쉬운 수학적 맥락 | 자세한 설명으로 정확합니다 | 부정확 한 (추가 정보에 의해 혼란) | 마르코 -O1 |
과제 7 : 모순 된 정보 | 정교한 설명 및 이중 점검으로 정확합니다 | 부정확 한 (모순 된 정보 제공) | 마르코 -O1 |
결론
Marco-O1 모델은 특히 Monte Carlo Tree Search의 혁신적인 사용 및 고려한 미세 조정의 혁신적인 사용을 통해 AI의 복잡한 추론 작업을 처리 할 수있는 AI의 능력에 대한 상당한 발전을 나타냅니다. 수학, 물리학 및 다국어 작업과 같은 다양한 영역에 대한 다목적 성은 전통적인 모델과 차별화됩니다. 한편, LLAMA 3.2 모델은 요약 및 지침 팔로우와 같은 작업에서 우수한 에지 장치에 효율적인 성능을 제공합니다. 두 모델 모두 AI의 지속적인 진화, 각각 자체 도메인에서 우수한 진화를 보여 주며, 함께 실제 문제를 해결할 때 고급 언어 모델의 광범위한 잠재력을 강조합니다.
주요 테이크 아웃
- Marco-O1은 고급 문제 해결을 위해 생각한 미세 조정 및 Monte Carlo Tree 검색을 사용합니다.
- 추론 전략에 적응하고, 도전을 분류하며, 여러 솔루션을 탐색합니다.
- 반사 메커니즘은 추론 단계를 재평가함으로써 정확도를 향상시킵니다.
- LLAMA 3.2는 모바일/엣지 장치에 최적화되어 요약 및 지시를 따르는 것이 뛰어납니다.
- 확장 된 상호 작용을 위해 128k 토큰 컨텍스트로 긴 입력을 지원합니다.
- Marco-O1은 복잡한 쿼리에 대한 철저한 점검으로 자세한 설명 응답을 제공합니다.
자주 묻는 질문
Q1. Marco-O1은 추론 전략을 다른 작업에 어떻게 적용합니까?A. Marco-O1은 당면한 작업의 복잡성에 따라 추론 전략을 조정하여 문제를 관리 가능한 단계로 나누고 Monte Carlo Tree 검색을 사용하여 다양한 솔루션 경로를 탐색하여 최적의 접근 방식을 찾습니다.
Q2. Monte Carlo Tree Search (MCTS)는 Marco-O1의 추론 능력을 어떻게 향상 시킵니까?A. MCTS를 통해 Marco-O1은 주어진 문제에 대한 다중 잠재적 솔루션을 탐색하여 임의의 샘플링을 통해 가장 유망한 경로를 선택하여보다 정확하고 효율적인 문제 해결을 초래할 수 있습니다.
Q3. Marco-O1의 반사 메커니즘의 목적은 무엇입니까?A. 반사 메커니즘을 통해 Marco-O1은 각 프로세스가 끝날 때 추론 단계를 재평가 할 수있어 모델이 정확도를 개선하고 특히 매우 복잡한 쿼리에 대한 답변을 개선 할 수 있습니다.
Q4. 마르코 -O1과 LLAMA 3.2는 복잡한 추론 작업을 처리하는 방법에서 어떻게 비교합니까?A. Marco-O1은 사슬의 미세 조정 및 MCT와 같은 고급 기술을 사용하여 복잡한 추론 작업을 다루는 데 특화되어 있습니다. LLAMA 3.2는 확장 된 컨텍스트 처리와 함께 모바일 및 에지 장치에서 효율적이고 실시간 응용 프로그램을 탁월합니다.
Q5. Llama 3.2 모델의 가벼운 디자인의 중요성은 무엇입니까?A. LLAMA 3.2의 가벼운 설계는 모바일 및 에지 장치에 배치하는 데 이상적이며, 효율적인 성능을 제공하면서 요약 및 다국어 상호 작용과 같은 다양한 작업을 처리 할 수있는 기능을 유지합니다.
이 기사에 표시된 미디어는 분석 Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.
위 내용은 마르코 -O1 대 라마 3.2 : 어느 것이 더 낫습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

문제가있는 벤치 마크 : 라마 사례 연구 2025 년 4 월 초, Meta는 LLAMA 4 제품군을 공개하여 GPT-4O 및 Claude 3.5 Sonnet과 같은 경쟁자들에 대해 호의적으로 배치 한 인상적인 성능 지표를 자랑했습니다. Launc의 중심

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다
