Deepseek 이후 Kimi K1.5는 Openai O1을 능가합니다
- 결론
- Kimi k1.5는 무엇입니까?
- Kimi K1.5 훈련
- 사전 조정 :
- > 모델은 텍스트 (영어, 중국어, 코드, 수학, 일반 지식) 및 시각적 데이터를 포괄하는 광대 한 고품질 멀티 모달 데이터 세트에 사전에 전해져 있으며, 관련성과 다양성을 위해 엄격하게 필터링됩니다.
- 감독 된 미세 조정 (SFT) : 여기에는 두 단계가 포함됩니다. 여기에는 다양한 작업에 걸쳐 ~ 1 백만 가지 예제를 사용하는 바닐라 SFT와 복잡한 추론 경로를 훈련하기위한 긴 체인 (COT) SFT가 포함됩니다.
- 강화 학습 (RL) :
부분 롤아웃 :
긴 상황을 효율적으로 처리하기 위해 Kimi K1.5는 부분 롤아웃을 사용하여 나중에 연속을 위해 미완성 된 부분을 저장합니다.
길이 페널티 및 샘플링 : 길이의 페널티는 간결한 답변을 장려하는 반면, 커리큘럼과 우선 순위가 좋은 샘플링 전략은 더 쉬운 작업에 초점을 맞 춥니 다. 평가 및 반복 :
벤치 마크에 대한 지속적인 평가 반복 모델 업데이트 가이드.Kimi K1.5 시스템 개요 및 부분 롤아웃 다이어그램 :
-
Kimi K1.5 벤치 마크 Kimi K1.5는 다양한 작업에서 최첨단 성과를 보여줍니다
- 코딩 : Codeforces에서 OpenAi O1과 일치하고 O1-MINI 및 QWQ 72B 미리보기에서 94 점을 달성했습니다.
- 시각적 추론 : QVQ 72B (71.4) 및 Openai O1-Mini (71)를 능가하는 MathVista_test에서 74.9 점 일반 지식 : MMLU (EM)에서 87.4 점을 얻었고 Openai 4o (87.2)를 능가합니다.
- 추론 전략 다이어그램 :
- Kimi K1.5 주요 혁신
- 긴 컨텍스트 스케일링 : 최대 128,000 개의 토큰을 처리하여 부분 롤아웃을 통한 효율성을 향상시킵니다. 사고 추론의 체인 : 적응성을위한 길고 짧은 침대 전략을 결합합니다. 강화 학습 파이프 라인 : 선별 된 프롬프트, 감독 된 미세 조정 및 정책 최적화가있는 정제 된 RL 파이프 라인. 멀티 모달 데이터 처리 :
Kimi K1.5 vs. Deepseek r1
Kimi K1.5 및 DeepSeek R1은 LLM 개발에 대한 다른 접근법을 나타냅니다. Kimi K1.5의 간소화 된 아키텍처, 통합 RL 및 긴 컨텍스트 처리는 DeepSeek R1의 전통적인 방법과 구별됩니다. 차이점은 복잡한 상황에 처한 작업에 대한 성능에 영향을 미칩니다api
를 통해 Kimi K1.5 액세스 API 액세스는 Kimi의 관리 콘솔에 등록해야합니다. Python Code Snippet의 예는 API 상호 작용을 보여줍니다 :결론 Kimi K1.5는 최첨단 결과를 달성하면서 RL 디자인을 단순화하면서 생성 AI 추론에서 상당한 발전을 나타냅니다. 컨텍스트 스케일링 및 멀티 모달 데이터 처리의 혁신은 다양한 산업에서 광범위한 영향을 미치는 주요 모델로 위치합니다.
위 내용은 Deepseek 이후 Kimi K1.5는 Openai O1을 능가합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

문제가있는 벤치 마크 : 라마 사례 연구 2025 년 4 월 초, Meta는 LLAMA 4 제품군을 공개하여 GPT-4O 및 Claude 3.5 Sonnet과 같은 경쟁자들에 대해 호의적으로 배치 한 인상적인 성능 지표를 자랑했습니다. Launc의 중심

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다
