Andrew Ng의 VisionAgent : 간소화 비전 AI 솔루션
텍스트 프롬프트 기반 탐지 :
데이터 레이블 또는 모델 교육이 필요하지 않습니다.고급 추론 :
정확한 고품질 출력을 보장합니다다목적 인식 :
복잡한 개체와 시나리오를 효과적으로 처리합니다
비전 도서관
-
그들의 상호 작용을 이해하는 것은 VisionAgent의 잠재력을 극대화하는 데 중요합니다 1. VisionAgent 웹 앱 -
데이터를 쉽게 업로드하고 처리합니다 컴퓨터 비전 코드를 생성하고 테스트합니다 결과를 시각화하고 조정하십시오 는 솔루션을 클라우드 엔드 포인트 또는 간소화 앱으로 배포합니다 - 로컬 및 클라우드 통합 : 는 지역 실행을 가능하게하거나 확장 성을 위해 Landingai의 클라우드 호스팅 모델을 활용합니다.
간단한 전원 채팅 앱은 채팅 인터페이스를 선호하는 사용자에게보다 직관적 인 상호 작용을 제공합니다. 3. VisionAgent Tools Library -
VisionAgent Tools Library는 특정 컴퓨터 비전 작업을위한 사전 구축 된 파이썬 기반 도구 모음을 제공합니다. 객체 감지 : 이미지 또는 비디오에서 객체를 식별하고 찾습니다.
이미지 분류 : - 는 훈련 된 AI 모델을 기반으로 이미지를 분류합니다
QR 코드 읽기 : QR 코드에서 정보를 추출합니다
항목 계산 : 재고 또는 추적에 대한 개체를 계산합니다
이 도구는 동적 모델 레지스트리를 통해 다양한 비전 모델과 상호 작용하여 원활한 모델 스위칭을 허용합니다. 개발자는 사용자 정의 도구를 등록 할 수도 있습니다. 배포 서비스는 도구 라이브러리에 포함되어 있지 않습니다.
벤치 마크 평가 - 1. 모델 및 접근 방식
- 랜딩 ai (에이전트 객체 감지) : 에이전트 범주. Microsoft Florence-2 : 객체 감지 세트 열기 Google Owlv2 : 객체 감지 세트 열기 Alibaba Qwen2.5-VL-7B-Instruct : 큰 멀티 모달 모델 (lmm).
- 모든 관련 객체를 식별하는 모델의 능력을 측정합니다. 정밀도 : 탐지의 정확도를 측정합니다 (더 적은 오 탐지) f1 점수 : 균형 잡힌 정밀도 및 리콜 척도 3. 성능 비교
-
<..>
모델 리콜 정밀도 f1 점수 착륙 ai 77.0% 82.6% (최고) Microsoft Florence-2 43.4% 36.6% 39.7% Google Owlv2 81.0% 29.5% 43.2% Alibaba Qwen2.5-VL-7B-Instruct 26.0% 54.0% 35.1% -
탐지 결과를 받으십시오 -
1 단계 : 상호 작용 사용자는 자연어를 사용하여 요청을 시작합니다. VisionAgent는 이해를 확인합니다. -
상호 작용 예
"물체 감지를 사용하여 바구니 안팎의 야채를 감지하기 위해 코드를 생성 할 것입니다.". 2 단계 : 계획 VisionAgent는 최상의 접근법을 결정합니다 시각적 질문 응답 (vqa)을 사용하여 이미지 콘텐츠를 이해합니다 탐지 방법에 대한 제안을 생성합니다 적절한 도구 (객체 감지, 색상 기반 분류)를 선택하십시오 -
계획은 VisionAgent 라이브러리 및 도구 라이브러리를 사용하여 실행됩니다. 관찰 및 출력 VisionAgent는 구조화 된 결과를 제공합니다 는 위치 (내부/외부 바구니)별로 분류 된 채소가 감지 된 채소 각 야채에 대한 경계 박스 좌표 배포 가능한 ai 모델. 출력 예 -
2. VisionAgent 라이브러리
에이전트 기반 계획 :
다양한 비전 작업에 적합한 도구를 동적으로 선택합니다. 코드 생성 및 평가 :
는 효율적인 Python 기반 구현을 생성합니다 내장 비전 모델 지원 :- 객체 감지, 이미지 분류 및 세분화에 다양한 컴퓨터 비전 모델을 활용합니다.
2. 평가 지표
리콜 :
4. 주요 결과
AI의 에이전트 객체 감지가 가장 높은 F1 점수를 달성하여 정밀도와 리콜의 최상의 균형을 나타냅니다. 다른 모델은 리콜과 정밀 사이의 상충 관계를 보여 주었다
이 예제는 비디오 프레임, VQA 및 Red Car를 식별하고 추적하는 제안을 사용하여 유사한 프로세스를 따릅니다. 출력은 비디오 전체에서 추적 자동차를 보여줍니다. (출력 이미지 예제는 간결성에 대해 생략되었지만 채소 감지 출력과 스타일이 비슷합니다.
결론
위 내용은 Andrew Ng의 VisionAgent : 간소화 비전 AI 솔루션의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

문제가있는 벤치 마크 : 라마 사례 연구 2025 년 4 월 초, Meta는 LLAMA 4 제품군을 공개하여 GPT-4O 및 Claude 3.5 Sonnet과 같은 경쟁자들에 대해 호의적으로 배치 한 인상적인 성능 지표를 자랑했습니다. Launc의 중심

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

Rocketpy : 포괄적 인 가이드로 로켓 발사 시뮬레이션 이 기사는 강력한 파이썬 라이브러리 인 Rocketpy를 사용하여 고출력 로켓 런칭을 시뮬레이션하는 것을 안내합니다. 로켓 구성 요소 정의에서 Simula 분석에 이르기까지 모든 것을 다룰 것입니다.

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

Google의 AI 전략의 기초로서 Gemini Gemini는 Google의 AI 에이전트 전략의 초석으로 고급 멀티 모드 기능을 활용하여 텍스트, 이미지, 오디오, 비디오 및 코드에서 응답을 처리하고 생성합니다. Deepm에 의해 개발되었습니다
