어셈블리, Qdrant & Deepseek-R1을 사용하여 오디오 래그를 만듭니다-일체 포함-php.cn

주요 기능 및 학습 목표 :

집

기술 주변기기

일체 포함

어셈블리, Qdrant & Deepseek-R1을 사용하여 오디오 래그를 만듭니다

William Shakespeare

Apr 23, 2025 am 10:48 AM

이 안내서는 오디오 녹음 (회의, 팟 캐스트, 인터뷰)을 대화식 대화로 변환하는 AI 기반 챗봇을 구축하는 것을 보여줍니다. Sambanova Cloud를 통해 전사에 대한 AssemblyAI를 활용하고, RAG (Respreval Augmented Generation) 시스템을 생성합니다. 챗봇은 "[스피커]가 무엇을 말 했습니까?"와 같은 질문에 대답합니다. 또는 "이 세그먼트를 요약하십시오." 간소성 웹 인터페이스를 사용하면 오디오를 업로드하고, 전사를보고, 챗봇과 실시간으로 상호 작용할 수 있습니다.

주요 기능 및 학습 목표 :

정밀한 오디오 전사 : 스피커 제기와 정확한 전사를 위해 AssemblyAI API를 활용하여 오디오 대화를 구조화 된 텍스트 데이터로 변환합니다.
효율적인 벡터 데이터베이스 : QDRANT를 사용하여 포옹 페이스 모델을 사용하여 전사 된 오디오 컨텐츠의 임베딩을 저장하고 신속하게 검색하십시오.
컨텍스트 인식 응답 : DeepSeek-R1 모델 (Sambanova Cloud)을 통해 RAG를 구현하여 상황에 맞는 챗봇 응답을 생성합니다.
대화식 웹 인터페이스 : 사용자가 오디오 파일을 업로드하고, 전사를 시각화하고, 챗봇을 동적으로 사용하도록 간소화 된 웹 응용 프로그램을 개발합니다.
엔드 투 엔드 워크 플로 : 확장 가능한 오디오 기반 채팅 애플리케이션을 위해 오디오 처리, 벡터 데이터베이스 관리 및 AI 중심 응답 생성을 결합한 완전한 워크 플로를 통합합니다.

이 기사는 Data Science Blogathon의 일부입니다.

목차 :

어셈블리 개요
삼바노바 클라우드가 설명했다
Qdrant : 고속 벡터 데이터베이스
DeepSeek-R1 : 강력한 언어 모델
헝겊 모델 구축 : AssemblyAi & Deepseek-R1
- 전제 조건
- 검색 증강 생성 (RAG) 구현
- 간소화 응용 프로그램 개발
결론
자주 묻는 질문

어셈블리 개요 :

어셈블리는 오디오에서 실행 가능한 통찰력을 추출하기위한 강력한 도구입니다. AI 중심의 음성 텍스트 엔진은 매우 정확한 전사를 제공하며 악센트 및 배경 노이즈를 효과적으로 처리합니다. 따라서 팟 캐스트를 전사, 고객 통화 분석 또는 비디오 캡션 생성에 이상적입니다.

어셈블리, Qdrant & Deepseek-R1을 사용하여 오디오 래그를 만듭니다

삼바노바 클라우드 :

Sambanova Cloud를 사용하면 DeepSeek-R1 (671B 매개 변수)과 같은 대규모 오픈 소스 모델을 기존의 방법보다 훨씬 빠르게 실행하여 복잡한 인프라 관리를 제거 할 수 있습니다. 우수한 성능을 통해 재구성 가능한 데이터 플로우 장치 (RDU)를 사용하여 다음과 같습니다.

높은 메모리 스토리지 : 일정한 모델 재 장전을 제거합니다.
최적화 된 데이터 플로우 : 고 처리량 작업을 위해 설계되었습니다.
인스턴트 모델 스위칭 : 마이크로 초의 모델간에 전환.
단순화 된 DeepSeek-R1 배포 : 복잡한 설정이 필요하지 않습니다.
통일 교육/미세 조정 : 모두 단일 플랫폼 내.

어셈블리, Qdrant & Deepseek-R1을 사용하여 오디오 래그를 만듭니다

Qdrant : 고속 벡터 데이터베이스 :

Qdrant는 AI 응용 프로그램에 최적화 된 매우 빠른 벡터 데이터베이스입니다. 유사성 검색에서 탁월하여 권장 시스템, 이미지 검색 및 챗봇과 같은 작업에 적합합니다. Qdrant는 텍스트 임베드 또는 시각적 기능과 같은 복잡한 데이터에 가장 가까운 일치를 빠르게 찾습니다.

어셈블리, Qdrant & Deepseek-R1을 사용하여 오디오 래그를 만듭니다

DeepSeek-R1 : 강력한 언어 모델 :

DeepSeek-R1은 인간과 같은 적응성과 최첨단 AI를 결합한 고급 언어 모델입니다. 그것의 강점은 상황, 어조 및 의도를 이해하는 능력에 있으며 직관적이고 정확한 반응을 일으킨다. 콘텐츠 제작, 번역, 코드 디버깅 및 보고서 요약을 포함한 다양한 자연어 처리 작업에 매우 효과적입니다.

어셈블리, Qdrant & Deepseek-R1을 사용하여 오디오 래그를 만듭니다

헝겊 모델 구축 : AssemblyAi & Deepseek-R1

이 섹션에서는 Rag 시스템의 구성에 대해 자세히 설명합니다.

1. 전제 조건 :

저장소를 복제하십시오 : git clone https://github.com/karthikponna/chat_with_audios.git

가상 환경 (MacOS/Linux 및 Windows에 제공된 지침)을 생성하고 활성화하십시오.

설치 종속성 : pip install -r requirements.txt

.env 파일로 환경 변수 (AssemblyAi 및 Sambanova API 키)를 설정하십시오.

2. 검색 증강 생성 (RAG) 구현 :

코드 ( rag_code.py )는 llama index를 사용하여 구성되며 다음의 기능을 포함합니다.

배치 처리 및 임베딩 : 대형 데이터 세트를 효율적으로 처리합니다.
QDRANT 데이터베이스 상호 작용 : QDRANT 벡터 데이터베이스를 설정하고 관리합니다.
쿼리 임베딩 및 검색 : 쿼리를 내장으로 변환하고 QDRANT의 관련 결과를 검색합니다.
Rag Smart Query Assistant : 컨텍스트 인식 답변을 위해 검색과 Sambanova Cloud LLM을 결합합니다.
AssemblyAi를 사용한 오디오 전사 : 스피커 제시로 오디오 파일을 전사합니다.

(자세한 코드 스 니펫은 간결하게 생략되지만 원래 응답은 전체 코드를 제공합니다.)

3. 간소화 응용 프로그램 개발 :

app.py 파일은 다음과 같은 기능을 갖춘 간단한 웹 응용 프로그램을 만듭니다.

오디오 파일 업로드 : 사용자는 오디오 파일을 업로드합니다 (Mp3, Wav, M4a).
전사 디스플레이 : 어셈블리 생성 된 전사 스크립트를 보여줍니다.
챗봇 상호 작용 : 사용자는 오디오 컨텐츠에 대한 질문을 할 수 있습니다.
세션 상태 관리 : 채팅 기록 및 파일 캐싱을 유지합니다.

(자세한 코드 스 니펫은 간결하게 생략되지만 원래 응답은 전체 코드를 제공합니다.)

결론:

이 프로젝트는 어셈블리, 삼바노바 클라우드, Qdrant 및 DeepSeek-R1을 성공적으로 통합하여 RAG를 사용하여 강력한 오디오 기반 챗봇을 만듭니다. 제공된 코드 및 지침을 통해 사용자는이 응용 프로그램을 구축하고 배포 할 수 있습니다. GitHub 저장소는 추가 탐색 및 사용자 정의 기회를 제공합니다.

Github Repo : https://www.php.cn/link/4803eb7efe3ec7031867d3f9fe9f4dc5

자주 묻는 질문 (FAQ) :

(원래 응답에는 Rag, 임베딩 모델 사용자 정의, 프롬프트 템플릿 수정 및 Qdrant 사용에 대한 FAQ에 대한 답변이 포함되어 있습니다.)

위 내용은 어셈블리, Qdrant & Deepseek-R1을 사용하여 오디오 래그를 만듭니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7926

자바 튜토리얼

1652

Cakephp 튜토리얼

1411

라라벨 튜토리얼

1303

PHP 튜토리얼

1249

Related knowledge

Meta Llama 3.2- 분석 Vidhya를 시작합니다 Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다. Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - &#8217

AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등 Apr 11, 2025 pm 12:01 PM

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

직원에게 AI 전략 판매 : Shopify CEO의 선언문 Apr 10, 2025 am 11:19 AM

Shopify CEO Tobi Lütke의 최근 메모는 AI 숙련도가 모든 직원에 대한 근본적인 기대를 대담하게 선언하여 회사 내에서 중요한 문화적 변화를 표시합니다. 이것은 도망가는 트렌드가 아닙니다. 그것은 p에 통합 된 새로운 운영 패러다임입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서 Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

GPT-4O vs Openai O1 : 새로운 OpenAI 모델은 과대 광고 가치가 있습니까? Apr 13, 2025 am 10:18 AM

소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까? Apr 11, 2025 pm 12:13 PM

Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후