화면과 마이크를 사용하여 AI 에이전트를 만드는 방법-JS 튜토리얼-php.cn

집

웹 프론트엔드

JS 튜토리얼

화면과 마이크를 사용하여 AI 에이전트를 만드는 방법

Linda Hamilton

Jan 22, 2025 am 08:35 AM

How to create an AI agent powered by your screen & mic

Screenpipe: 연중무휴 화면 및 마이크 녹음, OCR, 전사 및 AI 통합을 위한 CLI/앱

Screenpipe는 화면과 마이크 활동을 지속적으로 기록하고, 광학 문자 인식(OCR) 데이터를 추출하고, 텍스트 변환을 생성하고, 이 데이터를 AI 모델에 공급하는 프로세스를 단순화하는 명령줄 인터페이스(CLI) 애플리케이션입니다. 유연한 파이프 시스템을 사용하면 캡처된 화면 및 오디오 정보와 상호 작용하는 강력한 플러그인을 만들 수 있습니다. 이 예에서는 Ollama를 활용하여 화면 활동을 분석하는 간단한 파이프를 구축하는 방법을 보여줍니다.

전제 조건:

스크린파이프가 설치되어 작동 중입니다.
번이 설치되었습니다(npm install -g bun).
모델과 함께 설치된 Ollama(이 예에서는 DeepSeek-r1:1.5b가 사용됨)

1. 파이프 생성:

CLI를 사용하여 새 Screenpipe 파이프를 생성합니다.

bunx @screenpipe/create-pipe@latest

로그인 후 복사

메시지에 따라 파이프 이름을 지정하고(예: "my-activity-analyzer") 디렉토리를 선택하세요.

2. 프로젝트 설정:

원하는 편집기(예: 커서, VS Code)에서 프로젝트를 엽니다.

cursor my-activity-analyzer

로그인 후 복사

초기 프로젝트 구조에는 여러 파일이 포함됩니다. 이 예에서는 불필요한 파일을 제거합니다.

rm -rf src/app/api/intelligence src/components/obsidian-settings.tsx src/components/file-suggest-textarea.tsx

로그인 후 복사

3. 분석 크론 작업 구현:

다음 코드를 사용하여 src/app/api/analyze/route.ts을 만듭니다.

import { NextResponse } from "next/server";
import { pipe } from "@screenpipe/js";
import { streamText } from "ai";
import { ollama } from "ollama-ai-provider";

export async function POST(request: Request) {
  try {
    const { messages, model } = await request.json();
    console.log("model:", model);

    const fiveMinutesAgo = new Date(Date.now() - 5 * 60 * 1000).toISOString();
    const results = await pipe.queryScreenpipe({
      startTime: fiveMinutesAgo,
      limit: 10,
      contentType: "all",
    });

    const provider = ollama(model);
    const result = streamText({
      model: provider,
      messages: [
        ...messages,
        {
          role: "user",
          content: `Analyze this activity data and summarize what I've been doing: ${JSON.stringify(results)}`,
        },
      ],
    });

    return result.toDataStreamResponse();
  } catch (error) {
    console.error("error:", error);
    return NextResponse.json({ error: "Failed to analyze activity" }, { status: 500 });
  }
}

로그인 후 복사

4. pipe.json 예약 구성:

크론 작업을 포함하도록 pipe.json 생성 또는 수정:

{
  "crons": [
    {
      "path": "/api/analyze",
      "schedule": "*/5 * * * *" // Runs every 5 minutes
    }
  ]
}

로그인 후 복사

5. 메인 페이지 업데이트(src/app/page.tsx):

"use client";

import { useState } from "react";
import { Button } from "@/components/ui/button";
import { OllamaModelsList } from "@/components/ollama-models-list";
import { Label } from "@/components/ui/label";
import { useChat } from "ai/react";

export default function Home() {
  const [selectedModel, setSelectedModel] = useState("deepseek-r1:1.5b");
  const { messages, input, handleInputChange, handleSubmit } = useChat({
    body: { model: selectedModel },
    api: "/api/analyze",
  });

  return (
    <main className="p-4 max-w-2xl mx-auto space-y-4">
      <div className="space-y-2">
        <label htmlFor="model">Ollama Model</label>
        <OllamaModelsList defaultValue={selectedModel} onChange={setSelectedModel} />
      </div>

      <div>
        {messages.map((message) => (
          <div key={message.id}>
            <div>{message.role === "user" ? "User: " : "AI: "}</div>
            <div>{message.content}</div>
          </div>
        ))}
      </div>
    </main>
  );
}

로그인 후 복사

6. 로컬 테스트:

로컬에서 파이프 실행:

bun i  // or npm install
bun dev

로그인 후 복사

http://localhost:3000에서 애플리케이션에 접속하세요.

7. 스크린파이프 설치:

파이프를 Screenpipe에 설치합니다:

UI: Screenpipe 앱을 열고 Pipes 섹션으로 이동한 후 " "를 클릭하고 파이프에 대한 로컬 경로를 제공합니다.
CLI:
```
screenpipe install /path/to/my-activity-analyzer
screenpipe enable my-activity-analyzer
```
로그인 후 복사
작동 방식:
- 데이터 쿼리: pipe.queryScreenpipe()는 최근 화면 및 오디오 데이터를 검색합니다.
- AI 처리: Ollama는 프롬프트를 사용하여 데이터를 분석합니다.
- UI: 간단한 인터페이스로 분석 결과를 표시합니다.
- 예약: Screenpipe의 cron 작업은 5분마다 분석을 실행합니다.
다음 단계:
- 구성 옵션을 추가하세요.
- 외부 서비스와 통합하세요.
- 보다 정교한 UI 구성요소를 구현하세요.
참고자료:
- 스크린파이프 문서
- 스크린파이프 파이프 예시
- Screenpipe SDK 참조
위 내용은 화면과 마이크를 사용하여 AI 에이전트를 만드는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1664

Cakephp 튜토리얼

1423

라라벨 튜토리얼

1317

PHP 튜토리얼

1268

C# 튜토리얼

1242

Related knowledge

Demystifying JavaScript : 그것이하는 일과 중요한 이유 Apr 09, 2025 am 12:07 AM

JavaScript는 현대 웹 개발의 초석이며 주요 기능에는 이벤트 중심 프로그래밍, 동적 컨텐츠 생성 및 비동기 프로그래밍이 포함됩니다. 1) 이벤트 중심 프로그래밍을 사용하면 사용자 작업에 따라 웹 페이지가 동적으로 변경 될 수 있습니다. 2) 동적 컨텐츠 생성을 사용하면 조건에 따라 페이지 컨텐츠를 조정할 수 있습니다. 3) 비동기 프로그래밍은 사용자 인터페이스가 차단되지 않도록합니다. JavaScript는 웹 상호 작용, 단일 페이지 응용 프로그램 및 서버 측 개발에 널리 사용되며 사용자 경험 및 크로스 플랫폼 개발의 유연성을 크게 향상시킵니다.

JavaScript의 진화 : 현재 동향과 미래 전망 Apr 10, 2025 am 09:33 AM

JavaScript의 최신 트렌드에는 Typescript의 Rise, 현대 프레임 워크 및 라이브러리의 인기 및 WebAssembly의 적용이 포함됩니다. 향후 전망은보다 강력한 유형 시스템, 서버 측 JavaScript 개발, 인공 지능 및 기계 학습의 확장, IoT 및 Edge 컴퓨팅의 잠재력을 포함합니다.

JavaScript 엔진 : 구현 비교 Apr 13, 2025 am 12:05 AM

각각의 엔진의 구현 원리 및 최적화 전략이 다르기 때문에 JavaScript 엔진은 JavaScript 코드를 구문 분석하고 실행할 때 다른 영향을 미칩니다. 1. 어휘 분석 : 소스 코드를 어휘 단위로 변환합니다. 2. 문법 분석 : 추상 구문 트리를 생성합니다. 3. 최적화 및 컴파일 : JIT 컴파일러를 통해 기계 코드를 생성합니다. 4. 실행 : 기계 코드를 실행하십시오. V8 엔진은 즉각적인 컴파일 및 숨겨진 클래스를 통해 최적화하여 Spidermonkey는 유형 추론 시스템을 사용하여 동일한 코드에서 성능이 다른 성능을 제공합니다.

Python vs. JavaScript : 학습 곡선 및 사용 편의성 Apr 16, 2025 am 12:12 AM

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

JavaScript : 웹 언어의 다양성 탐색 Apr 11, 2025 am 12:01 AM

JavaScript는 현대 웹 개발의 핵심 언어이며 다양성과 유연성에 널리 사용됩니다. 1) 프론트 엔드 개발 : DOM 운영 및 최신 프레임 워크 (예 : React, Vue.js, Angular)를 통해 동적 웹 페이지 및 단일 페이지 응용 프로그램을 구축합니다. 2) 서버 측 개발 : Node.js는 비 차단 I/O 모델을 사용하여 높은 동시성 및 실시간 응용 프로그램을 처리합니다. 3) 모바일 및 데스크탑 애플리케이션 개발 : 크로스 플랫폼 개발은 개발 효율을 향상시키기 위해 반응 및 전자를 통해 실현됩니다.

Next.js (Frontend Integration)를 사용하여 멀티 테넌트 SaaS 응용 프로그램을 구축하는 방법 Apr 11, 2025 am 08:22 AM

이 기사에서는 Contrim에 의해 확보 된 백엔드와의 프론트 엔드 통합을 보여 주며 Next.js를 사용하여 기능적인 Edtech SaaS 응용 프로그램을 구축합니다. Frontend는 UI 가시성을 제어하기 위해 사용자 권한을 가져오고 API가 역할 기반을 준수하도록합니다.

Next.js (백엔드 통합)로 멀티 테넌트 SAAS 애플리케이션 구축 Apr 11, 2025 am 08:23 AM

일상적인 기술 도구를 사용하여 기능적 다중 테넌트 SaaS 응용 프로그램 (Edtech 앱)을 구축했으며 동일한 작업을 수행 할 수 있습니다. 먼저, 다중 테넌트 SaaS 응용 프로그램은 무엇입니까? 멀티 테넌트 SAAS 응용 프로그램은 노래에서 여러 고객에게 서비스를 제공 할 수 있습니다.

C/C에서 JavaScript까지 : 모든 것이 어떻게 작동하는지 Apr 14, 2025 am 12:05 AM

C/C에서 JavaScript로 전환하려면 동적 타이핑, 쓰레기 수집 및 비동기 프로그래밍으로 적응해야합니다. 1) C/C는 수동 메모리 관리가 필요한 정적으로 입력 한 언어이며 JavaScript는 동적으로 입력하고 쓰레기 수집이 자동으로 처리됩니다. 2) C/C를 기계 코드로 컴파일 해야하는 반면 JavaScript는 해석 된 언어입니다. 3) JavaScript는 폐쇄, 프로토 타입 체인 및 약속과 같은 개념을 소개하여 유연성과 비동기 프로그래밍 기능을 향상시킵니다.

See all articles

화면과 마이크를 사용하여 AI 에이전트를 만드는 방법

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제