Polars Delta Lake: 소규모 데이터의 Azure 기능과 노트북
Azure 기반 Polars Deltalake의 성능이 소비자급 노트북과 어떻게 비교되는지 궁금한 적이 있습니까?
아니요? 글쎄요. 제가 호기심을 불러일으켰다면 계속 읽어보세요.
경쟁자는 다음과 같습니다
- EliteBook 840 G10, AMD Ryzen 7840U, 8코어, 16스레드, 64GB RAM
- Linux B3 SKU 앱 서비스 계획(4코어, 7GB RAM)에서 실행되는 Azure 기능
- 표준 ADLS2 스토리지 사용
- 프리미엄 ADLS2 스토리지 포함
사용 가능한 앱 서비스 계획의 전체 목록은 가격을 참조하세요.
테스트 설정
테스트에서는 세 가지 시나리오를 측정합니다
- 델타 테이블 생성
- 델타 테이블에 쓰기
- 델타 테이블에서 읽기
코드는 REST API 엔드포인트를 통해 실행됩니다.
- polars_azure_create: https://function-hekori-learning-002.azurewebsites.net/api/poles/azure/create
- polars_azure_read: https://function-hekori-learning-002.azurewebsites.net/api/poles/azure/read
- polars_azure_write: https://function-hekori-learning-002.azurewebsites.net/api/poles/azure/write
- polars_local_create: http://localhost:7071/api/poles/local/create
- 폴라스_로컬_읽기: http://localhost:7071/api/폴라s/local/read
- polars_local_write: http://localhost:7071/api/poles/local/write
HP EliteBook에서 func start를 사용하여 https://localhost:7071을 실행했습니다.
Azure I에 게시하려면 https://learn.microsoft.com/en-us/azure/azure-functions/create-first-function-cli-python
의 지침을 따르세요.
필요한 개발 환경을 설정합니다. 이를 통해
을 통해 함수를 게시할 수 있었습니다.
func azure functionapp 게시 function-hekori-learning-002.
북유럽 지역에 Azure 리소스를 설정하기 위해 Terraform을 사용했습니다.
다음은 https://function-hekori-learning-002.azurewebsites.net/api/poles/azure/read 방문 시 실행되는 코드를 보여주는 코드 조각입니다
@app.route(route="polars/azure/read", auth_level=func.AuthLevel.ANONYMOUS) def polars_azure_read(req: func.HttpRequest) -> func.HttpResponse: logging.info('Reading from delta table') tic = time.time() df = pl.read_delta(AZURE_STORAGE_PATH, storage_options=storage_options ) df = df.sql( "select sum(value) as sum, avg(value) as mean, count() as count, name from self group by name order by sum asc" ) toc = time.time() logging.info(f"Elapsed time {toc - tic:.2f} seconds") return func.HttpResponse( "Success from polars." + str(df) + '\n' + "Elapsed time " + str(toc - tic) + " seconds", status_code=200 )
테스트 결과
보시다시피 HP EliteBook은 모든 시나리오에서 대략 10배 더 빠릅니다.
해석
개인적인 해석입니다
- Azure 함수 타이밍은 동기 작업에 충분합니다. 예를 들어, 클라이언트가 < 2초.
- 데이터가 적고 최고의 성능을 원한다면 IO 지연 시간이 짧은 베어메탈 또는 가상 머신에서 Polars를 실행하는 것을 고려해야 합니다.
델타 테이블에는 커밋 3개와 Parquet 파일 2개라는 작은 크기가 있다는 점에 유의하세요. 즉, 런타임은 컴퓨팅 단위에서 파일 액세스에 대한 오버헤드를 효과적으로 측정합니다.
이 기사를 ❤️하고 핵심 처리 이외의 더 큰 데이터 세트를 사용하여 더 많은 벤치마크 결과를 보고 싶다면 이 기사에 ?
구독하시겠습니까? 내 채널로 ???.
위 내용은 Polars Delta Lake: 소규모 데이터의 Azure 기능과 노트북의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

Python은 데이터 과학, 웹 개발 및 자동화 작업에 적합한 반면 C는 시스템 프로그래밍, 게임 개발 및 임베디드 시스템에 적합합니다. Python은 단순성과 강력한 생태계로 유명하며 C는 고성능 및 기본 제어 기능으로 유명합니다.

2 시간 이내에 Python의 기본 프로그래밍 개념과 기술을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우기, 2. 마스터 제어 흐름 (조건부 명세서 및 루프), 3. 기능의 정의 및 사용을 이해하십시오. 4. 간단한 예제 및 코드 스 니펫을 통해 Python 프로그래밍을 신속하게 시작하십시오.

Python은 게임 및 GUI 개발에서 탁월합니다. 1) 게임 개발은 Pygame을 사용하여 드로잉, 오디오 및 기타 기능을 제공하며 2D 게임을 만드는 데 적합합니다. 2) GUI 개발은 Tkinter 또는 PYQT를 선택할 수 있습니다. Tkinter는 간단하고 사용하기 쉽고 PYQT는 풍부한 기능을 가지고 있으며 전문 개발에 적합합니다.

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

제한된 시간에 Python 학습 효율을 극대화하려면 Python의 DateTime, Time 및 Schedule 모듈을 사용할 수 있습니다. 1. DateTime 모듈은 학습 시간을 기록하고 계획하는 데 사용됩니다. 2. 시간 모듈은 학습과 휴식 시간을 설정하는 데 도움이됩니다. 3. 일정 모듈은 주간 학습 작업을 자동으로 배열합니다.

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 같은 작업에 적합합니다.

파이썬은 자동화, 스크립팅 및 작업 관리가 탁월합니다. 1) 자동화 : 파일 백업은 OS 및 Shutil과 같은 표준 라이브러리를 통해 실현됩니다. 2) 스크립트 쓰기 : PSUTIL 라이브러리를 사용하여 시스템 리소스를 모니터링합니다. 3) 작업 관리 : 일정 라이브러리를 사용하여 작업을 예약하십시오. Python의 사용 편의성과 풍부한 라이브러리 지원으로 인해 이러한 영역에서 선호하는 도구가됩니다.
