Canonical은 ML 초보자를위한 데이터 과학 스택을 시작합니다
데이터 과학 은 데이터 연구입니다. 여기에는 많은 양의 정보 수집, 분석 및 해석이 포함됩니다. 데이터 과학자들은이 정보를 사용하여 결정을 내리고 문제를 해결하며 미래 추세를 예측합니다.
데이터 과학자들은 다양한 도구와 기술을 사용하여 복잡한 데이터 세트를 분석하고 해석합니다. 이를 통해 비즈니스와 조직이 더 나은 결정을 내릴 수 있습니다.
데이터 과학을 시작으로 초보자라면 적절한 데이터 과학 환경을 설정하는 데 몇 가지 어려움이있을 수 있습니다.
초보자에게는 데이터 과학 환경을 설정하는 데 어려움을 겪을 수있는 몇 가지 이유가 있습니다.
- 소프트웨어 설치 : 초보자는 종종 프로그래밍 언어 (Python 또는 R 등), 라이브러리 및 도구 (Jupyter Notebooks 또는 Rstudio)와 같은 필요한 소프트웨어를 설치하는 데 어려움을 겪습니다.
- 의존성 이해 : 소프트웨어에는 종종 특정 버전의 다른 소프트웨어가 올바르게 작동해야합니다. 제대로 관리하지 않으면 혼란스럽고 오류로 이어질 수 있습니다.
- 학습 곡선 : 데이터 과학에는 프로그래밍, 통계 및 기계 학습을 포함한 새로운 기술을 학습해야합니다. 이것은 초보자에게 압도적 일 수 있습니다.
- 데이터 처리 : 특히 크거나 지저분한 데이터 세트를 처리 할 때 데이터 작업은 복잡 할 수 있습니다. 데이터를 청소, 저장 및 처리하는 방법을 이해하는 것은 중요하지만 처음에는 파악하기가 어려울 수 있습니다.
- 버전 제어 : 코드 및 데이터의 변경 사항을 추적하는 것이 중요하지만 특히 GIT와 같은 새로운 버전 제어 시스템의 경우 설정 및 관리가 까다로울 수 있습니다.
- 올바른 도구 선택 : 사용 가능한 많은 도구와 프레임 워크가 있으며 특정 프로젝트에 적합한 도구를 선택하는 것은 초보자에게 어려울 수 있습니다.
이러한 과제를 이해함으로써 초보자는 자신을 더 잘 준비하고 올바른 자원과이를 극복 할 수있는 지원을 구할 수 있습니다.
초기 장애물은 새로운 데이터 과학자에게는 어려울 수 있지만 지속성과 일관된 학습으로 여행은 더 매끄럽게 될 것입니다.
Canonical의 DSS (Data Science Stack) 덕분에 데이터 과학 설정이 훨씬 쉬워졌습니다. 이 튜토리얼에서는 데이터 과학 스택이 무엇인지 ,이를 사용하여 Ubuntu 운영 체제에서 데이터 과학 환경을 쉽고 빠르게 설정하는 방법에 대해 논의 할 것입니다.
목차
데이터 과학 스택 (DSS)이란 무엇입니까?
Canonical의 DSS (Data Science Stack)는 데이터 과학자 및 기계 학습 엔지니어를위한 기본적인 솔루션입니다.
데이터 과학 스택은 기계 학습 및 데이터 분석에 필요한 모든 도구 및 라이브러리를 포함하는 사전 구성된 환경을 제공하여 설정 프로세스를 단순화합니다.
Ubuntu 워크 스테이션에서 실행되도록 설계되고 GPU 사용을 최적화함으로써 DSS는 기계 학습 모델의 성능을 향상시킬 수 있으며, 이는 특히 계산 집약적 인 작업에 유리합니다.
DSS를 통해 사용자는 환경 설정의 기술보다는 모델의 개발 및 최적화에 더 집중할 수 있습니다.
이로 인해 개별 구성 요소를 설치하고 구성하는 데 소비되는 상당한 시간을 절약 할 수 있습니다.
데이터 과학 스택에 포함 된 것은 무엇입니까?
DSS (Data Science Stack)는 데이터 과학자 및 기계 학습 엔지니어에게 포괄적이고 통합 된 환경을 제공합니다. 제공하는 내용은 다음과 같습니다.
- 사전 설치된 도구 : DSS에는 데이터 탐색, 모델 개발 및 실험 추적에 필수적인 Microk8s , Jupyterlab 및 MLFlow 와 같은 인기있는 오픈 소스 도구가 포함되어 있습니다.
- 머신 러닝 프레임 워크 : 기본적으로 널리 사용되는 두 가지 머신 러닝 프레임 워크 인 Pytorch 및 Tensorflow가 제공되며 모델 구축 및 교육 모델에 사용할 수 있습니다.
- CLI (Command Line Interface) : DSS는 이러한 도구 및 프레임 워크를 배포하기위한 직관적 인 CLI를 제공하므로 환경을보다 쉽게 관리하고 확장 할 수 있습니다.
- 사용자 인터페이스 : 배포 후 사용자는 도구의 UI에 액세스하여 수동 설정의 번거 로움없이 데이터 과학 프로젝트 작업을 시작할 수 있습니다.
- 포장 의존성 : DSS는 포장 종속성을 처리하여 모든 도구, 라이브러리 및 프레임 워크가 서로 호환되고 원활하게 작동하도록합니다.
- 하드웨어 호환성 : 기계의 하드웨어와 호환되도록 설계되어 도구 및 프레임 워크의 성능을 최적화합니다.
- 단순화 된 구성 : 전통적으로 워크 스테이션에서 머신 러닝 환경을 설정하는 것은 복잡하고 역전하기가 어려울 수 있습니다. DSS는 워크 스테이션의 GPU를 효율적으로 활용하는 접근성, 생산 준비, 분리 및 재현 가능한 ML 환경을 제공함으로써이를 해결합니다.
- GPU 구성 : DSS는 기계 학습 작업을위한 GPU의 설정 및 사용을 관리하여 계산 전력을 효과적으로 활용하는 GPU 연산자를 포함하여 GPU 구성을 단순화합니다.
전반적으로 DSS는 데이터 과학 및 기계 학습에 번거롭고 최적화 된 환경을 제공하여 사용자가 도구의 기술 설정 및 유지 보수보다는 핵심 작업에 집중할 수 있도록합니다.
우분투에 데이터 과학 스택 (DSS)을 설치하십시오
머신 러닝 및 데이터 과학을 위해 DSS (Data Science Stack)를 사용하기 시작하려면 다음 단계를 따라 환경을 설정하십시오.
전제 조건
- 운영 체제 : 시스템에 Ubuntu 22.04 LTS 또는 Ubuntu 24.04 LT가 설치되어 있는지 확인하십시오.
- 인터넷 연결 : 필요한 소프트웨어를 다운로드하고 설치하려면 활발한 인터넷 연결이 필요합니다.
- SNAP : MicroK8 및 DSS를 설치하는 데 필요한 시스템에 SNAP가 시스템에 설치되어 있는지 확인하십시오.
microk8s 설정
DSS는 MicroK8을 컨테이너 오케스트레이션 시스템으로 사용하여 워크로드가 호스트의 GPU에 액세스 할 수 있도록합니다.
우분투에 microk8을 설치하려면 실행하십시오.
$ Sudo Snap Install Microk8s -Channel 1.28/안정 -클래식
다음으로 필요한 서비스를 활성화합니다.
$ sudo microk8s는 스토리지 dns rbac을 활성화합니다
DSS CLI 설치
데이터 과학 스택은 명령 줄 인터페이스 (CLI)를 통해 관리됩니다.
다음 명령으로 DSS CLI를 설치하십시오.
$ Sudo Snap Data-Science-Stack 설치 -Channel 최신/안정
이 단계가 완료되면 DSS의 기본 구성 요소가 설치되어 사용할 준비가되어 있습니다. 이제 기계 학습 환경을 설정하고 DSS CLI를 사용하여 첫 노트북을 실행하기 시작할 수 있습니다.
데이터 과학 스택을 시작합니다
MicroK8 및 DSS CLI를 설치 한 후 다음 단계는 Microk8 위에 DSS를 초기화하고 사용하기 위해 MLFLOW를 준비하는 것입니다.
DSS 및 MLFLOW 초기화
DSS를 초기화하려면 Microk8S 클러스터 내에서 필요한 리소스를 설정하는 THEDSS InitializeCommand를 사용해야합니다.
$ dss 초기화 -kubeconfig = "$ (sudo microk8s config)"
--kubeconfigflag는 microk8에 의해 생성 된 Kubernetes 구성 파일의 경로를 지정하는 데 사용됩니다.
DSS 초기화 명령은 완료하는 데 몇 분이 걸릴 수 있습니다. 이 기간 동안 DSS CLI는 배포 진행 상황을 나타내는 메시지를 표시합니다. 다음과 유사한 메시지가 표시됩니다.
[Info] 네임 스페이스 DSS의 배포를 기다리는 대기 준비 ...
이 메시지는 DSS가 Tensorflow 노트북의 배치가 준비되기를 기다리고 있음을 나타냅니다. 시스템이 환경을 설정하고 모든 구성 요소가 올바르게 구성되도록 인내하십시오.
초기화가 완료되면 다음과 같은 출력이 표시됩니다.
[정보] 초기화 명령 실행 [info] 저장 kubeconfig를 /home/ostechnix/snap/data-science-stack/16/.dss/config에 제공했습니다 [정보] 네임 스페이스 DSS의 배포 MLFLOW를 기다리는 대기 준비 ... [정보] 네임 스페이스 DSS의 배포 MLFLOW가 준비되었습니다 [정보] DSS가 초기화되었습니다. 첫 노트를 만들려면 명령을 실행합니다. DSS 생성 예 : DSS는 my-notebook을 작성합니다 --Image = pytorch DSS 생성 my-notebook -Image = kubeflownotebookswg/jupyter-scipy : v1.8.0
이제 MLFlow 추적 서버 및 DSS에서 제공하는 기타 구성 요소를 사용할 준비가됩니다.
그런 다음 DSS 환경 내에서 첫 머신 러닝 노트북을 만들고 실행할 수 있습니다.
첫 번째 Jupyter 노트북을 시작합니다
DSS (Data Science Stack)를 사용하여 첫 번째 Jupyter 노트북을 시작하려면 THEDSS CreateCommand를 사용해야합니다.
여기, 우리는 CUDA 지원이 포함 된 My-Tensorflow-Notebook이라는 Tensorflow 노트북을 만들고 있습니다.
$ dss my-tensorflow-notebook을 생성 --image = kubeflownotebookswg/jupyter-tensorflow-cuda : v1.8.0
노트북을 성공적으로 작성하면 다음과 같은 출력이 표시됩니다.
[정보] Create Command 실행 [Info] 네임 스페이스 DSS의 배포를 기다리는 대기 준비 ... [Info] 네임 스페이스 DSS의 배포를 기다리는 대기 준비 ... [Info] 네임 스페이스 DSS의 배포를 기다리는 대기 준비 ... [Info] 네임 스페이스 DSS의 배포 My-TensorFlow-Notebook이 준비되었습니다 [Info] 성공 : 노트북 my-tensorflow-notebook이 성공적으로 만들어졌습니다. [정보] http://10.152.183.253:80의 노트에 액세스하십시오.
노트북이 준비되면 명령에는 jupyterlab ui에 액세스하는 데 사용할 수있는 URL이 표시됩니다.
노트북 작업을 시작하려면 웹 브라우저를 열고 제공된 URL을 주소 표시 줄에 입력하십시오.
위의 출력에서 볼 수 있듯이 웹 브라우저에서 새로 만든 노트북 (http://10.152.183.253:80)에 액세스 할 수 있습니다. URL을 자신의 것으로 바꾸십시오.
이렇게하면 Jupyterlab 인터페이스로 이동하여 새 노트북을 만들고 데이터를 업로드하며 Tensorflow 및 Cuda를 사용하여 기계 학습 작업을 시작할 수 있습니다.
URL의 IP 주소와 포트 번호는 특정 설정에 따라 다를 수 있습니다.
그게 다야. 이제 노트북과 상호 작용을 시작할 수 있습니다.
DSS 상태를 봅니다
MLFLOW 상태 및 GPU 가속도의 가용성을 포함하여 DSS (Data Science Stack) 환경의 상태를 빠르게 확인하려면 아래와 같은 THEDSS 상태 명령을 사용할 수 있습니다.
$ dss 상태
THEDSS StatusCommand는 DSS 환경의 현재 상태에 대한 요약을 제공합니다. 다음은 출력이 어떻게 보일지에 대한 예입니다.
[정보] mlflow 배포 : 준비 [정보] mlflow URL : http://10.152.183.157:5000 [정보] GPU 가속도 : 비활성화
출력 설명 :
- MLFLOW 배포 : Ready는 MLFLOW 추적 서버가 UP 및 실행 중임을 나타냅니다.
- MLFLOW URL은 MLFLOW UI에 액세스하여 기계 학습 실험을 추적 할 수있는 URL을 제공합니다.
- GPU 가속도 : 비활성화 된 결과 는 현재 DSS 환경에서 사용할 수 있거나 구성된 GPU가 없음을 보여줍니다.
확인하려면 웹 브라우저에서 mlflow url http://10.152.183.157:5000을 엽니 다.
웹 브라우저에서 mlflow 대시 보드가 열립니다.
mlflow 대시 보드의 실험 탭 :
새로운 설치이므로 아직 실험이 없습니다. 실험을 만들려면 MLFLOW 실험 CLI를 사용하십시오.
MLFlow 대시 보드의 모델 탭 :
목록 DSS 명령
DSS (Data Science Stack)에 사용 가능한 명령 목록을 보려면 -HELP 옵션과 함께 DSS 명령을 사용할 수 있습니다.
터미널에서 다음 명령을 실행하십시오.
$ dss- 헬프
이것은 그들의 목적에 대한 간단한 설명과 함께 명령 목록을 표시합니다.
특정 DSS 명령에 대한 자세한 정보가 필요한 경우 명령과 -HELP 옵션을 사용할 수 있습니다.
예를 들어, 초기화 명령에 대한 세부 정보를 얻으려면 실행됩니다.
$ dss 로그 -헬프
Microk8s에서 데이터 과학 스택 제거
더 이상 DSS가 필요하지 않은 경우 DSS 퍼지 명령을 사용하여 Microk8S 클러스터에서 데이터 과학 스택을 제거 할 수 있습니다.
DSS를 제거하려면 터미널에서 다음 명령을 실행하십시오.
$ dss 퍼지
이 명령은 Jupyter 노트북, MLFlow 서버 및 DSS 환경에 저장된 데이터를 포함한 모든 DSS 구성 요소를 완전히 제거합니다.
이 조치는 돌이킬 수 없으며 DSS 환경 내의 모든 데이터는 영구적으로 손실됩니다. 퍼지를 진행하기 전에 중요한 데이터를 백업하십시오.
DSS CLI 및 Microk8을 제거하십시오
DSS Purge 명령은 Microk8S 클러스터에서 DSS 구성 요소를 제거하지만 DSS CLI 또는 MicroK8S 클러스터 자체를 제거하지는 않습니다. 이것들을 제거하려면 해당 스냅을 삭제해야합니다.
DSS CLI를 제거하려면 다음 명령을 사용하십시오.
$ Sudo Snap Data-Science-Stack을 제거하십시오
microk8을 제거하려면 다음 명령을 사용하십시오.
$ sudo snap microk8을 제거합니다
이 단계를 수행하면 시스템에서 DSS (Data Science Stack) 및 관련 구성 요소를 완전히 제거 할 수 있습니다.
자주 묻는 질문 (FAQ)
Q : DSS (Data Science Stack) 란 무엇입니까?A : DSS (Data Science Stack)는 기계 학습 및 데이터 과학을위한 포괄적 인 준비된 환경입니다. 데이터 과학 도구 및 프레임 워크의 설정 및 관리를 단순화하도록 설계되었으며, 사용자는 환경 구성의 복잡성보다는 핵심 작업에 집중할 수 있습니다.
Q : DSS에는 어떤 도구가 포함되어 있습니까?A : DSS에는 Jupyter Notebook, MLFlow 및 Tensorflow 및 Pytorch와 같은 인기있는 기계 학습 프레임 워크와 같은 다양한 오픈 소스 도구가 포함되어 있습니다. 또한 워크로드 관리를위한 컨테이너 오케스트레이션 시스템 인 Microk8S를 제공합니다.
Q : DSS를 어떻게 설치합니까?A : DSS를 설치하려면 Ubuntu 22.04 LTS 또는 Ubuntu 24.04 LTS, 인터넷 연결 및 SNAP 설치가 있어야합니다. 그런 다음 SNAP 명령을 사용하여 MicroK8 및 DSS CLI를 설치할 수 있습니다. 자세한 지침은 공식 문서 또는 설치 안내서를 참조하십시오.
Q : DSS로 Jupyter 노트북을 어떻게 시작합니까?A : DSS Create 명령을 사용하여 DSS와 함께 Jupyter 노트북을 시작할 수 있으며 노트북에 원하는 이미지를 지정합니다. 예를 들어, Tensorflow 노트북을 시작하려면 DSS를 사용하여 My-TensorFlow-Notebook을 작성합니다. image = Kubeflownotebookswg/jupyter-tensorflow-cuda : v1.8.0.
Q : DSS 상태 명령의 목적은 무엇입니까?A : DSS 상태 명령은 MLFLOW 상태 및 GPU 가속도의 가용성을 포함하여 DSS 환경의 현재 상태에 대한 빠른 개요를 제공합니다. 모든 구성 요소가 올바르게 작동하는지 확인하는 데 도움이됩니다.
Q : 환경에서 DSS를 제거하려면 어떻게해야합니까?A : DSS를 제거하려면 Jupyter 노트북 및 MLFlow 서버를 포함한 모든 DSS 구성 요소를 제거하는 DSS Purge 명령을 사용할 수 있습니다. 이 동작은 돌이킬 수 없으며 DSS 환경 내에서 모든 데이터가 손실됩니다.
Q : DSS 명령에 대한 자세한 정보는 어디에서 찾을 수 있습니까? A : DSS -HELP 명령을 사용하여 사용 가능한 모든 명령 및 DSS
예, DSS는 오픈 소스 도구를 기반으로하며 무료로 사용할 수 있습니다.
Q : DSS는 데이터 과학의 초보자에게 적합합니까?A : 예, DSS는 사용자 친화적으로 설계되었으며 데이터 과학 환경 설정의 복잡성을 줄이기 때문에 초보자에게 훌륭한 도구가 될 수 있습니다. 기성품 및 최적화 된 환경을 제공하여 사용자가 데이터 과학 프로젝트 작업을 신속하게 작업 할 수 있습니다.
결론
요약하면 DSS (Data Science Stack)는 데이터 과학 작업을위한 설정을 단순화합니다. 함께 잘 작동하는 도구 모음을 제공하여 프로젝트를 신속하게 시작할 수 있습니다.
DSS는 데이터 과학을 처음 사용하거나 경험이 있든 경험이 있든 기술 설정을 처리하여 작업에 집중할 수 있도록 도와줍니다. 효율적인 데이터 분석 및 모델 구축을 지원하는 신뢰할 수있는 도구입니다.
자원 :
- 데이터 과학 스택 (DSS) 문서
관련 읽기 :
- Linux에 Anaconda를 설치하는 방법
- Linux에 미니콘다를 설치하는 방법
위 내용은 Canonical은 ML 초보자를위한 데이터 과학 스택을 시작합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

기본 Linux 학습 방법은 다음과 같습니다. 1. 파일 시스템 및 명령 줄 인터페이스 이해, 2. LS, CD, MKDIR, 3. 파일 생성 및 편집과 같은 파일 작업 배우기, 4. 파이프 라인 및 GREP 명령과 같은 고급 사용법, 5. 연습 및 탐색을 통해 지속적으로 기술을 향상시킵니다.

인터넷은 단일 운영 체제에 의존하지 않지만 Linux는 이에 중요한 역할을합니다. Linux는 서버 및 네트워크 장치에서 널리 사용되며 안정성, 보안 및 확장 성으로 인기가 있습니다.

Linux 운영 체제의 핵심은 명령 줄 인터페이스이며 명령 줄을 통해 다양한 작업을 수행 할 수 있습니다. 1. 파일 및 디렉토리 작업 LS, CD, MKDIR, RM 및 기타 명령을 사용하여 파일 및 디렉토리를 관리합니다. 2. 사용자 및 권한 관리는 UserAdd, Passwd, CHMOD 및 기타 명령을 통해 시스템 보안 및 리소스 할당을 보장합니다. 3. 프로세스 관리는 PS, Kill 및 기타 명령을 사용하여 시스템 프로세스를 모니터링하고 제어합니다. 4. 네트워크 운영에는 Ping, Ifconfig, SSH 및 기타 명령이 포함되어 있으며 네트워크 연결을 구성하고 관리합니다. 5. 시스템 모니터링 및 유지 관리 Top, DF, Du와 같은 명령을 사용하여 시스템의 작동 상태 및 리소스 사용을 이해합니다.

Linux 관리자의 평균 연봉은 미국에서 $ 75,000 ~ $ 95,000, 유럽에서는 40,000 유로에서 60,000 유로입니다. 급여를 늘리려면 다음과 같이 할 수 있습니다. 1. 클라우드 컴퓨팅 및 컨테이너 기술과 같은 새로운 기술을 지속적으로 배울 수 있습니다. 2. 프로젝트 경험을 축적하고 포트폴리오를 설정합니다. 3. 전문 네트워크를 설정하고 네트워크를 확장하십시오.

Linux 시스템 관리자의 주요 작업에는 시스템 모니터링 및 성능 조정, 사용자 관리, 소프트웨어 패키지 관리, 보안 관리 및 백업, 문제 해결 및 해상도, 성능 최적화 및 모범 사례가 포함됩니다. 1. 상단, HTOP 및 기타 도구를 사용하여 시스템 성능을 모니터링하고 조정하십시오. 2. 사용자 ADD 명령 및 기타 명령을 통해 사용자 계정 및 권한을 관리합니다. 3. APT 및 YUM을 사용하여 소프트웨어 패키지를 관리하여 시스템 업데이트 및 보안을 보장합니다. 4. 방화벽을 구성하고 로그를 모니터링하고 데이터 백업을 수행하여 시스템 보안을 보장합니다. 5. 로그 분석 및 공구 사용을 통해 문제를 해결하고 해결합니다. 6. 커널 매개 변수 및 응용 프로그램 구성을 최적화하고 모범 사례를 따라 시스템 성능 및 안정성을 향상시킵니다.

소개 Linux는 유연성과 효율성으로 인해 개발자, 시스템 관리자 및 전원 사용자가 선호하는 강력한 운영 체제입니다. 그러나 길고 복잡한 명령을 자주 사용하는 것은 지루하고 응급실이 될 수 있습니다.

Linux의 주요 용도에는 다음이 포함됩니다. 1. 서버 운영 체제, 2. 임베디드 시스템, 3. 데스크탑 운영 체제, 4. 개발 및 테스트 환경. Linux는이 분야에서 뛰어나 안정성, 보안 및 효율적인 개발 도구를 제공합니다.

Linux는 서버, 개발 환경 및 임베디드 시스템에 적합합니다. 1. 서버 운영 체제로서 Linux는 안정적이고 효율적이며 종종 고 대전성 애플리케이션을 배포하는 데 사용됩니다. 2. 개발 환경으로서 Linux는 효율적인 명령 줄 도구 및 패키지 관리 시스템을 제공하여 개발 효율성을 향상시킵니다. 3. 임베디드 시스템에서 Linux는 가볍고 사용자 정의 가능하며 자원이 제한된 환경에 적합합니다.
