Canonicalは、ML初心者向けのデータサイエンススタックを起動します
データサイエンスはデータの研究です。大量の情報を収集、分析、および解釈することが含まれます。データサイエンティストは、この情報を使用して決定を下し、問題を解決し、将来の傾向を予測します。
データサイエンティストは、さまざまなツールと手法を使用して、複雑なデータセットを分析および解釈します。これは、企業や組織がより良い決定を下すのに役立ちます。
データサイエンスから始めたばかりの初心者なら、おそらく適切なデータサイエンス環境を設定する際にいくつかの課題に直面するでしょう。
データサイエンス環境をセットアップすることが初心者にとって挑戦的である可能性がある理由は次のとおりです。
- ソフトウェアのインストール:初心者は、プログラミング言語(PythonやRなど)、ライブラリ、ツール(Jupyter NotebooksやRStudioなど)など、必要なソフトウェアのインストールに苦労することがよくあります。
- 依存関係の理解:ソフトウェアには、正しく動作するために他のソフトウェアの特定のバージョンが必要になることがよくあります。これは混乱を招く可能性があり、適切に管理されていないとエラーにつながる可能性があります。
- 学習曲線:データサイエンスには、プログラミング、統計、機械学習など、新しいスキルの学習が含まれます。これは初心者にとって圧倒される可能性があります。
- データ処理:特に大規模または乱雑なデータセットを扱う場合、データの操作は複雑になる可能性があります。データを掃除、保存、および処理する方法を理解することは重要ですが、最初は把握するのは難しい場合があります。
- バージョン制御:コードとデータの変更を追跡することは重要ですが、特にGITのような新しいバージョン制御システムのセットアップと管理が難しい場合があります。
- 適切なツールの選択:利用可能な多くのツールとフレームワークがあり、特定のプロジェクトに適したツールを選択することは、初心者にとって困難です。
これらの課題を理解することにより、初心者は自分自身をよりよく準備し、それらを克服するための適切なリソースとサポートを求めることができます。
最初のハードルは新しいデータサイエンティストにとって困難な場合がありますが、持続性と一貫した学習により、旅はより滑らかになります。
Canonicalのデータサイエンススタック(DSS)のおかげで、データサイエンスのセットアップは今でははるかに簡単になりました。このチュートリアルでは、データサイエンススタックとは何か、それを使用してUbuntuオペレーティングシステムでデータサイエンス環境を簡単かつ迅速にセットアップする方法について説明します。
目次
データサイエンススタック(DSS)とは何ですか?
Canonicalによるデータサイエンススタック(DSS)は、データサイエンティストと機械学習エンジニア向けのすぐに使えるソリューションです。
データサイエンススタックは、機械学習とデータ分析に必要なすべてのツールとライブラリを含む事前に構成された環境を提供することにより、セットアッププロセスを簡素化します。
Ubuntuワークステーションで実行し、GPUの使用を最適化するように設計されることにより、DSSは機械学習モデルのパフォーマンスを向上させることができます。これは、計算集中的なタスクに特に有益です。
DSSを使用すると、ユーザーは環境セットアップの技術ではなく、モデルの開発と最適化により焦点を合わせることができます。
これにより、個々のコンポーネントのインストールと構成に費やされる時間を節約できます。
データサイエンススタックには何が含まれていますか?
データサイエンススタック(DSS)は、データサイエンティストと機械学習エンジニアに包括的で統合された環境を提供します。これが提供されるものです:
- 事前にインストールされたツール:DSSには、データ探索、モデル開発、実験追跡に不可欠なMicrok8s 、 Jupyterlab 、 MLFlowなどの一般的なオープンソースツールが含まれています。
- 機械学習フレームワーク:デフォルトでは、2つの広く使用されている機械学習フレームワーク、 PytorchとTensorflowが付属しており、モデルの構築とトレーニングに使用する準備ができています。
- コマンドラインインターフェイス(CLI) :DSSは、これらのツールとフレームワークを展開するための直感的なCLIを提供し、環境の管理とスケーリングを容易にします。
- ユーザーインターフェイス:展開後、ユーザーはツールのUISにアクセスして、手動セットアップの手間をかけずにデータサイエンスプロジェクトの作業を開始できます。
- パッケージングの依存関係:DSSはパッケージングの依存関係を処理し、すべてのツール、ライブラリ、フレームワークが互いに互換性があり、スムーズに動作するようにします。
- ハードウェア互換性:マシンのハードウェアと互換性があり、ツールとフレームワークのパフォーマンスを最適化するように設計されています
- 簡素化された構成:伝統的に、ワークステーションに機械学習環境を設定することは複雑で、逆にするのが難しい場合があります。 DSSは、ワークステーションのGPUを効率的に利用するアクセス可能で、生産準備が整った、孤立した、再現可能なML環境を提供することにより、これに対処します。
- GPU構成:DSSは、 GPUオペレーターを含めることによりGPU構成を簡素化します。GPUオペレーターは、機械学習タスクのGPUのセットアップと使用を管理し、計算能力を効果的に活用します。
全体として、DSSは、データサイエンスと機械学習のための手間のかからない最適化された環境を提供することを目指しており、ユーザーはツールの技術的なセットアップとメンテナンスではなく、コアタスクに集中できるようにします。
Ubuntuにデータサイエンススタック(DSS)をインストールします
機械学習とデータサイエンスのためにデータサイエンススタック(DSS)の使用を開始するには、次の手順に従って環境を設定します。
前提条件
- オペレーティングシステム:ubuntu 22.04 LTSまたはUbuntu 24.04 LTSがシステムにインストールされていることを確認してください。
- インターネット接続:必要なソフトウェアをダウンロードしてインストールするには、アクティブなインターネット接続が必要です。
- SNAP :MicroK8SとDSSのインストールに必要なため、SNAPがシステムにインストールされていることを確認してください。
microk8sのセットアップ
DSSは、MicroK8Sをコンテナオーケストレーションシステムとして使用します。これにより、ワークロードがホストのGPUにアクセスできます。
ubuntuにmicrok8sをインストールするには、実行してください。
$ sudo snapインストールmicrok8s -channel 1.28/stable-クラシック
次に、必要なサービスを有効にします。
$ sudo microk8sがストレージDNS RBACを有効にします
DSS CLIのインストール
データサイエンススタックは、コマンドラインインターフェイス(CLI)を介して管理されます。
次のコマンドでDSS CLIをインストールします。
$ sudo snapインストールデータサイエンススタック - チャネル最新/安定性
これらの手順が完了すると、DSSの基礎コンポーネントがインストールされ、使用可能になります。これで、機械学習環境のセットアップに進み、DSS CLIを使用して最初のノートブックの実行を開始できます。
データサイエンススタックを始めましょう
MicroK8SとDSS CLIをインストールした後、次のステップは、MicroK8Sの上にDSSを初期化し、使用するためにMLFLOWを準備することです。
DSSとMLFLOWの初期化
DSSを初期化するには、MicroK8Sクラスター内の必要なリソースをセットアップするTheDSS initializeCommandを使用する必要があります。
$ dss initialize -kubeconfig = "$(sudo microk8s config)"
- kubeconfigflagは、microk8sによって生成されたKubernetes構成ファイルへのパスを指定するために使用されます。
DSS初期化コマンドは、完了するまでに数分かかる場合があります。この間、DSS CLIは展開の進行を示すメッセージを表示します。次のようなメッセージが表示されます。
[情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています...
このメッセージは、DSSがTensorflowノートブックの展開を準備するのを待っていることを示しています。システムが環境をセットアップし、すべてのコンポーネントが正しく構成されていることを保証するため、我慢してください。
初期化が完了すると、以下のような出力が表示されます。
[情報] Initializeコマンドの実行 [情報]提供されたkubeconfigの保存/home/ostechnix/snap/data-science-stack/16/.dss/config [情報]名前空間DSSの展開mlflowを待っている... [情報]名前空間DSSの展開mlflowの準備ができました [情報] DSS初期化。最初のノートブックを作成するには、コマンドを実行します。 DSS作成 例: DSSはmy-notebookを作成します-image = pytorch dssはmy-notebookを作成します-image = kubeflownotebookswg/jupyter-scipy:v1.8.0
これで、MLFLOW追跡サーバーとDSSが提供するその他のコンポーネントの使用を開始する準備が整います。
その後、DSS環境内で最初の機械学習ノートブックを作成して実行することができます。
最初のJupyterノートブックを開始します
データサイエンススタック(DSS)を使用して最初のJupyterノートブックを開始するには、作成するノートブックの種類を指定できるTheDSS CreateCommandを使用する必要があります。
ここでは、CUDAサポートを備えたMy-Tensorflow-Notebookという名前のTensorflowノートブックを作成しています。
$ dssはmy-tensorflow-notebookを作成します-image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0
ノートブックの作成が成功すると、以下のような出力が表示されます。
[情報] CREATEコマンドの実行 [情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています... [情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています... [情報]展開を待っている名前空間DSSのMy-Tensorflow-Notebookが準備ができています... [info]名前空間DSSのMy-Tensorflow-Notebookの展開準備ができています [情報]成功:ノートブックMy-TensorFlow-Notebookは正常に作成されました。 [情報] http://10.152.183.253:80でノートブックにアクセスします。
ノートブックの準備ができたら、コマンドはJupyterLab UIにアクセスするために使用できるURLを表示します。
ノートブックの作業を開始するには、Webブラウザを開き、提供されたURLをアドレスバーに入力します。
上記の出力にあるように、Webブラウザからhttp://10.152.183.253:80の新しく作成されたノートブックにアクセスできます。 URLを独自のものに置き換えます。
これにより、JupyterLabインターフェイスに移動し、新しいノートブックを作成し、データをアップロードし、TensorflowとCudaを使用して機械学習タスクを開始できます。
URLのIPアドレスとポート番号は、特定のセットアップによって異なる場合があることを忘れないでください。
それでおしまい。これで、ノートブックとの対話を開始できます。
DSSステータスを表示します
MLFLOWのステータスやGPU加速度の可用性など、データサイエンススタック(DSS)環境のステータスをすばやく確認するには、以下のようなTheDSS StatusCommandを使用できます。
$ DSSステータス
TheDSS StatusCommandは、DSS環境の現在の状態の概要を提供します。これは、出力がどのように見えるかの例です。
[情報] MLFLOW展開:準備ができています [情報] MLFLOW URL:http://10.152.183.157:5000 [情報] GPU加速:無効
出力の説明:
- MLFLOW展開:準備ができていることは、MLFLOW追跡サーバーが稼働していることを示します。
- MLFLOW URLは、 MLFLOW UIにアクセスして機械学習実験を追跡できるURLを提供します。
- GPUアクセラレーション:無効は、現在のDSS環境で使用できるGPUが使用または構成されていないことを示しています。
確認するには、MLFLOW URL http://10.152.183.157:5000をWebブラウザーから開きます。
これにより、WebブラウザのMLFLOWダッシュボードが開きます。
MLFLOWダッシュボードの実験タブ:
私たちの新しいインストールなので、まだ実験はありません。実験を作成するには、MLFLOW実験CLIを使用してください。
mlflowダッシュボードの[モデル]タブ:
DSSコマンドのリスト
データサイエンススタック(DSS)の利用可能なコマンドのリストを表示するには、 - ヘルプオプションでDSSコマンドを使用できます。
端末で次のコマンドを実行します。
$ dss -help
これにより、コマンドのリストが表示され、その目的の簡単な説明が表示されます。
特定のDSSコマンドに関する詳細情報が必要な場合は、コマンドを使用して、 - ヘルプオプションが続くことができます。
たとえば、初期化コマンドの詳細を取得するには、実行します。
$ DSSログ - ヘルプ
Microk8sからデータサイエンススタックを削除します
DSSがもう必要ない場合は、DSS Purgeコマンドを使用して、MicroK8Sクラスターからデータサイエンススタックを削除できます。
DSSを削除するには、端末で次のコマンドを実行します。
$ dss purge
このコマンドは、Jupyterノートブック、MLFLOWサーバー、およびDSS環境内に保存されているデータなど、すべてのDSSコンポーネントを完全に削除します。
このアクションは不可逆的であり、DSS環境内のすべてのデータが永久に失われることに注意することが重要です。パージを進める前に、必ず重要なデータをバックアップしてください。
DSS CLIおよびMICROK8Sを削除します
DSSパージコマンドは、MicroK8SクラスターからDSSコンポーネントを削除しますが、DSS CLIまたはMicroK8Sクラスター自体を削除しません。これらも削除したい場合は、それぞれのスナップを削除する必要があります。
DSS CLIを削除するには、次のコマンドを使用します。
$ sudo snapデータサイエンススタックを削除します
microk8sを削除するには、次のコマンドを使用します。
$ sudo snap microk8sを削除します
これらの手順に従うことにより、システムからデータサイエンススタック(DSS)とそれに関連するコンポーネントを完全に削除できます。
よくある質問(FAQ)
Q:データサイエンススタック(DSS)とは何ですか?A:Data Science Stack(DSS)は、機械学習とデータサイエンスのための包括的な、すぐに実行できる環境です。データサイエンスツールとフレームワークのセットアップと管理を簡素化するように設計されており、ユーザーは環境構成の複雑さではなく、コアタスクに集中できるようにします。
Q:DSSにはどのツールが含まれていますか?A:DSSには、Jupyter Notebook、MLFlow、TensorflowやPytorchなどの人気のある機械学習フレームワークなど、さまざまなオープンソースツールが含まれています。また、ワークロードを管理するためのコンテナオーケストレーションシステムMICROK8Sも提供します。
Q:DSSをインストールするにはどうすればよいですか?A:DSSをインストールするには、Ubuntu 22.04 LTSまたはUbuntu 24.04 LTS、インターネット接続、SNAPがインストールされる必要があります。次に、SNAPコマンドを使用してMicroK8SとDSS CLIをインストールできます。詳細な手順については、公式ドキュメントまたはインストールガイドを参照してください。
Q:DSSでJupyterノートブックを開始するにはどうすればよいですか?A:DSS Createコマンドを使用して、DSSを使用してJupyterノートブックを開始し、ノートブックに目的の画像を指定できます。たとえば、Tensorflow Notebookを開始するには、DSS Create My-Tensorflow-Notebook - image = Kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0を使用します。
Q:DSSステータスコマンドの目的は何ですか?A:DSSステータスコマンドは、MLFLOWのステータスやGPU加速度の可用性など、DSS環境の現在の状態の概要を概説します。すべてのコンポーネントが正しく機能していることを確認するのに役立ちます。
Q:環境からDSSを削除するにはどうすればよいですか?A:DSSを削除するには、DSS Purgeコマンドを使用して、JupyterノートブックやMLFLOWサーバーなどのすべてのDSSコンポーネントを削除できます。このアクションは不可逆的であり、DSS環境内のすべてのデータが失われることに注意してください。
Q:DSSコマンドに関する詳細情報はどこにありますか? A:DSS(HELPコマンドを使用して利用可能なすべてのコマンドをリストし、DSS
はい、DSSはオープンソースツールに基づいており、自由に使用できます。
Q:DSSはデータサイエンスの初心者に適していますか?A:はい、DSSはユーザーフレンドリーになるように設計されており、データサイエンス環境のセットアップの複雑さを減らすため、初心者にとって素晴らしいツールになる可能性があります。ユーザーが迅速にデータサイエンスプロジェクトの作業を開始できるようにする既製の最適化された環境を提供します。
結論
要約すると、データサイエンススタック(DSS)は、データサイエンスタスクのセットアップを簡素化します。うまく機能するツールのコレクションを提供し、プロジェクトを迅速に開始しやすくします。
データサイエンスが初めてであろうと経験豊富であろうと、DSSは技術的なセットアップを処理することで仕事に集中するのに役立ちます。これは、効率的なデータ分析とモデル構築をサポートする信頼できるツールです。
リソース:
- データサイエンススタック(DSS)ドキュメント
関連する読み取り:
- LinuxにAnacondaをインストールする方法
- LinuxにMinicondaをインストールする方法
以上がCanonicalは、ML初心者向けのデータサイエンススタックを起動しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Linuxは、サーバー、組み込みシステム、デスクトップ環境で広く使用されています。 1)サーバーフィールドでは、Linuxは、その安定性とセキュリティにより、Webサイト、データベース、アプリケーションをホストするための理想的な選択肢となっています。 2)埋め込みシステムでは、Linuxは高いカスタマイズと効率で人気があります。 3)デスクトップ環境では、Linuxはさまざまなユーザーのニーズを満たすために、さまざまなデスクトップ環境を提供します。

基本的なLinux学習の方法は次のとおりです。1。ファイルシステムとコマンドラインインターフェイス、2。LS、CD、MKDIR、3。ファイルの作成と編集などのファイル操作を学習するマスター基本コマンド、4。

インターネットは単一のオペレーティングシステムに依存していませんが、Linuxはその上で重要な役割を果たしています。 Linuxは、サーバーやネットワークデバイスで広く使用されており、安定性、セキュリティ、スケーラビリティに人気があります。

Linuxオペレーティングシステムのコアは、コマンドラインインターフェイスで、コマンドラインを介してさまざまな操作を実行できます。 1.ファイルおよびディレクトリ操作は、ファイルとディレクトリを管理するために、LS、CD、MKDIR、RM、その他のコマンドを使用します。 2。ユーザーおよび許可管理は、useradd、passwd、chmod、その他のコマンドを介してシステムのセキュリティとリソースの割り当てを保証します。 3。プロセス管理は、PS、Kill、およびその他のコマンドを使用して、システムプロセスを監視および制御します。 4。ネットワーク操作には、Ping、Ifconfig、SSH、およびネットワーク接続を構成および管理するためのその他のコマンドが含まれます。 5.システムの監視とメンテナンスは、TOP、DF、DUなどのコマンドを使用して、システムの動作ステータスとリソースの使用を理解します。

Linux管理者の平均年salは、米国で75,000〜95,000ドル、ヨーロッパでは40,000〜60,000ユーロです。給与を増やすには、次のことができます。1。クラウドコンピューティングやコンテナテクノロジーなどの新しいテクノロジーを継続的に学習します。 2。プロジェクトの経験を蓄積し、ポートフォリオを確立します。 3.プロフェッショナルネットワークを確立し、ネットワークを拡大します。

Linuxシステム管理者の主なタスクには、システムの監視とパフォーマンスチューニング、ユーザー管理、ソフトウェアパッケージ管理、セキュリティ管理とバックアップ、トラブルシューティングと解像度、パフォーマンスの最適化、ベストプラクティスが含まれます。 1. TOP、HTOP、その他のツールを使用して、システムのパフォーマンスを監視し、チューニングします。 2。ユーザーADDコマンドおよびその他のコマンドを介して、ユーザーアカウントとアクセス許可を管理します。 3. APTとYUMを使用してソフトウェアパッケージを管理し、システムの更新とセキュリティを確保します。 4.ファイアウォールを構成し、ログを監視し、データバックアップを実行して、システムセキュリティを確保します。 5.ログ分析とツールの使用を通じてトラブルシューティングと解決。 6.カーネルパラメーターとアプリケーションの構成を最適化し、ベストプラクティスに従ってシステムのパフォーマンスと安定性を向上させます。

導入 Linuxは、柔軟性と効率性により、開発者、システム管理者、およびパワーユーザーが好む強力なオペレーティングシステムです。しかし、頻繁に長く複雑なコマンドを使用することは退屈でERです

Linuxの主な用途には、1。Serverオペレーティングシステム、2。EmbeddedSystem、3。Desktopオペレーティングシステム、4。開発およびテスト環境。 Linuxはこれらの分野で優れており、安定性、セキュリティ、効率的な開発ツールを提供します。
