実験から展開まで: MLflow 101
ホームページホームページ > ニュース > 実験から展開まで: MLflow 101

実験から展開まで: MLflow 101

Feb 24, 2024

年齢が低い

フォローする

--

1

聞く

共有

これを想像してください: あなたはまったく新しいビジネスのアイデアを思いつき、必要なデータはすぐに手に入るでしょう。 皆さんは、素晴らしい機械学習モデルの作成に夢中になっています 🤖。 しかし、本当のことを言うと、この旅は簡単なものではありません。 データの前処理を扱い、アルゴリズムを選択し、ハイパーパラメーターを調整して、めまいがするまで狂ったように実験することになります 😵‍💫。 プロジェクトが複雑になるにつれて、それは煙を捕まえようとするようなものです。途中で思いついたすべてのワイルドな実験や素晴らしいアイデアを忘れてしまいます。 そして私を信じて、猫の群れよりも難しいことをすべて覚えておいてください 😹

しかし、待ってください、まだあります! モデルを入手したら、それをチャンピオンのように導入する必要があります。 そして、データと顧客のニーズが常に変化するため、靴下を交換するよりも多くの回数モデルを再トレーニングすることになります。 それは終わりのないジェット コースターのようなもので、すべてをまとめるには盤石なソリューションが必要です 🔗。 MLOps に参入してください! それは混沌に秩序をもたらす秘伝のソースです⚡

さて、皆さん、理由はわかりました。私たちの後ろで、「What」について詳しく見てみましょうそしてジューシーなハウこのブログで。

このブログの最後までに構築するパイプラインを見てみましょう 👆

ちょっと待ってください、これはすぐに読めるものではないからです。 私たちはエンドツーエンドの MLOps ソリューションを作成していますが、それを現実のものにするために、それを 3 つのセクションに分割する必要がありました。

セクション 1:基礎と理論を説明します 📜

第2節:ここからがアクションです! 私たちはスパム フィルターを構築し、MLflow を使用してクレイジーな実験をすべて追跡しています 🥼🧪

セクション 3:私たちは実際の取引に焦点を当てます - チャンピオン モデルをデプロイして監視し、本番環境に対応できるようにします 🚀

MLOps でロックンロールしましょう!

MLOps は、データ サイエンティストが大規模な運用環境内でモデルのトレーニング、デプロイメント、管理のライフサイクル全体を簡素化および自動化できるように支援することを目的とした、方法論と業界のベスト プラクティスのコレクションを表します。

これは、機械学習のライフサイクル全体を管理するための、明確で独立したアプローチとして徐々に浮上しつつあります。 MLOps プロセスの重要な段階には次のものが含まれます。

どのように実装するのか? Neptune、Comet、Kubeflow などのいくつかのオプションが利用可能ですが、ここでは MLflow に固執します。 それでは、MLflow について理解し、その原則を詳しく見ていきましょう。

MLflow は機械学習のスイス アーミー ナイフのようなものです。非常に多用途でオープンソースであり、ML の取り組み全体を上司のように管理するのに役立ちます。 すべての主要な ML ライブラリ (TensorFlow、PyTorch、Scikit-learn、spaCy、Fastai、Statsmodels など) とうまく連携します。 ただし、他のライブラリ、アルゴリズム、または展開ツールと組み合わせて使用​​することもできます。 さらに、非常にカスタマイズしやすいように設計されており、カスタム プラグインを使用して新しいワークフロー、ライブラリ、ツールを簡単に追加できます。

MLflow はモジュール式の API ベースの設計哲学に従っており、その機能を 4 つの異なる部分に分割しています。

それでは、各パーツを一つずつ確認していきましょう!

これで、MLflow のサービスに関する基本的な理解のまとめとなります。 さらに詳しい詳細については、こちらの公式ドキュメントを参照してください 👉📄。 さて、この知識を身につけて、セクション 2 に進みましょう。簡単なスパム フィルター アプリを作成することから始めて、次に完全な実験モードに進み、独自の実行でさまざまな実験を追跡します。

さあ、皆さん、エキサイティングな旅の準備をしてください! 研究室に飛び込んで実験に取り組む前に、何を構築しているのかを理解するために攻撃計画を立てましょう。 まず、ランダム フォレスト分類器を使用してスパム分類器を強化します (文書分類には多項 NB の方が適していることはわかっていますが、ランダム フォレストのハイパーパラメータを試してみたいと思います)。 スリルを味わうために、最初は意図的にあまり良くないものにします。 次に、創造性を発揮してさまざまな実行を追跡し、ハイパーパラメーターを調整したり、Bag of Words や Tfidf などの優れた機能を試したりします。 そして、何だと思いますか? MLflow UI をすべての優れた追跡アクションのボスのように使用し、次のセクションの準備をします。 さあ、シートベルトを締めて、楽しい時間を過ごすから! 🧪💥