公開日

フルスタック データ サイエンティストの 4 つの帽子

著者

"「フルスタックデータサイエンティストとは何ですか?」

私が初めてデータ サイエンスを学んだとき、データ エンジニアリングと ML エンジニアリングは今日ほど普及していませんでした。その結果、データ サイエンティストの役割は、最近見られるものよりも広く定義されることが多くなりました。

たとえば、データ サイエンティストは、ETL スクリプトを作成し、データベースをセットアップし、特徴量エンジニアリングを実行し、ML モデルをトレーニングし、モデルを本番環境にデプロイしたことがあります。

これらのタスクを複数の役割 (データ エンジニア、データ サイエンティスト、ML エンジニアなど) に分割することがより一般的になってきていますが、多くの状況では依然として ML モデル開発のあらゆる側面に精通した貢献者が必要です。私はこれらの貢献者をフルスタック データ サイエンティストと呼んでいます。

より具体的に言うと、私はフルスタック データ サイエンティストを、ML ソリューションをエンドツーエンドで管理および実装できる人だと考えています。これには、ビジネス上の問題の策定、ML ソリューションの設計、開発用のデータの調達と準備、ML モデルのトレーニング、およびその価値を実現できるモデルのデプロイが含まれます。

なぜそれらが必要なのでしょうか?

ML プロジェクトを実装するための専門的な役割が台頭していることを考えると、この FSDS の概念は時代遅れに見えるかもしれません。少なくとも、私が最初に企業データサイエンスの役割を果たしたとき、そう考えました。

しかし最近では、完全な技術スタックを学ぶことの価値が私にとってますます明らかになってきています。これはすべて、昨年、私が Upwork のトップ データ サイエンス フリーランサーにインタビューしたときに始まりました。

私が話をしたほぼ全員が、上記のフルスタック データ サイエンティストの定義に当てはまります。これは単なる楽しみや好奇心からではなく、必要性からでした。

675.92 ドルを費やして Upwork のトップ データ サイエンティストと話をしました - これが私が学んだことです

データサイエンスにおけるフリーランスの現実

これらのインタビューから得られた重要な点は、データ サイエンスのスキル (単独では) が潜在的なビジネスに与える影響には限界があるということでした。 (クライアントが支払うことになる) 現実の価値を生み出すには、ソリューションをエンドツーエンドで構築することが必須です。

しかし、これはフリーランスに限ったことではありません。 FSDS が有益となるその他の状況をいくつか紹介します。

AI/ML プロジェクト専用のリソースが 1 つだけある SMB (中小企業)

ビジネス チームに 1 人の AI/ML 貢献者が組み込まれている

ML プロダクトを構築したい創業者

確立されたチームの外でプロジェクトを探索できる大企業の個人貢献者

言い換えれば、フルスタック データ サイエンティストは、全体像を把握し、必要に応じてプロジェクトの特定の側面に飛び込むことができるジェネラリストです。そのため、AI や機械学習を通じて価値を生み出すことを目指すあらゆる企業にとって、貴重なリソースとなります。

FSDS の 4 つの帽子

FSDS にはいくつかのスキルが必要ですが、その役割はプロジェクト マネージャー、データ エンジニア、データ サイエンティスト、ML エンジニアの 4 つの主要な役割に分類できます。

もちろん、すべての帽子をかぶって世界クラスになれる人はいません(おそらく)。しかし、全体的に平均を上回ることは確かに可能です(時間がかかるだけです)。

ここでは、データ サイエンス コンサルタントとしての私の経験と 27 人のデータ/ML 専門家へのインタビューに基づいて、これらのポイントをそれぞれ詳しく説明します。

ハット 1: プロジェクト マネージャー

プロジェクト マネージャー (IMO) の重要な役割は、「何を、なぜ、どのように」という 3 つの質問に答えることです。言い換えれば、私たちは何を構築しているのでしょうか?なぜそれを構築するのでしょうか?どうやってやろうか?

この作業をスキップする (そしてコーディングを始める) のは簡単かもしれませんが、PM の帽子を適切にかぶらないと、間違った問題の解決に多大な時間 (およびお金) を費やす危険があります。あるいは、不必要に複雑でコストのかかる方法で適切な問題を解決することもあります。

その出発点はビジネス上の問題を定義することです。ほとんどの状況において、フルスタックのデータ サイエンティストは問題を解決していないため、関係者と協力して問題の根本原因を明らかにする能力が必要です。これに関するいくつかのヒントについては、以前の記事で説明しました。

問題が明確に定義されれば、AI がそれを解決する方法を特定できます。これにより、プロジェクトのコスト、スケジュール、要件を見積もるために逆算する目標が設定されます。

キースキル

コミュニケーションと人間関係の管理

問題を診断し、解決策を設計する

プロジェクトのタイムライン、コスト、要件の見積もり

ハット 2: データ エンジニア

FSDS のコンテキストでは、データ エンジニアリングは、モデル開発または推論 (あるいはその両方) にデータをすぐに利用できるようにすることに関係します。

これは本質的に製品に焦点を当てているため、DE の役割は一般的なデータ エンジニアリングの役割よりも限定される可能性があります。具体的には、いくつかのビジネス ユース ケースに合わせてデータ アーキテクチャを最適化する必要がなくなる可能性があります。

代わりに、データ パイプラインの構築に重点が置かれます。これには、特定のユースケースに合わせた ETL (または ELT) プロセスの設計と実装が含まれます。

ETL は、抽出、変換、ロードの略です。これには、生のソースからデータを抽出し、意味のある形式に変換し (データ クリーニング、重複排除、例外処理、機能エンジニアリングなど)、データベースにロードする (データ モデリングやデータベース設計など) ことが含まれます。

ここでのもう 1 つの重要な領域はデータ監視です。この詳細は特定のユースケースによって異なりますが、最終的な目標は、アラート システムやダッシュボードなどを介してデータ パイプラインを継続的に可視化することです。

キースキル

Python、SQL、CLI (bash など)

データ パイプライン、ETL/ELT (Airflow、Docker)

クラウド プラットフォーム (AWS、GCP、または Azure)

Hat 3: データサイエンティスト

私はデータ サイエンティストを、データを使用して世界の規則性を発見し、影響力を高めるために使用できる人であると定義しています。実際には、これは多くの場合、機械学習モデルのトレーニングに集約されます (コンピューターはデータの規則性を見つけるのが人間よりもはるかに優れているため)。

ほとんどのプロジェクトでは、このハットとハット 1 および 2 を切り替える必要があります。モデル開発中に、データの準備やプロジェクトの範囲設定の再検討が必要な洞察に遭遇することがよくあります。

たとえば、特定のフィールドの例外が適切に処理されなかったり、抽出されたフィールドにプロジェクトの開始時に想定されていた予測能力がないことが判明する場合があります。

モデルのトレーニングの重要な部分はモデルの検証です。これは、モデルの評価に使用できるパフォーマンス メトリックの定義で構成されます。この指標をビジネス パフォーマンスの指標に直接変換できる場合はボーナス ポイント。

パフォーマンス メトリクスを使用すると、トレーニングとテストの分割、ハイパーパラメータ、予測子の選択、ML アプローチなどを調整することで、いくつかのモデル構成をプログラムで実験および評価できます。モデルのトレーニングが必要ない場合でも、複数の事前トレーニングされたモデルのパフォーマンスを比較したい場合があります。

キースキル

Python (pandas/polars、sklearn、TensorFlow/PyTorch)

探索的データ分析 (EDA)

モデル開発 (特徴エンジニアリング、実験追跡、ハイパーパラメータ調整)

ハット 4: ML エンジニア

最後の作業には、ML モデルを取得して ML ソリューションに変換すること、つまり、その価値を実現できるようにモデルをビジネス ワークフローに統合することが含まれます。

これを行う簡単な方法は、モデルをコンテナ化し、外部システムが推論呼び出しを行えるように API をセットアップすることです。たとえば、API を内部 Web サイトに接続して、ビジネス ユーザーが計算を実行できるようにすることができます。

ただし、ユースケースによってはそれほど単純ではなく、より高度なソリューションが必要になる場合があります。ここで、オーケストレーション ツールが複雑なワークフローの定義に役立ちます。たとえば、新しいデータが利用可能になるたびにモデルを毎月更新する必要がある場合、ETL からトレーニング、デプロイメントに至るモデル開発プロセス全体を自動化する必要がある場合があります。

考慮すべきもう 1 つの重要な領域は、モデルの監視です。データ監視と同様に、これにはモデルの予測とパフォーマンスを長期にわたって追跡し、自動アラートやその他の手段を通じてそれらを可視化することが含まれます。

これらのプロセスの多くはローカル マシンで実行できますが、クラウド プラットフォームを使用してこれらのソリューションを展開するのが一般的です。私がインタビューしたすべての ML エンジニア (MLE) は少なくとも 1 つのクラウド プラットフォームを使用しており、MLE のコア スキルとしてクラウド デプロイメントを推奨しています。

キースキル

スクリプトのコンテナ化 (Docker)、API の構築 (FastAPI)

オーケストレーション - データと ML パイプラインの接続 (AirFlow)

クラウド プラットフォーム (AWS、GCP、または Azure)

ユニコーンになる

フルスタックのデータ サイエンティストは技術的なユニコーンのように見えるかもしれませんが、重要なこと (IMO) は技術スタックのあらゆる側面の第一人者になることではありません。むしろ、危険であることを十分に学ぶことです。

言い換えれば、すべてをマスターすることではなく、仕事を遂行するために必要なものは何でも学べるということです。この観点から、十分な時間があれば、ほとんどのデータ サイエンティストは「フルスタック」になるだろうと私は推測します。

この目的を達成するために、私が個人的な FSDS 開発を加速するために使用している 3 つの原則を紹介します。

新しいスキルを学ぶ理由がある - 例:エンドツーエンドのプロジェクトを構築する 危険であることを十分に学べばいい 物事をできるだけシンプルにしてください。つまり、ソリューションを過剰に設計しないでください。 次は何ですか?

フルスタックのデータ サイエンティストは、ML ソリューションをエンドツーエンドで管理および実装できます。これは、モデル開発の主要な段階で特殊な役割が存在する状況では過剰に思えるかもしれませんが、この汎用的なスキルセットは多くの状況で依然として価値があります。

フルスタック データ サイエンティストになるための私の旅の一環として、このシリーズの今後の記事では、現実世界の ML プロジェクトのエンドツーエンドの実装を通じて 4 つの FSDS ハットのそれぞれについて説明していきます。

学習の精神で、ここに何かが足りないと感じた場合は、ぜひコメントを残してください (感謝されます) 😁」"

日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。 フルスタック データ サイエンティストの 4 つの帽子

著者

Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。 私たちの取り組み: より速く。 より良い。 より信頼性が高くなります。 ほとんどの場合、価格も安くなります。

いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書(RFP)をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。

ABNAsia.org

© ABN ASIA