Data Science

データサイエンスの流れ | IBMが提供するCouseraのデータサイエンスコースより

2020-03-27

データサイエンスという言葉を聞くようにはなったが、実際に何をしているのか?データサイエンスには進める際に、10つのステップがある。今回はIBMが提供するCouseraのデータサイエンスコースよりメモ。

全体像

Source: https://www.ibmbigdatahub.com/blog/why-we-need-methodology-data-science

データサイエンスには上記のようなステップがある。それぞれのステップを見ていく。

1. Business Understanding

”何の問題をステークホルダーは解こうとしているのか?” なぜこのステージが大事なのか?それはゴールを明確にし、そのゴールを達成するために、どのデータを使うべきかがはっきりするからだ。 そもそもデータサイエンスの目的は与えられた問題に沿って、隠れた知見を見出し、ステークホルダーとコミュニケーションをとることにある。なのでゴールが分からなければ、決して目的が達成されることはない。 コースの例では、”利益をあげるにはどうすれば良いか?”というお題が出てきた時に、”ステークホルダーは実際には売上をあげたいのか?それとも今あるコストを削りたいのか?”と、問題をどんどん明確にしていくことが大事だという。

2. Analytic Approach

”定めた問題を解くために、最も適した分析手法は何か?” 関係性を示すことが一番答えとして適しているのであれば、記述的分析(Descriptive approach)が大切になってくる。確率を示すことが一番答えとして適しているのであれば、予測分析 (Predictive approach)が大切になってくるだろう。 異なるアプローチを選ぶことで、アプローチのタイプ毎に分類されるアルゴリズムを使用していくこととなる。

3. Data Requirements

"問題に答えるために、どんなデータを用意する必要があるか?” 分析手法を選んだ後は、実際にどんなデータを用意する必要があるかを考えなくてはならない。データの内容、データのフォーマット、ソースはどこかなどを考える。実際にそのデータを、選んだアルゴリズムの中に放り込んでいくことになる。

4. Data Collection

”データをどこで、どのように入手するか?” このステージでは実際に問題に関係するデータをどこでどのように取得するかを考えていく。データを取得するために代表的な方法としては、Webスクレイピングがある。

5.Data Understanding

”集めたデータの中に、問題を解くためのキーが含まれているか?” 記述統計や視覚化の技術を集めてきたデータに用いて、よりデータを理解するステージとなる。データの内容、データのクオリティ、初期情報を理解し、問題の解決につながるキーが含まれているかを判断する。 もし集めたデータが問題解決に繋がらなそうな場合は、またData Collectionステージに戻る必要もでてくるかもしれない。

6. Data Preparation

”データモデリングのために、どんな下準備が必要か?” この段階では、データモデリングで使用するデータセットを準備するためのフェーズとなる。具体的には、データクレンジングだったり、複数のデータソースからとってきたデータを結合したり、自分がやりやすいような変数に変換したり、様々な準備がある。 プロジェクトの全体のうち、70 - 90%の時間はこの準備に使われるとのこと。なので時間の使い方として、メインの作業はこのステージに当たる。

7. Modeling

”問題に答えるために、どのようにデータが視覚化されると一番良いか” データの下準備が終わると、モデリングのステージに入る。トレーニングデータセットと、前段階で選んだ分析アプローチを用いて、予測モデル、または記述モデルを作成する。

8. Evaluation

”作成したモデルは問題に対して適切な回答をアウトプットしているか?” ここではモデルがきちんと精度の高い答えを出しているか、モデルの精度を高めるために様々な方法が用いられる。 ホールドアウト法、クロスバリデーション法、リーブワンアウト法など、様々な方法がこの段階では用いられる。

9. Deployment

”作成したモデルは現実世界で活用可能か?” 一旦満足のいくモデルが開発されると、そのモデルはいよいよ実際の現場で使われていくこととなる。

10. Feedback

”建設的なフィードバックを受け取れているか?” 実際に現場でモデルを活用した時に、そのモデルはステークホルダーが望んでいる通りに動いているのかどうか、随時フィードバックを受け取る必要がある。

こうしたステップを全て経た上で、最初の問題に振り返る。ステークホルダーが解こうとしている問題に対して、有益な知見が提供できているか?要件が提供できているか?要件が満たされれば、プロジェクトは終了となる。

-Data Science

Copyright© Snow Notes , 2020 All Rights Reserved.