読者です 読者をやめる 読者になる 読者になる

愉快的陳家@阿拉米達島

ちょっと雑だが愉快な暮らし。サンフランシスコ・ベイエリア日記

オンラインコース色々、その2。データ分析のクラスをとってみた

時間を持て余した主婦が、何を思ったか勉強したれと思った記録、その2です。 その1はこちら。

marichan.hatenablog.com

 

なんとなく統計学の基本が分かったのに気をよくして、次に取ってみたのがこちら。

Coursera: Duke大学のビジネス分析入門コース

色んな大学がコースを提供しているCoursera。

ここでデューク大学の「ビジネスデータ分析コース」をとってみました。

 

www.coursera.org

 

4週間で完結するクラスを4つ、そして最後にプロジェクトをひとつやると、修了証書が貰えるというもの。

ひとクラスのお値段は49ドル。

証書が必要なければ、一個ずつ無料でとれた・・はず。

クラスは毎月開講、通年やっています。

1週間の間に講義ビデオを見て、毎週講義の後に小テストを受け、最終週に期末テストがあり、小テストと期末テストの結果で成績がつきます。

時間は好きな時にできるけど、思いっきり学校やがな・・・

 

クラスその1:データ主導型企業におけるビジネスメトリックス

 

最初のクラスは、ビジネススクールの101(入門・概論)みたいな授業でした。

ビジネスがどんな状況の時、どんなデータを使って判断を下す(べき)か、産業によってどんなタイプのデータがあってどんな分析をするか、

またデータアナリストやデータサイエンティストといった職業に必要とされるスキルや業務の内容や違いは何か、などなど。

 

期末テストは、何故かフローズンヨーグルト屋のビジネスについて。

フローズンヨーグルト販売オペレーションと売上、集客の問題を、どのようなデータを使って見つけ、それをどのように解決するか、というお題でした。

 

講義はデューク大学ビジネススクールの気さくなおっちゃん風教授が担当(実は定量化モデリングセンターのディレクターらしいw)。

 

授業の前半は基本的な話が多く「ああはいはい・・」という感じで聞いていました。

データサイエンティストとして働くデュークの卒業生のインタビューがあったのは面白かった。

 

産業によって、どんなデータに注目するべきかという話では、インターネット企業の例として、ウェブアナリティクスの話をさらっとしただけだったのが残念。

しかし金融業界の話になったとたん、いきなりものすごい数式を持ち出してながながと語りはじめたので「??」状態に陥りました。

毎週末の試験にはそれほど数式は出ず、概念ぐらいしか聞かれなかったので良かったけど、ものすごく焦った。

多分教授の得意分野だったんだろうな・・・。そういう教授、大学時代もいたな。

 

クラスその2:エクセルを使ったデータ分析

 このクラスも、同じ気さくなおっちゃん風教授が担当。

 

このクラスが一番心折れるかもしれません。

 

授業名からして、エクセルの機能を駆使した分析方法を教えてくれるのかと思いきや、蓋を開けてみるとほぼベイズ統計学、確率統計の授業でした。

しかもUdacityの統計学の授業が、十分噛み砕いて丁寧に教えてくれていたのと対照的に、またもやばーーっとよくわからない数式を書いて、細かい説明も無しに

ここを平均させるから、こうなります。OK

みたいな感じでどんどん進んでいく。

数式がややこしくなればなるほど説明が減り、「OK?」だけ言う数が増えていく(これって実はちゃんと説明できない人がやる常套手段じゃないかなあ・・・ていうか私がわからなすぎるのか)。

 

この数式をだーっと汚い字であっちこっちに書き散らされ、ついていけなくなった瞬間、高校の数学の時間を思い出してしまいました。

えっえっ、なにそれ、あわあわあわ・・ああもうわからん、あきらめよ・・と授業中に講義を聞き流して寝たり漫画読み始める、みたいな・・・。

 

ビデオ講義だから何度も巻き戻しては復習したけれど、特に毎週のテストで挫けそうになり、脱落しかけました。

 

結局エクセルの機能を自分でいじるような授業ではなく、事前にマクロがいっぱい組み込まれているエクセルをダウンロードして、自分で数値を入れて問題を解いていく課題が多かったかな。

期末テストは、クレジットカードを申し込む顧客のリスク分析。泣きそうになりながら何とか終了。

 

クラスその3:Tableauを使ったデータビジュアル化とコミュニケーション

もう何度やめようかと思いましたが、クラスも3つ目になって環境が大きく変わりました!

ここから講師がチェンジ。この先生が、ものすっごく良かったのです!!

この先生はもともと神経科学の専門家。医療データの分析をずっとやってきて、その後ビジネスや社会学などより広範囲なビッグデータの分析に専門をシフトした人。

実際実務でデータをいじってきた人だったこともあり、ものすごく説明がわかりやすい。

そして教えてくれることが、本当に現実に即していて、実務的。で、ちょっとユーモアもある。

 

習ったのは、Tableauという、データをグラフや色んなビジュアルに変換してくれるソフトウェアの使い方。

実際のインターネット企業が寄付してくれたユーザーデータを使って、ユーザの利用状況や傾向などを実際に解析していくのでなかなか面白かったです。

 

期末テストはさらに面白くて、実際にTableauを使って自分で分析、ビジュアル化したデータを使って、この企業がユーザを増やすにはどうしたら良いのかを、6分間で実際にプレゼンします。

こういうのは仕事でもやってたから楽しかった。

というか仕事でやることを、今仕事が無いからお金を出してまでやってるのがなんだか不思議だったかもw

最後に録画したプレゼンを提出しました。

 

 クラスその4:MySQLを使ったビッグデータ管理

タイトルはなんとなくデータベース管理のように聞こえますが、何の事はない、MySQLでデータを引き出す演習クラス。

これも引き続き同じ先生が担当。

これはもうコマンド入れたらデータがすぐ出て来るから、自分の理解度が一番把握しやすい授業でした。

このきっぱり答えが出る感が気持ちいい。

 

ここでも実際の会社から寄付してもらった情報を使って、データをひっぱってくる練習をしまくりました。

Tableauの演習でも使った企業のデータを、MySQLを使って引っ張ってくる練習。

そして、あるデパートメントストアが大学に寄付したという、売上データ、商品データ、支店データをTeradataを使って引っ張ってくる練習も。

 

MySQLは以前の仕事で使っていましたが、大体毎月必要なデータは決まってるので、一度スクリプトを書いたらそれを使いまわす程度。

また非エンジニアがアクセスできるデータが少なかった・・・。

一方その後働いた会社では、データにはアクセスし放題だったのに、Hiveを使っていたので勝手がわからず活用しきれず。クーっ。

MySQLだTeradataだと、ここでも微妙な違いにイラッ。

 

面白かったのは実際のビジネスで生成されたデータを使ったので、教科書みたいにデータベースやデータがいつも必ずしもキレイではない(誤入力とか、明らかに変なデータがあったり、情報が抜けていたり)というのも身をもって経験できるところ。

でもこういうのって、日頃から使ってないとあっという間に忘れてしまいます。

新しい言語を毎回学習しているエンジニアの人はエライなぁ。

 

でも自分の業務のためのデータが欲しいだけなのに、分析以前にこんなに色々しないといけないのは、やっぱり面倒くさい。

データを引き出すことにこんなにエネルギーを費やすんじゃなくて、本当だったらもっと分析を頑張りたいのになぁ。

例えば図書館にある蔵書の見つけ方がすごくややこしくて、本を読む前にそれを見つける勉強を激しくしないといけない感じ。  

いちいち言語を勉強しなくても、いずれはどんなデータベースでも自然言語処理で簡単に引き出せるようになればいいのになぁ・・・誰か〜!!

こんなの使うかなぁ?というややこしいのも含め、とにかくスクリプトを書いて書いて書きまくった4週間でした。

ためになったけど、例えデータを呼び出すスクリプトを書くだけであっても、自分はエンジニア気質は全くないなという認識も新たにしましたw

クラスその5 プロジェクト

上記4つのクラスを終了すると、今まで学んだことを集大成させて、一大分析プロジェクトをやります。

課題はAirBnBが寄付してくれたデータを使っての分析・・なのですが、私は結局上の4つのクラスを終えたところで子供の夏休みに突入してしまい、最終プロジェクトはサインアップしませんでした。

結局冬から夏まで、かなりコンピューターの前にいた時間が長くて、思ったよりのんびり主婦生活では無かったかも・・。

次回最終回は、クラスメイトや試験のこと、Courseraのシステムについて書こうと思います。