シチズン・データサイエンティスト研修について

はじめに

データサイエンティストという職業はビッグデータの登場とともに2010年前後に現れ以降のAI及びデータサイエンスブームの中心的な役割を担うようになりました。 サイエンティストとあるように当初これらの職種の担い手は大学院や実務で専門的な教育を受けた一部に限られたものでした。しかしデータストレージの廉価化やクラウド化により多くの企業がデータを活用することが可能になると、その過程でデータを活用したオペレーションの需要が高まり、ジェネラリストとしてのデータサイエンティストが必要とされるようになりました。 このようなデータ民主化の時代背景を受け、弊社ではジェネラリストのためのデータサイエンス教育が必要と考え「シチズン・データサイエンティスト研修」をリリースしました。

研修の特徴

概要

弊社研修は限られた短期間で(3-6ヵ月)でジュニアクラスをシニアクラスにまで効果的に育成することを目的としています。 現在多くの企業でデータ解析人材が不足しています。これは大きく経験者の採用が困難であること、体系化された教育マニュアルがないことが要因と考えます。弊社研修はこのような現状に対して有効なソリューションです。

弊社定義スキルレベル

DS協会のレベル段階はやや細かく、また汎用的であるため事業によっては関連が薄いと思われる項目もある。従ってDS協会の軸をそのまま踏襲しつつ、弊社でスキル定義を再考しました。弊社研修はメンバー全員がシニアスキルを目指します。
項目レベル内容
ビジネス力3・プロジェクト全体を俯瞰すること事ができる。
・分析結果から顧客価値を創出する。
・レベル1/2の成果物の評価を行える。
2・構造化された事実から仮説を構築できる。
・仮説より分析すべき対象データ/分析方針/を立てることができる。
1・顧客の顕在要望をヒアリングできる。
・事実を構造化することができる。
データサイエンス力3・主たる確率統計の機械学習の知識を自由自在に扱える。非定型的な分析に対して適切な手法を選択できる。
・必要に応じて関連論文を読み解きプロジェクトに適用する。
2・基本的なモデル(線形回帰/ロジスティクス回帰/決定木/k-mean)作成と評価が行える
・前処理手順を適切に自分で考えることができる。具体的にはデータ加工/欠損処理/異常値処理/スケール変換/変数作成をデータや目的に対して行うことができる。
1・データを適切なツールに読み込める。
・データの要約統計量を計算できる。
・言われた前処理を適切にできる。
データエンジニアリング力3・分析基盤を構築できる。
・新しい手法を実装できる。
2・自由自在なデータ加工をPythonで行う事ができる。
・コピペなしで0からプログラムをかける。
1・Python/Pnadas/Numpy を検索しながら書ける。
弊社定義スキルレベルの合計によりジュニア(3以下)/シニア(4-6以下)/チーフ(7以上)とクラスを分けます。 但しこれはデータサイエンスの実務に対するスキルクラスであり所属会社の職位とは無関係です。 (参考) データサイエンティスト協会スキル定義より http://www.datascientist.or.jp/symp/2019/pdf/1115-1155_skill.pdf p6より 注意オリジナルのリンク先がなくなっているため

特徴

弊社データサイエンス研修は以下の3つの特徴を持ち、お客様の課題に対応します。
①全11回(予定)の短期集中研修②実務歴10年超の講師による実務の現場で活きる内容をレクチャー
③テキストをのご提供。
短期集中で育成までのリードタイムを短縮します。
サイクルが短いので来期人材計画に本研修を織り込むことも可能です。
実務で使えない知識は教えません。
貴社ドメインを考慮した講義を行います。
研修終了後も参照できる質の高いテキストをご提供。
対応課題
ジュニア採用、短期間での育成。
対応課題
ジュニア採用、短期間での育成。
体系化された方法論で全員のスキルを向上させる。

対応課題
体系化された方法論で全員のスキルを向上させる。

研修予定表と内容

全部で11講、時間にして13時間程度を頂く予定です。構成としては通しで2日間、もしくは周1コマ90分を11回(およそ3カ月)などお客様のご都合に合わせた構成で対応可能です。
講義番号大項目小項目
第1講オリエンテーションビジネスにおけるデータ解析の役割
第2講エンジニアリングPython基礎
第3講エンジニアリングNumpy,Pandas基礎
第4講エンジニアリングデータラングリング
第5講アナリティクスデータ前処理1
第6講アナリティクスデータ前処理2
第7講ビジネスロジカルシンキングとプロジェクトマネジメント
第8講ビジネスデータ分析PJのフレームワーク
第9講アナリティクス統計学の基礎
第10講アナリティクス確率論の基礎
様々な確率分布
第11講アナリティクス統計モデルと機械学習

実施方法・価格

  • お客様オフィスへのご訪問(恐縮ですが、会議室のご用意をお願いいたします)
  • zoomウェビナー機能を活用したオンライン受講
価格に関しましては恐縮ですが、当HPお問い合わせフォームもしくは下記Facebook/Twitterの弊社公式アカウントへのDMでお問い合わせください。

書籍出版のお知らせ

弊社代表取締役・漆畑充が共著した書籍『現場のプロが伝える前処理技術』が2020年8月31日にマイナビ出版より発売されます。

出版背景

機械学習を行うにあたりに『前処理』は重要な作業です。一方で案件ごとに処理の方向性が違ってくることからその一般論を構築するのは困難です。従って日々試行錯誤しながら臨機的に『前処理』を行っているのが現状ではないでしょうか。 このたび著者らはその中でも比較的汎用性のある『前処理技術』をまとめ、少しでも現場で役に立つ本を出版しようと考えました。

本書構成

読書対象者

『現場のプロが伝える前処理技術』は主に「初心者」を対象とした『前処理技術』の自主学習用の参考書です。また中級者の方が知識を体系化するためにも使えるようになっています。

内容と構成

何も手が加えられていないデータは複雑で不完全で構造化されておらず、そのままでは利用できません。この“そのままでは利用できないデータ”のことを「ダーティデータ」と呼び、これを利用できるものにするための作業を「前処理」と言います。データを利用して分析するためには「前処理」作業が絶対に必要となります。本書はデータの「前処理」における必要な知識を実践的にまとめ、「ダーティデータ」を扱う際に発生する問題とその対処法について分かりやすく解説しています。 <本書の構成>
  • はじめに
  • Chapter1 本書について
  • Chapter2 テーブルデータの前処理
  • Chapter3 自然言語の前処理
  • Chapter4 画像データの前処理
  • Chapter5 業界別データ活用動向
  • Appendix
問題解決の一助となる1冊になることを願っています。 ご予約はこちらまで。 書名:現場のプロが伝える前処理技術 ~基礎から実践まで学ぶ テーブルデータ/自然言語/画像データの前処理 著作者名:石井 大輔(Team AI 代表)、漆畑 充(株式会社Crosstab)、 及川大智、 大下健史(BCI)、 オング優也 出版社:マイナビ出版 (2020/8/31) 書籍:3,762円 B5変型:360ページ ISBN:978-4-8399-7001-7 発売日:2020年08月31日

Twitterを開設しました。

弊社Twitterアカウントを開設しました。

Instagramを開設しました。

弊社のInstagramアカウントを開設しました。