『データマネジメントが30分でわかる本』 を読んだので、書籍から得た知見をご紹介します。
自分がソフトウェアエンジニアのキャリアを歩んおり、データマネジメントについてはあまり詳しくなくずっと「データマネジメントについて学びたい」と考えていたところ、この書籍が Kindle Unlimited 読み放題にあったので読みました ?
目次 & 章末チェックリスト
【01:データアーキテクチャ】 ・データが発生してからビジネスに活用されるまでのアーキテクチャ図はあるか? ・アーキテクチャの改善計画はあるか?
【02:データストレージとオペレーション(DB)】 ・ライフサイクル全体に渡ってデータを適切に保存しているか? ・データベース、ストレージの保守運用は十分に安定しているか?
【03:データ統合と相互運用性(ETL)】 ・必要なフォーマットとタイミングでデータを安全に提供できているか? ・データ統合のコストと複雑性を十分に削減できているか?
【04:データモデリングとデザイン(ER)】 ・データの関連性を概念レベル、論理レベル、物理レベルで描けているか? ・データモデルの更新や参照は十分に効率化されているか?
【05:マスターデータ管理】 ・マスターデータを正式なソースとして社内各所で利用できているか? ・マスターデータの更新や参照は十分に効率化されているか?
【06:ドキュメントとコンテンツ管理】 ・ドキュメントを効果的かつ効率的に蓄積、検索、利用できているか?
【07:データセキュリティ】 ・プライバシーと機密性に関する規制、ポリシーの遵守が十分になされているか? ・プライバシーと機密性に関するアクセス制限、監査が十分になされているか?
【08:データ品質管理】 ・データ品質(サービスレベル:SLA)の基準、要件、仕様について定義できているか? ・定義の更新・測定・レポート・改善を継続的に実施できているか?
【09:データウェアハウジング(DWH)とビジネスインテリジェンス(BI)】 ・データ利用者は効果的かつ効率的に分析と意思決定を行えているか?
【10:メタデータ管理】 ・様々なデータソースのメタデータを十分に収集・統合できているか? ・メタデータにアクセスするための標準的な方法を提供できているか?
【11:データガバナンス】 ・データ資産を管理するための役割分担、権限付与が十分になされているか? ・データマネジメントに関するルール、ポリシー、プロセス、評価、ツール、責任について関係者合意は取れているか? ・データの利活用は計画通りに進んでいるか?
以下、印象に残った箇所の引用とメモです。
最大の懸念事項は「クラウドでオンプレと同等のデータ保護は可能か」でした。 提供されている利用者制限・権限管理機能を使えば、最低限のデータ保護は実現できます。 また、事前対応(予防)だけでなく、事後対応(調査)の観点も重要です。多くのクラウドサービスは手軽に監査ログを取得できます。 何らかの作業ミスによる障害発生の可能性はゼロではありませんが、それはオンプレも同じことです。
? データセキュリティについての実務観点での見解が知れたのは有り難いです。
気軽にデータを参照するために、 DWHに個人情報を含むのは避けたいものです。一方で案件によってはセキュアなデータを扱うこともあります。そのユースケースに対して、筆者はこの二重構成で設計することが多いです。セキュア環境の用意
事業DB (元データ)
↓ コピー
DWH 個人情報あり
↓ マスキング
DWH 個人情報なし
? DWH を個人情報あり・なしと二重構成で設計するというのは、実務観点で現実的なアプローチなので採用したいと思いました。
データマネジメント全般についてサクッとインプットできたので、入門書としてオススメしたいと思いました。
この本でキーワードを知れたので、データマネジメントを実践しつつ、学習範囲を広げていきたいです。
ゆずたそ氏の Machine Learning Casual Talk でのお話が事例が分かりやすかったので、あわせて読むとおすすめです ??
以上、データマネジメントを学んでいきたい、現場からお送りしました。