Reading Notes: 'Infrastructure Design Theory - From Requirements Definition to Operations and Maintenance'
I read ‘Infrastructure Design Theory - From Requirements Definition to Operations and Maintenance’ (『要件定義から運用・保守まで全展開 - インフラ設計のセオリー』), so I’ll share the insights I gained from the book.
An SRE who helps with side projects recommended it to me, so I read it 📚
Below are quotes and notes from parts that left an impression on me.
To prevent the risk of misalignment (gaps) in understanding between clients and contractors regarding non-functional requirements, and to prevent misunderstandings from going unnoticed during development, as well as to prevent omissions in non-functional requirements definition, there exists a tool called non-functional requirements grades.
(非機能要求における発注者と受注者との認識の行き違い(ギャップ)や、互いの意図とは異なる理解をしたことに気づかないまま開発が進んでしまうリスクを防止すること、および非機能要件の定義漏れ防止を目的として、非機能要求グレードと呼ばれるツールが存在します。)
💡 I want to utilize non-functional requirements grade tools.
To calculate uptime, first define the denominator "time the service should be provided." For example, whether it's weekdays 9 AM to 5 PM, or 24/7 continuous operation. Then, among the "time the service should be provided" defined above, the percentage of "time the service was actually available" becomes the uptime.
(稼働率を求めるには、まず分母となる「サービスを提供すべき時間」を定義します。例えば、週5日9時~17時とするか、24時間365日連続稼働とするかということです。そして、上記で定めた「サービスを提供できる時間」のうち、「実際にサービスが利用できた時間」の割合が稼働率になります。)
💡 When I was developing global cross-border EC, “time the service should be provided” = “24/7,” so this concept had completely slipped my mind. This was good input.
・What hours should the system provide service? ・What content should various system backups include, how frequently should they be taken, and how long should they be stored? ・How specifically should system monitoring be performed? ・When stopping the system for maintenance, when and what time periods should "system downtime" occur? ・What support structure should be used for actual operations? ・What parts should be automated to reduce operator burden?
(・システムとして何時から何時までをサービス提供時間とするのか? ・システム内の各種バックアップは、どのような内容をどの程度の頻度で取得し、どれくらいの期間保管すればいいのか? ・システムの監視は、具体的にどのように行えばいいのか? ・メンテナンス等でシステムを停止する場合の「システム停止時間」は、いつどのような時間帯になるのか? ・実運用は、どのようなサポート体制で実施していくのか? ・運用者の負荷を軽減するため、どのような部分を自動化するのか?)
That’s all from the Gemba on wanting to master the theory of infrastructure design.