JRA-VANの繁殖馬マスタにある「繁殖登録番号」ってデタラメなんですよ。何がデタラメかというと現実世界では同じ種牡馬なのに、システム上は馬記号の違いで異なる繁殖登録番号が競走馬マスタの血統情報に設定されてる場合があるんです。そんなもの使ってデータ分析して何の意味があるんですか。なので私が種牡馬データ分析するときは異なる繁殖登録番号を、あるべき「統一した繁殖登録番号」に読み替えてくれる「繁殖登録番号マスタ」と名付けたオリジナルデータを使って集計しています。この記事では、その「繁殖登録番号マスタ」を作成するプロシージャを有料会員の皆さんに提供します。JRA-VANデータを書き換えることは無く、専用のテーブルにデータを作成するので安全です。対象データは、異なる繁殖登録番号を持つ種牡馬データのみです。
どんな内容のデータか、もっと具体的に紹介します。下図が「繁殖登録番号マスタ」ですが一番左の列は、元々の一意性制約のある「繁殖馬マスタの繁殖登録番号」で、左から二番目の列が、あるべき「統一した繁殖登録番号」です。人間が見ると同じ種牡馬だと分かるのにカナ表記と英字表示の違いで繁殖登録番号も違ってるでしょ?ここで見せているデータは懐かしい種牡馬ばかりですが、最近の繁殖馬マスタにも同じパターンのデータがたくさんあります。あの大種牡馬ディープインパクトにさえも…。
SQLファイルはテーブル作成とプロシージャ作成のセットです。PostgreSQLでプロシージャを自作する場合の参考にもなります。
余談ですが関係者から聞いた話によると「血統登録番号」と「繁殖登録番号」は馬産地のシステムが決めた値を使ってるそうです。なのでデータのデタラメはJRA-VANが悪いんじゃありません。
コメント