将棋ソフトの棋力計測 (試作品)
実は以前投稿した以下の記事について、初級者用以上のソフトについてもほぼ同様の手法により棋力の測定を試みていました。
手法の面で異なる点は、ソフトRとの関係をBonanza6 D1だけでなく技巧も用いて計算しようとしたことが挙げられます。また、対象ソフト数のみならず相互の対局数も増やしています。
ただ、たとえば技巧のレートが元にした「コンピュータ将棋 まとめサイト」のものより高めに出る傾向がある点など、やや疑義のある結果が含まれます。また、前述の記事の趣旨は「線が無いところにとりあえず線を引いてみる」という類のものであり多少荒くても問題ないところはありますが、今回対象とした棋力帯はそうではないというところに怖さがあり、公開を躊躇っていました。
しかし、数万回におよぶ対局結果をお蔵入りにしてしまうのも勿体無いと思い、思い切って公開してみることにします。
対局時期は2022年1月下旬~3月中旬ごろであるため、以降のソフトウェアのアップデートにより棋力が変わっている可能性があります。また、上記記事の手法では24レートと81レートの高段域の変換で疑義がありましたが、対象ソフトが少ないため特に見直すことなくそのまま使用しています。
なお、uuunuuun Lv*とはuuunuuun氏が24レートとソフトレートの変換を行うために用意したソフトで、「まとめサイト」のレート表では「Lv*(24R****)」などと表示されているものです。
ソフト名 | ソフトR | 24R | 24段級 | 81R | 81段級 |
Gikou 2 (v2.0.2) D8 | 2,567 | 2,825 | 七段 | 2,349 | 七段 |
Bonanza 6.0 D7 | 2,245 | 2,430 | 五段 | 2,198 | 五段 |
Gikou 2 (v2.0.2) D3 | 2,021 | 2,115 | 四段 | 2,078 | 四段 |
ぴよ将棋w Lv30 ピヨ幸 (R1650 三段+) | 2,003 | 2,088 | 三段 | 2,067 | 四段 |
uuunuuun Lv2 | 1,939 | 1,992 | 三段 | 2,030 | 四段 |
ぴよ将棋w Lv27 ひよ花 (R1470 三段) | 1,931 | 1,980 | 三段 | 2,026 | 四段 |
ぴよ将棋w Lv25 ひよ生 (R1350 二段+) | 1,870 | 1,885 | 二段 | 1,989 | 四段 |
きのあ将棋 ブラウザ版 郷谷さん *まじめ | 1,861 | 1,871 | 二段 | 1,984 | 四段 |
将皇(WebGL版) レベル6 | 1,844 | 1,844 | 二段 | 1,974 | 四段 |
きのあ将棋 ブラウザ版 テストロボ 強さ200 | 1,843 | 1,843 | 二段 | 1,973 | 四段 |
将皇(WebGL版) レベル5 | 1,815 | 1,797 | 二段 | 1,956 | 四段 |
uuunuuun Lv2a | 1,804 | 1,779 | 二段 | 1,949 | 三段 |
Bonanza 6.0 D4 | 1,788 | 1,754 | 二段 | 1,939 | 三段 |
きのあ将棋 ブラウザ版 郷谷さん | 1,587 | 1,414 | 2級 | 1,809 | 三段 |
ぴよ将棋w Lv22 ピヨ丸 (R1170 初段+) | 1,579 | 1,399 | 2級 | 1,804 | 三段 |
Gikou 2 (v2.0.2) D1 | 1,544 | 1,337 | 3級 | 1,780 | 二段 |
将皇(WebGL版) レベル4 | 1,543 | 1,336 | 3級 | 1,779 | 二段 |
きのあ将棋 ブラウザ版 ロレンツィオ | 1,543 | 1,335 | 3級 | 1,779 | 二段 |
きのあ将棋 ブラウザ版 揖斐 才蔵 | 1,540 | 1,330 | 3級 | 1,777 | 二段 |
uuunuuun Lv1 | 1,528 | 1,309 | 3級 | 1,769 | 二段 |
きのあ将棋 ブラウザ版 宇氏 みう香 | 1,525 | 1,303 | 3級 | 1,767 | 二段 |
きのあ将棋 ブラウザ版 あひるがあがあじごく | 1,518 | 1,290 | 3級 | 1,762 | 二段 |
きのあ将棋 ブラウザ版 沙流 紀子 | 1,474 | 1,210 | 4級 | 1,731 | 二段 |
将皇(WebGL版) レベル3 | 1,455 | 1,176 | 4級 | 1,718 | 二段 |
きのあ将棋 ブラウザ版 ナカビーⅡ世 | 1,435 | 1,138 | 5級 | 1,704 | 二段 |
ぴよ将棋w Lv20 ピヨ馬 (R1050 初段) | 1,411 | 1,094 | 5級 | 1,687 | 二段 |
きのあ将棋 ブラウザ版 テストロボ 強さ20 | 1,397 | 1,069 | 5級 | 1,677 | 二段 |
uuunuuun Lv1a | 1,385 | 1,045 | 6級 | 1,668 | 二段 |
将皇(WebGL版) レベル2 | 1,331 | 943 | 7級 | 1,629 | 初段 |
Bonanza 6.0 D2 | 1,325 | 931 | 7級 | 1,624 | 初段 |
きのあ将棋 ブラウザ版 揖斐 才蔵 *ゆとり | 1,268 | 820 | 8級 | 1,582 | 初段 |
ぴよ将棋w Lv17 ひよえ (R870 2級) | 1,250 | 784 | 8級 | 1,568 | 初段 |
きのあ将棋 ブラウザ版 郷谷さん *ゆとり | 1,250 | 784 | 8級 | 1,568 | 初段 |
きのあ将棋 ブラウザ版 あひるがあがあじごく *ゆとり | 1,245 | 774 | 8級 | 1,564 | 初段 |
きのあ将棋 ブラウザ版 宇氏 みう香 *ゆとり | 1,217 | 719 | 9級 | 1,543 | 初段 |
きのあ将棋 ブラウザ版 ロレンツィオ *ゆとり | 1,203 | 691 | 9級 | 1,532 | 初段 |
Bonanza 6.0 D1 | 1,101 | 483 | 11級 | 1,453 | 1級 |
きのあ将棋 ブラウザ版 ナカビーⅡ世 *ゆとり | 1,099 | 479 | 11級 | 1,451 | 1級 |
きのあ将棋 ブラウザ版 沙流 紀子 *ゆとり | 1,095 | 471 | 11級 | 1,448 | 1級 |
将皇(WebGL版) レベル1 | 1,088 | 456 | 11級 | 1,442 | 1級 |
ぴよ将棋w Lv15 ひよん (R750 3級) | 1,044 | 364 | 12級 | 1,407 | 2級 |
きのあ将棋 ブラウザ版 クッキー | 993 | 256 | 13級 | 1,366 | 2級 |
Lesserkaikai Lv7 | 990 | 249 | 14級 | 1,363 | 2級 |
きのあ将棋 ブラウザ版 テストロボ 強さ2 | 986 | 241 | 14級 | 1,360 | 2級 |
BlunderXX2012 D1 | 915 | #N/A | #N/A | 1,337 | 3級 |
きのあ将棋 ブラウザ版 空 だめ子 | 845 | #N/A | #N/A | 1,279 | 4級 |
Lesserkaikai Lv6 | 791 | #N/A | #N/A | 1,234 | 5級 |
将皇(WebGL版) レベル0 | 734 | #N/A | #N/A | 1,187 | 6級 |
ぴよ将棋w Lv12 ピヨ介 (R570 6級) | 666 | #N/A | #N/A | 1,131 | 7級 |
ハム将棋 | 615 | #N/A | #N/A | 1,089 | 8級 |
Lesserkaikai Lv5 | 572 | #N/A | #N/A | 1,054 | 8級 |
きのあ将棋 ブラウザ版 のゆぽん(偶数日) | 421 | #N/A | #N/A | 929 | 10級 |
ぴよ将棋w Lv10 ピヨ太 (R450 8級) | 373 | #N/A | #N/A | 889 | 11級 |
きのあ将棋 ブラウザ版 のゆぽん(奇数日) | 343 | #N/A | #N/A | 864 | 11級 |
Lesserkaikai Lv4 | 264 | #N/A | #N/A | 799 | 12級 |
Lesserkaikai Lv3 | 253 | #N/A | #N/A | 790 | 12級 |
きのあ将棋 ブラウザ版 ザザルオ | -49 | #N/A | #N/A | 540 | 14級 |
ぴよ将棋w Lv7 ひよ奈 (R270 11級) | -106 | #N/A | #N/A | 493 | 15級 |
Lesserkaikai Lv2 | -228 | #N/A | #N/A | 392 | 16級 |
ぴよ将棋w Lv5 ひより (R150 13級) | -425 | #N/A | #N/A | 230 | 17級 |
こまお | -502 | #N/A | #N/A | 166 | 18級 |
ぴよ将棋w Lv4 ピヨ之 (R120 13級) | -687 | #N/A | #N/A | 13 | 19級 |
Lesserkaikai Lv1 | -781 | #N/A | #N/A | -64 | 20級 |
ぴよ将棋w Lv3 ひよ香 (R90 14級) | -905 | #N/A | #N/A | -167 | 21級 |
ぴよ将棋w Lv2 ピヨ作 (R60 14級) | -1,089 | #N/A | #N/A | -319 | 23級 |
きのあ将棋 ブラウザ版 クラリア | -1,217 | #N/A | #N/A | -425 | 24級 |
ぴよ将棋w Lv1 ひよこ (R30 15級) | -1,738 | #N/A | #N/A | -855 | 28級 |
Lesserkaikai Lv0 | -1,937 | #N/A | #N/A | -1,020 | 30級 |
(補足)今回のレート表の作り方
上記の表ソフトRの計測方法は、前回記事のように測定されたレート差を元に単純シフトしたものではなく、線形補間による補正を行っています。それを説明するため、まずは補正前の生のレート(Bonanza6 D1=1101として単純シフトのみ行ったもの)を掲載します。
※24R, 81Rは補正後レートの代わりに補正前レートに対して同じ変換式を適用したもののため、前述の表とは結果が異なります。ただ、こちらのほうが肌感覚に合うという方もいらっしゃるかもしれないので、参考として掲載しています。
補正前レート表
ソフト名 | ソフトR | 誤差 | 24R | 24段級 | 81R | 81段級 |
Gikou 2 (v2.0.2) D8 | 2,642 | +59/-52 | 2,907 | 八段 | 2,381 | 七段 |
Bonanza 6.0 D7 | 2,192 | +21/-17 | 2,358 | 五段 | 2,171 | 五段 |
Gikou 2 (v2.0.2) D3 | 2,118 | +18/-19 | 2,255 | 四段 | 2,131 | 五段 |
ぴよ将棋w Lv30 ピヨ幸 (R1650 三段+) | 2,086 | +26/-17 | 2,210 | 四段 | 2,114 | 五段 |
uuunuuun Lv2 | 1,976 | +12/-11 | 2,048 | 三段 | 2,052 | 四段 |
ぴよ将棋w Lv27 ひよ花 (R1470 三段) | 1,962 | +18/-20 | 2,027 | 三段 | 2,044 | 四段 |
ぴよ将棋w Lv25 ひよ生 (R1350 二段+) | 1,856 | +17/-15 | 1,863 | 二段 | 1,981 | 四段 |
きのあ将棋 ブラウザ版 郷谷さん *まじめ | 1,841 | +17/-14 | 1,839 | 二段 | 1,972 | 四段 |
将皇(WebGL版) レベル6 | 1,811 | +12/-21 | 1,791 | 二段 | 1,953 | 四段 |
きのあ将棋 ブラウザ版 テストロボ 強さ200 | 1,810 | +14/-15 | 1,789 | 二段 | 1,953 | 四段 |
将皇(WebGL版) レベル5 | 1,760 | +12/-11 | 1,708 | 二段 | 1,922 | 三段 |
uuunuuun Lv2a | 1,741 | +13/-11 | 1,676 | 初段 | 1,910 | 三段 |
Bonanza 6.0 D4 | 1,714 | +18/-13 | 1,631 | 初段 | 1,892 | 三段 |
きのあ将棋 ブラウザ版 郷谷さん | 1,616 | +17/-10 | 1,464 | 1級 | 1,828 | 三段 |
ぴよ将棋w Lv22 ピヨ丸 (R1170 初段+) | 1,612 | +12/-14 | 1,457 | 1級 | 1,826 | 三段 |
Gikou 2 (v2.0.2) D1 | 1,595 | +14/-14 | 1,428 | 2級 | 1,814 | 三段 |
将皇(WebGL版) レベル4 | 1,594 | +13/-10 | 1,426 | 2級 | 1,814 | 三段 |
きのあ将棋 ブラウザ版 ロレンツィオ | 1,593 | +13/-11 | 1,424 | 2級 | 1,813 | 三段 |
きのあ将棋 ブラウザ版 揖斐 才蔵 | 1,589 | +16/-14 | 1,417 | 2級 | 1,810 | 三段 |
uuunuuun Lv1 | 1,572 | +10/-14 | 1,387 | 2級 | 1,799 | 二段 |
きのあ将棋 ブラウザ版 宇氏 みう香 | 1,567 | +14/-18 | 1,378 | 2級 | 1,795 | 二段 |
きのあ将棋 ブラウザ版 あひるがあがあじごく | 1,557 | +17/-17 | 1,361 | 2級 | 1,789 | 二段 |
きのあ将棋 ブラウザ版 沙流 紀子 | 1,493 | +16/-16 | 1,245 | 4級 | 1,745 | 二段 |
将皇(WebGL版) レベル3 | 1,466 | +12/-11 | 1,196 | 4級 | 1,726 | 二段 |
きのあ将棋 ブラウザ版 ナカビーⅡ世 | 1,436 | +19/-21 | 1,141 | 5級 | 1,705 | 二段 |
ぴよ将棋w Lv20 ピヨ馬 (R1050 初段) | 1,402 | +9/-12 | 1,077 | 5級 | 1,680 | 二段 |
きのあ将棋 ブラウザ版 テストロボ 強さ20 | 1,382 | +12/-16 | 1,040 | 6級 | 1,666 | 二段 |
uuunuuun Lv1a | 1,364 | +9/-15 | 1,006 | 6級 | 1,653 | 二段 |
将皇(WebGL版) レベル2 | 1,286 | +13/-17 | 855 | 7級 | 1,595 | 初段 |
Bonanza 6.0 D2 | 1,277 | +12/-14 | 838 | 8級 | 1,589 | 初段 |
きのあ将棋 ブラウザ版 揖斐 才蔵 *ゆとり | 1,232 | +15/-13 | 749 | 9級 | 1,555 | 初段 |
ぴよ将棋w Lv17 ひよえ (R870 2級) | 1,218 | +11/-10 | 721 | 9級 | 1,544 | 初段 |
きのあ将棋 ブラウザ版 郷谷さん *ゆとり | 1,218 | +22/-21 | 721 | 9級 | 1,544 | 初段 |
きのあ将棋 ブラウザ版 あひるがあがあじごく *ゆとり | 1,214 | +12/-15 | 713 | 9級 | 1,541 | 初段 |
きのあ将棋 ブラウザ版 宇氏 みう香 *ゆとり | 1,192 | +15/-18 | 669 | 9級 | 1,524 | 初段 |
きのあ将棋 ブラウザ版 ロレンツィオ *ゆとり | 1,181 | +15/-21 | 647 | 10級 | 1,515 | 初段 |
Bonanza 6.0 D1 | 1,101 | +0/0 | 483 | 11級 | 1,453 | 1級 |
きのあ将棋 ブラウザ版 ナカビーⅡ世 *ゆとり | 1,099 | +17/-18 | 479 | 11級 | 1,451 | 1級 |
きのあ将棋 ブラウザ版 沙流 紀子 *ゆとり | 1,095 | +20/-15 | 471 | 11級 | 1,448 | 1級 |
将皇(WebGL版) レベル1 | 1,088 | +17/-16 | 456 | 11級 | 1,442 | 1級 |
ぴよ将棋w Lv15 ひよん (R750 3級) | 1,044 | +13/-12 | 364 | 12級 | 1,407 | 2級 |
きのあ将棋 ブラウザ版 クッキー | 993 | +15/-16 | 256 | 13級 | 1,366 | 2級 |
Lesserkaikai Lv7 | 990 | +14/-12 | 249 | 14級 | 1,363 | 2級 |
きのあ将棋 ブラウザ版 テストロボ 強さ2 | 986 | +16/-17 | 241 | 14級 | 1,360 | 2級 |
BlunderXX2012 D1 | 915 | +15/-14 | #N/A | #N/A | 1,337 | 3級 |
きのあ将棋 ブラウザ版 空 だめ子 | 845 | +15/-26 | #N/A | #N/A | 1,279 | 4級 |
Lesserkaikai Lv6 | 791 | +14/-19 | #N/A | #N/A | 1,234 | 5級 |
将皇(WebGL版) レベル0 | 734 | +20/-19 | #N/A | #N/A | 1,187 | 6級 |
ぴよ将棋w Lv12 ピヨ介 (R570 6級) | 666 | +24/-18 | #N/A | #N/A | 1,131 | 7級 |
ハム将棋 | 615 | +17/-19 | #N/A | #N/A | 1,089 | 8級 |
Lesserkaikai Lv5 | 572 | +20/-26 | #N/A | #N/A | 1,054 | 8級 |
きのあ将棋 ブラウザ版 のゆぽん(偶数日) | 421 | +19/-34 | #N/A | #N/A | 929 | 10級 |
ぴよ将棋w Lv10 ピヨ太 (R450 8級) | 373 | +26/-28 | #N/A | #N/A | 889 | 11級 |
きのあ将棋 ブラウザ版 のゆぽん(奇数日) | 343 | +22/-33 | #N/A | #N/A | 864 | 11級 |
Lesserkaikai Lv4 | 264 | +25/-23 | #N/A | #N/A | 799 | 12級 |
Lesserkaikai Lv3 | 253 | +32/-28 | #N/A | #N/A | 790 | 12級 |
きのあ将棋 ブラウザ版 ザザルオ | -49 | +38/-31 | #N/A | #N/A | 540 | 14級 |
ぴよ将棋w Lv7 ひよ奈 (R270 11級) | -106 | +33/-29 | #N/A | #N/A | 493 | 15級 |
Lesserkaikai Lv2 | -228 | +40/-28 | #N/A | #N/A | 392 | 16級 |
ぴよ将棋w Lv5 ひより (R150 13級) | -425 | +33/-35 | #N/A | #N/A | 230 | 17級 |
こまお | -502 | +30/-37 | #N/A | #N/A | 166 | 18級 |
ぴよ将棋w Lv4 ピヨ之 (R120 13級) | -687 | +33/-27 | #N/A | #N/A | 13 | 19級 |
Lesserkaikai Lv1 | -781 | +50/-34 | #N/A | #N/A | -64 | 20級 |
ぴよ将棋w Lv3 ひよ香 (R90 14級) | -905 | +27/-40 | #N/A | #N/A | -167 | 21級 |
ぴよ将棋w Lv2 ピヨ作 (R60 14級) | -1,089 | +44/-43 | #N/A | #N/A | -319 | 23級 |
きのあ将棋 ブラウザ版 クラリア | -1,217 | +67/-39 | #N/A | #N/A | -425 | 24級 |
ぴよ将棋w Lv1 ひよこ (R30 15級) | -1,738 | +71/-98 | #N/A | #N/A | -855 | 28級 |
Lesserkaikai Lv0 | -1,937 | +78/-107 | #N/A | #N/A | -1,020 | 30級 |
ソフトレートを持つソフトに対して、計測された補正前レートとの対応をプロットすると次のとおりです。
なお、以下で現れるソフトレートは「まとめサイト」にて2022年1月ごろに計測されたものであるため、最新のものとは異なります。
概ね傾きが1の直線に乗ってはいるので、大雑把には前述のサイトのレート表が再現できているといえますが、全体的に技巧2のレートが高めに出ている点が気になります。
この結果を、「大雑把には再現できているのだから単純シフトで良いのでは?」と解釈することもできます。そうしてできたのが2個目のレート表です。
一方で、幅広い棋力帯を対象とするなかでBonanza6 D1のレートだけを基準とするのはやや違和感があります。また、技巧が高めに出ているという可能性だけでなく、Bonanzaが低めに出ているという可能性も考えなくてはなりません。
このような観点から、いくつかのソフトのソフトレートを固定(=ソフトレートを補正後レートにそのまま採用)し、その間については線形補間することで作成したものが1個目のレート表になります。
ソフトレートもちのソフトの補正前レートは次のとおり。そのうち、太字のソフトがソフトレートを固定したものです。
ソフト名 | ソフトR | 補正前R |
Gikou 2 (v2.0.2) D8 | 2567 | 2642 |
Bonanza 6.0 D7 | 2245 | 2192 |
Gikou 2 (v2.0.2) D3 | 2021 | 2118 |
YaneuraOu 2017 Early KPP_KKPT 4.76 64AVX2 uuLv2 | 1997 | 1976 |
YaneuraOu 2017 Early KPP_KKPT 4.76 64AVX2 uuLv2a | 1810 | 1741 |
Bonanza 6.0 D4 | 1788 | 1714 |
YaneuraOu 2017 Early KPP_KKPT 4.76 64AVX2 uuLv1 | 1605 | 1572 |
Gikou 2 (v2.0.2) D1 | 1544 | 1595 |
YaneuraOu 2017 Early KPP_KKPT 4.76 64AVX2 uuLv1a | 1354 | 1364 |
Bonanza 6.0 D2 | 1325 | 1277 |
Bonanza 6.0 D1 | 1101 | 1101 |
BlunderXX2012 D1 | 941 | 915 |
(補足)その他気になる点
将皇といえば以下で24レートの検証が行われていますが、古いバージョンのものであり、今回の結果との関係性については良くわかりません。
ぴよ将棋の段位の迷子っぷり(昔の私の記事とも整合していません)やきのあ将棋の同じランクのCPU間の相互関係の意味など、私自身解釈しきれていない部分が多いです。
また、きのあ将棋の先行リリーステスト版についても調査できていません。
将棋ソフトの指し手は序盤・中盤・終盤の棋力のアンバランスさやミスへの辛さが特徴だと思います。
たとえば、今回のレート表で81二~三段に位置づけられるソフトが意味不明な序盤から早々棒銀で破られたり、一目でわかる即詰みを見逃して頓死することもあります。一方で級位者程度のソフトが難解な詰みを読み切ったり、王手飛車などの筋に異常に敏感だったり、級位者では踏み込めないような局面から一方的な攻勢を仕掛けてそのまま押し切ってしまうという例もあります。
そういった点を反映してか、プレイヤーのレーティングを計測するような将棋ソフトでも数回の待ったを認めている例もあります。ミスを待ったで帳消しにしつつ、ソフト側の理解の浅い序盤~中盤で弱みを突くことで格上と思われる相手にも特に歯ごたえ無くあっさり勝ててしまうこともあります。
このようにソフトの棋力というのは人間から見ればアンバランスなものです。今回のレート表はソフト間の相対的な強さは把握できるものの、人間の棋力との対応表という意味ではあまり参考にならないかもしれません。
こまおの棋力は何級なのか
結論
大体18級くらいではないかと思います。
ただ、そもそも級位の尺度は色々あり、とくに低い級位については統一された基準というのがあまりありません。(一応断っておくと、少なくとも将棋倶楽部24の級位ではありません。)これだけだとなんだかよくわからないですよね。過程や背景が気になる人は、以下に進んでください。
背景
初心者の練習相手としては、かつてはハム将棋が良く挙げられていました。このハム将棋に駒落ちで指導してもらい、いよいよ平手で勝てるようになってから対人戦デビュー(=「指す将」へ)、というのが常道でした。このハム将棋は「弱さ」の加減が絶妙である一方、まったくの初心者が勝てるようになるのは中々に大変という問題がありました。その問題を解決するため、さらに弱い練習相手として作られたのが「こまお」です。
このこまおはハム将棋とは比べ物にならないほど弱いものの、駒の損得の判断が正確であり、実はこれでも初心者が勝つのは大変です。ハム将棋より圧倒的に弱いこまおですら、勝つのが大変。これこそが、「観る将」が「指す将」になるハードルの高さではないか?そう思い、こまおの棋力、ひいてはさらに弱い将棋ソフトの棋力を定量的に測定することで、このハードルの高さを可視化しようと考えました。
棋力の測定方法の概要
棋力の定量化として広く用いられるレーティングをここでも使用します。
多数の将棋ソフトを複数回戦わせ、ソフト同士の勝率を算出し、これをもとに相対的なレーティング差を統計的に測定します。
これを「ソフトレート」に変換し、一部将棋倶楽部24レートを経由して、81dojoのレーティングシステム(将棋倶楽部24の段級位、道場の段級位、およびレーティングの関係性について定期的にアンケート調査されるため、信頼度が高い)と照合して段級位に変換します。
ここで「ソフトレート」とは、Ryoto_Sawada氏(Qhapaq開発者)による「コンピュータ将棋 まとめサイト」に基づくものです。
ソフトレート等の計測結果
結果は以下のとおりです。
ソフト名 | ソフトR | 誤差 | 24R | 24段級 | 81R | 81段級 |
Bonanza 6.0 D1 | 1,101 | +0/0 | 483 | 11級 | 1,453 | 1級 |
将皇(WebGL版) レベル1 | 1,067 | +17/-16 | 412 | 12級 | 1,426 | 1級 |
ぴよ将棋w Lv15 ひよん (R750 3級) | 1,035 | +23/-21 | 345 | 13級 | 1,400 | 2級 |
きのあ将棋 ブラウザ版 テストロボ 強さ2 | 1,017 | +20/-14 | 307 | 13級 | 1,385 | 2級 |
Lesserkaikai Lv7 | 993 | +18/-19 | 256 | 13級 | 1,366 | 2級 |
きのあ将棋 ブラウザ版 クッキー | 968 | +29/-15 | 202 | 14級 | 1,345 | 3級 |
BlunderXX2012 D1 | 908 | +14/-14 | #N/A | #N/A | 1,331 | 3級 |
きのあ将棋 ブラウザ版 空 だめ子 | 808 | +16/-24 | #N/A | #N/A | 1,249 | 5級 |
Lesserkaikai Lv6 | 787 | +19/-19 | #N/A | #N/A | 1,231 | 5級 |
将皇(WebGL版) レベル0 | 730 | +13/-25 | #N/A | #N/A | 1,184 | 6級 |
ぴよ将棋w Lv12 ピヨ介 (R570 6級) | 653 | +16/-27 | #N/A | #N/A | 1,120 | 7級 |
ハム将棋 | 594 | +19/-25 | #N/A | #N/A | 1,072 | 8級 |
Lesserkaikai Lv5 | 555 | +20/-26 | #N/A | #N/A | 1,039 | 9級 |
きのあ将棋 ブラウザ版 のゆぽん(偶数日) | 402 | +30/-28 | #N/A | #N/A | 913 | 10級 |
ぴよ将棋w Lv10 ピヨ太 (R450 8級) | 340 | +21/-23 | #N/A | #N/A | 862 | 11級 |
きのあ将棋 ブラウザ版 のゆぽん(奇数日) | 325 | +20/-29 | #N/A | #N/A | 849 | 11級 |
Lesserkaikai Lv4 | 243 | +24/-27 | #N/A | #N/A | 782 | 12級 |
Lesserkaikai Lv3 | 229 | +27/-26 | #N/A | #N/A | 770 | 12級 |
きのあ将棋 ブラウザ版 ザザルオ | -69 | +30/-27 | #N/A | #N/A | 524 | 14級 |
ぴよ将棋w Lv7 ひよ奈 (R270 11級) | -117 | +32/-27 | #N/A | #N/A | 484 | 15級 |
Lesserkaikai Lv2 | -234 | +35/-33 | #N/A | #N/A | 388 | 16級 |
ぴよ将棋w Lv5 ひより (R150 13級) | -443 | +29/-44 | #N/A | #N/A | 215 | 17級 |
こまお | -510 | +26/-44 | #N/A | #N/A | 159 | 18級 |
ぴよ将棋w Lv4 ピヨ之 (R120 13級) | -738 | +36/-49 | #N/A | #N/A | -29 | 20級 |
Lesserkaikai Lv1 | -798 | +40/-35 | #N/A | #N/A | -78 | 20級 |
ぴよ将棋w Lv3 ひよ香 (R90 14級) | -921 | +45/-41 | #N/A | #N/A | -180 | 21級 |
ぴよ将棋w Lv2 ピヨ作 (R60 14級) | -1,089 | +51/-55 | #N/A | #N/A | -319 | 23級 |
きのあ将棋 ブラウザ版 クラリア | -1,225 | +50/-53 | #N/A | #N/A | -431 | 24級 |
ぴよ将棋w Lv1 ひよこ (R30 15級) | -1,750 | +63/-89 | #N/A | #N/A | -865 | 28級 |
Lesserkaikai Lv0 | -1,962 | +96/-116 | #N/A | #N/A | -1,040 | 30級 |
以下、作成過程の説明を行います。
将棋ソフト同士のレート差の測定
こまおや近い棋力の将棋ソフトを戦わせ、uuunuuun氏のスクリプト※によりレート差を計測します。
※以下のサイトのOneDriveのRating site data.zipを勝手ながら使用させていただきました。この場をお借りして感謝申し上げます。
対象ソフトは後述。概ねレート差400以内の組み合わせについて、それぞれ先後入れ替えながら30戦を目安に戦わせます。(少ないので今後増やしたいですが、ブラウザ版ソフトを多数参戦させる都合上、サーバー負荷なども考えればどうしてもじっくり積み上げる必要があります。)
細かいですが、千日手、持将棋、1000手を超えた試合は無効試合とし、勝率計算には含めません。
なお、レート差と勝率の関係は以下を参照ください。
https://uuunuuun.wixsite.com/shogi-engines/blank-7
ソフトレートの計測
上記の手段によりソフト間の相対的なレート差は求まりますが、絶対的な数値として算出するためには基準を定める必要があります。そこで、Bonanza6 D1のソフトレートを基準に、つまりBonanza6 D1のレート=1101と固定して算出します。
基準としてBonanza6 D1を選んだ理由は次のとおりです。
- ソフトレート計測時の状況再現が容易(多くの将棋ソフトはCPUの性能によって思考時間を調節する必要があり、ソフトレート計測時の状況の再現が容易でない)
- 対局数が多くソフトレートが収束していると考えられる
- 適度に弱い(といっても1~2級ほどの実力はあります。あくまで相対的に)
- 定跡により開始局面からの指し手のランダム性がある程度高い(ブラウザ版ソフトを混ぜるため、互角局面集を使うといった対応は難しいです)
- 意外に不自然な手が少なく、どのソフトともバランスよく戦えそう
なお、もととなるソフトレートの表は以下です。
採用ソフト
こまおとBonanza D1のみでは棋力が離れすぎていてレーティングの測定が困難なため、他のソフトを多数追加して間を埋めることにします。
同じく練習用将棋ソフトとして名高い、ぴよ将棋、きのあ将棋、将皇のそれぞれブラウザ版を戦わせます。また、ブラウザではなくFlash Playerで再生することによりハム将棋も参戦させます。
加えて、USI対応ソフトも参戦させます。ソフトレート保持者としてBonanza6 D1のほかにBlunderXX2012 D1も参戦させます。なお、Blunderをレートの基準にしてもよいのですが、Bonanza6 D1に比べて対戦数が少なく、ソフトレートが安定していないと考えました。
さらに弱いLesserkaiやgseは明らかにバグのような手を指すため採用を見送ります。
Lesserkaiのバグとは不自然な探索打ち切りで、具体的には上図のような場面で発生します。深さ4まで探索する設定になっていますが、なぜか▲2三歩が読めていません。棋力は6級くらいのはずですが、その棋力で飛車先を受けないのはありえません。
また、gseは思考打ち切り処理がおかしいのか、駒が取られそうになったときに何もせずに放置する大悪手をしばしば指してくるため、深さ8~9ほどまで読んでいるのにLesserkaiよりもはるかに弱くなっています。
結果としてこまおに近い棋力のソフトがぴよ将棋ときのあ将棋のザザルオ、クラリアくらいしかなく、ソフト間の相性がレーティング計測に影響を及ぼしやすいと考えたため、Lesserkaiの改造版(Lesserkaikai)を8種類投入しました(棋力は30~2級ほど)。
主な改造点は、バグの修正、ノード数や乱数による棋力調節機能の追加と、駒得に偏りすぎていた評価値の調整(駒組みの評価値の重み引き上げ、玉の危険度、大駒の利きによる評価の追加)などです。
ソフトレートと24レートの関係性
以下の記事と同様に、双方のレートが既知の将棋ソフトを抽出して、2次曲線によるフィッティングを行います。
ただし、ソフトレートがこの記事とは相違しているため、回帰係数を求めなおします。
結果は以下のとおりです。
(24レート)=-0.000323692(ソフトレート)^2 +2.78451(ソフトレート)-2190.26
なお、用いたデータとグラフは次のとおりです。
ソフト名 | ソフトレート | 24レート |
Lv3(24R2783) | 2,575 | 2,783 |
Lv3a(24R2648) | 2,377 | 2,648 |
Lv2(24R2098) | 1,997 | 2,098 |
Lv2a(24R1890) | 1,810 | 1,890 |
Lv1(24R1310) | 1,605 | 1,310 |
Lv1a(24R988) | 1,354 | 988 |
kaitei_sdt5(24R783) | 1,261 | 783 |
kaitei-wcsc27(24R321) | 1,005 | 321 |
24レートと段級位との関係性
81Dojoの段級位が一般的に用いられる段級位と近いと考えられることから、81Dojoのレートに変換する事で24レートと段級位の関係性を求めます。
81Dojoのレート・段級位、および24レートの段級位の対応は、以下のページに基づきます。
このうち、81Dojoと24の段級位対応表を階級別のレート中央値で対応付け、1次関数によるフィッティングを行います。
将棋倶楽部24 | 将棋倶楽部24レート | 81Dojo | 81Dojoレート | ||||
段級位 | 下端 | 上端 | 中央値 | 段級位 | 下端 | 上端 | 中央値 |
五段~七段 | 2,400 | 2,900 | 2,650 | 六段 | 2,200 | 2,300 | 2,250 |
五段~四段 | 2,100 | 2,400 | 2,250 | 五段 | 2,100 | 2,200 | 2,150 |
三段~二段 | 1,800 | 2,100 | 1,950 | 四段 | 1,950 | 2,100 | 2,025 |
二段~2級 | 1,350 | 1,800 | 1,575 | 三段 | 1,800 | 1,950 | 1,875 |
3~6級 | 950 | 1,350 | 1,150 | 二段 | 1,650 | 1,800 | 1,725 |
7~9級 | 650 | 950 | 800 | 初段 | 1,500 | 1,650 | 1,575 |
10~14級 | 150 | 650 | 400 | 1~3級 | 1,300 | 1,500 | 1,400 |
結果、以下の関係式を得ます。
(81Dojoレート)=0.382837(24レート)+1267.85
グラフにすると次のとおりです。
ただし、この関係式を用いるのは24レート200以上に限定します。理由は24レート200以下はレートの更新式が異なっており、そのまま外挿したときの変換結果の違和感が大きかったためです。
また、81六段以上もこの関係式を用いるべきではありませんが、記事のスコープ的にはあまり関係ないため置いておきます。
なお、81Dojoの段級位対応表については、記事作成(2022年2月)時点では2020年4月4日に改定された基準が用いられています。
https://81dojo.com/jp/news.html?release=200404
しかし、81Dojoの段級位と町道場の段級位について定量的に言及されたのは以下の2014年の記事が最後のようです。
https://81dojo.com/jp/news.html?release=140906
以降、運営側でどの程度の規模の調査が行われているのかは定かではないですが、将棋連盟による免状発行に用いられること、上記2020年の改定には24レートなど他の基準との照合結果が前提にあると考えられることから、信頼度は記事作成時点でもある程度維持されていると考えます。
24レート200以下の層について
これらの層については級の定義がそもそもあいまいであり、81Dojoの級に変換すること自体に疑義がありますが、とりあえず置いといてまずはレートの変換を行います。
24レート200相当以上のソフトレート⇔81レートの関係式をそのまま適用することも考えられますが、基本は両方とも同じイロレーティングであるため、以降の部分は並行移動させることも考えられます。
ただ、ソフトレート側は本来のイロレーティングよりも「伸びて」いる可能性があります。すなわち、同系のソフトとの対戦を多く含み、相性によりレート差が拡大されている可能性があります。そこで、単に並行移動するのではなく、ソフトレート⇔81レートの関係式の端点付近の傾きのまま直線補外することにしました。(実際の傾きはΔ81レート/Δソフトレート = 0.8263くらいです)
結果、ソフトレートと81レートの関係は以下のようなグラフになりました。
※マーカーはその段位のレート下端
これで81Dojo基準の15級までは対応付けが完了しました。しかしさらに低い級位についても今回は考慮に入れる必要があります。81Dojoの10級以下ではレート100ごとに1級ずつ上がっているので、これをそのまま適用し続けたと仮定して16級以下を設定しました。
さて、この級の定義について少し考えてみます。
81Dojoによる道場段級位との対応付けアンケートでは10級までを対象としています。そのため、10級まではおそらく世間一般的な基準になっているのだろうと思います。
問題になるのは以降の級位です。すなわち、1級差=レート差100(高いほうが大体勝率6~7割くらい)という仮定での拡張が妥当かということです。
参考にできそうなのは将棋倶楽部24のレートです。「初心」という段位を15級の下に設定したことを踏まえれば、創設時はちゃんと世間の段級位と対応付けながら、はじめたばかりの初心者も指せるようにするつもりだったのではないかと考えられます。その際に、レート差100=1級差というのが初心者層での妥当な間隔だというコンセンサスがどこかで得られていたはずです。
さらに、81Dojoの10級以下の間隔を敢えて9級以上とは異なるものにしていることから、これについても何らかのコンセンサスが得られていたのではないかと考えます。
したがって、この拡張にあまり違和感はないものと考えます。
なお、初心者の級位については以下の記事でも詳しく述べられていてますが、そこでも同じ仮定が置かれています。
レート対応表まとめ
以上によってソフトレート、81Dojoレート、将棋倶楽部24レート、そして段級位が対応付けられました。これをまとめると次のとおりです。これで、こまお含めた将棋ソフトの段級位を設定することができました。
段位 | ソフトレート | 81Dojoレート | 24レート | |||
下端 | 上端 | 下端 | 上端 | 下端 | 上端 | |
七段 | 2,456 | - | 2,300 | - | 2,696 | - |
六段 | 2,249 | 2,456 | 2,200 | 2,300 | 2,435 | 2,696 |
五段 | 2,061 | 2,249 | 2,100 | 2,200 | 2,174 | 2,435 |
四段 | 1,805 | 2,061 | 1,950 | 2,100 | 1,782 | 2,174 |
三段 | 1,574 | 1,805 | 1,800 | 1,950 | 1,390 | 1,782 |
二段 | 1,360 | 1,574 | 1,650 | 1,800 | 998 | 1,390 |
初段 | 1,161 | 1,360 | 1,500 | 1,650 | 606 | 998 |
1級 | 1,066 | 1,161 | 1,425 | 1,500 | 410 | 606 |
2級 | 974 | 1,066 | 1,350 | 1,425 | 215 | 410 |
3級 | 913 | 974 | 1,300 | 1,350 | #N/A | 215 |
4級 | 853 | 913 | 1,250 | 1,300 | #N/A | #N/A |
5級 | 792 | 853 | 1,200 | 1,250 | #N/A | #N/A |
6級 | 732 | 792 | 1,150 | 1,200 | #N/A | #N/A |
7級 | 671 | 732 | 1,100 | 1,150 | #N/A | #N/A |
8級 | 611 | 671 | 1,050 | 1,100 | #N/A | #N/A |
9級 | 550 | 611 | 1,000 | 1,050 | #N/A | #N/A |
10級 | 429 | 550 | 900 | 1,000 | #N/A | #N/A |
11級 | 308 | 429 | 800 | 900 | #N/A | #N/A |
12級 | 187 | 308 | 700 | 800 | #N/A | #N/A |
13級 | 66 | 187 | 600 | 700 | #N/A | #N/A |
14級 | -55 | 66 | 500 | 600 | #N/A | #N/A |
15級 | -176 | -55 | 400 | 500 | #N/A | #N/A |
16級 | -297 | -176 | 300 | 400 | #N/A | #N/A |
17級 | -418 | -297 | 200 | 300 | #N/A | #N/A |
18級 | -539 | -418 | 100 | 200 | #N/A | #N/A |
19級 | -660 | -539 | 0 | 100 | #N/A | #N/A |
20級 | -781 | -660 | -100 | 0 | #N/A | #N/A |
21級 | -902 | -781 | -200 | -100 | #N/A | #N/A |
22級 | -1,023 | -902 | -300 | -200 | #N/A | #N/A |
23級 | -1,144 | -1,023 | -400 | -300 | #N/A | #N/A |
24級 | -1,265 | -1,144 | -500 | -400 | #N/A | #N/A |
25級 | -1,386 | -1,265 | -600 | -500 | #N/A | #N/A |
26級 | -1,507 | -1,386 | -700 | -600 | #N/A | #N/A |
27級 | -1,628 | -1,507 | -800 | -700 | #N/A | #N/A |
28級 | -1,749 | -1,628 | -900 | -800 | #N/A | #N/A |
29級 | -1,870 | -1,749 | -1,000 | -900 | #N/A | #N/A |
30級 | -1,991 | -1,870 | -1,100 | -1,000 | #N/A | #N/A |
おわりに
このように、初心者向けといわれた将棋ソフトが3~30級程度に分布しており、その実かなりの実力差があることがわかりました。
初心者の級位については先ほど紹介した記事では30級以上と考察されていますが、駒落ちに基づいて考察された以下の記事もあり、こちらでもおおよそ30級ほどとされています。
今回測定した級位での30級というのがこの初心者の棋力に相当しているかは定かではないものの、「初心者」とされる棋力の幅広さと、ネット対戦デビュー可能な実力(8~9級)までのあまりの道のりの長さが改めて浮き彫りになったのではないかと思います。
それでも、ぴよ将棋を初めとしてこれらの棋力帯に対応したスマホアプリやブラウザソフトが整備されてきたのは非常に評価されるべき動きだと思います。ハム将棋1強だったころからずいぶん変わりました。自分が初心者のころにこんなソフトに出会えていれば、と思うソフトばかりです。この記事は、そういったソフトにスポットライトを当てる意味合いもあります。
※もちろんちゃんと探せばそれらの棋力のソフトはいくらでもあるものの、事前に強さがわからない(ただ弱いとだけ書かれている)、いちいちDLしないといけない、有料であるなどの点で、初心者が気軽に手を出すにはハードルが高いものがこれまでは多かったように思います。
将棋の棋力(レーティング)変換表
まじめに議論するととても荒れそうな話題であるため本来触るべきではないのだろうけれど、叩かれ台的なものすらなかなか見つけられない状況だったので作ってみる。(これが叩かれることによってより良いものになるのなら…。)
下部に大まかな作り方を記載。元となった情報の確度にはかなり差があるので、取扱い注意。
これを使用したことによるいかなる不利益に対しても筆者は責任を負いませんので悪しからず。
○アマチュアR変換表
(参考)将棋ウォーズの終盤力と段級位(達成率)対応表
※3つの持ち時間でもっとも高い段位と対応させる。
※終盤力と段級位(達成率)は非常に強く相関するものの、ぴったり対応しているわけではない様子。
○プロR変換表
○作り方
以下のとおり、情報の確度にはかなり差がある。取り扱い注意。
・24R to 81R:公式の変換表に基づき変換(代表値をもとに直線による最小二乗法で変換)
・24R to 将棋ウォーズ段級:以下のアンケートに基づき変換(代表値を直線補間したもの、ただし五段超は直線補外)
※データがそれなりに古い。24ではレーティングの「インフレ」(同じレートでも昔より今のほうが弱い)または「デフレ」(同じレートでも昔より今のほうが強い)、将棋ウォーズではレーティングの「デフレ」(同じ段級でも昔より今のほうが強い)があるという報告が散見され、昔のデータをそのまま使うことには疑問が残るものの、現状(2021年夏)と大きく乖離しているようにも思えないため一旦存置。
・24R to ぴよ将棋R:24R to ソフトRを以下のサイトに基づき変換、ソフトR to ぴよ将棋Rを自分のPC/スマホで対局させることにより変換(両方のRを持つソフトについて直線による最小二乗法を用いることで変換)。
※正直かなり怪しい。理由は以下のとおり。
・ぴよ将棋はバージョンやスマホの性能によって、同じレーティングでも棋力が変わるようだ。レーティングと段位の対応表がたまに変更されていることにも留意。
・PCの性能を一致させたり、多数の組み合わせで多数の対局をさせなければソフトRを基準とすることにも意味がない。K-Shogi 3.2.0 Lv1 , Lv6 , BonanzaD* などはPCの性能にあまり依存しないと思われたのでこれらを中心に対局させてみたものの、局数は各組み合わせで10~20局程度で、まったく十分ではない。
・将棋ウォーズの終盤力と段位対応表:おおむね以下のサイトを参考にしつつ実際のデータを用いて補整(実績値をもとに直線による最小二乗法で変換)。
将棋ウォーズ昇級、降格基準は?達成率が20%に上がらない!?? | ゼロから始める将棋研究所
・24Rの無いゾーン(15級未満):適当。ウォーズ1~3級相当の部分から概ね定率で伸ばした。
※個人的にウォーズの級位×2≒道場の級位ではないかと思っているので、概ねその思想に沿って伸ばしたもの。
※利用者の検証の補助とするため、弱いソフトの道場の級位を推定した(弱いぴよ将棋との対局によりぴよ将棋RとソフトRを計算し、レーティングシフトにより81dojoRを推定)。結果は以下のとおり。
・こまお:道場15級
・将皇入門編:道場12級≒ウォーズ6級
・将皇Lv0:道場10級≒ウォーズ5級
・ハム将棋:道場8級≒ウォーズ4級
・24R to プロR:以下を参照。
・24R to 奨励会・研修会:以下を参考にざっくり配置。
将棋の段位・レベルの目安やアマとプロの差など | ざっきーぶろぐ
https://8819.teacup.com/kifucollector/bbs/mobile/index/detail/comm_id/626/?fontsize=1
※情報があまりに少なく、このようなものを参照せざるを得なかった…。
・プロR to 女流R:女流タイトルホルダー≒奨励会三段 と以下の棋士非公式レーティングサイトより、女流タイトルホルダー≒女流R1950≒奨励会三段≒プロR1450とした。
・プロR等 to プロ・女流順位: 同じく棋士非公式レーティングサイトを参考にざっくりクラス分け。
○想定QA
・Q.なんでぴよ将棋なんか載せているのか? A.それがの動機だったためです。ぴよ将棋レーティングに関してまったくといっていいほど情報がなかったことから、これに対する対応表を作ろうと思ったことが動機です。
・Q.将棋クエストは? A.力尽きました。
・Q.ウォーズ段位は棋神をどう考慮しているのか? A.その段位の免状取得を目指す者による「一般的な使用率」であることを想定しています。
・Q.筆者の棋力は? A.お察しください。
・Q.アンケート調査による補完や持ち時間・年代による差異の反映など、もっと多面的な検証を行わないのか。A.やれる気力と時間があればやっています。
・Q.あまりに手法・元データが怪しすぎる。チェックしてやるからデータよこせ。A.突っ込みどころ満載のガバガバ対応表でごめんなさい(´・ω・`)(本当に意欲のある方でしたら惜しみなく協力いたします)
○その他参考