WEOT06  加速器制御  9月2日 講演会場2 17:10-17:30
強化学習による実プラント設備への適用検証
Applying reinforcement learning to real equipment system for process control
 
○高見 豪,旭沢 仁(横河電機株式会社),松原 崇充(奈良先端科学技術大学院大学)
○Go Takami, Hitoshi Asahizawa (Yokogawa Electric Corporation), Takamitsu Matsubara (Nara Institute of Science and Technology)
 
従来より加速器の制御システムには多くのPLCが使用されてきた。 これに加えて、近年ではデータ収集システムにも多く使われるようになっており、例えばビームモニター用途として加速器中のビーム位置を 一定周期で計測することにも使用されている。 今後はその結果をもとにビームロスを自動調整するなど、単なる制御ではなくリアルタイムに収集したデータをもとにフィードバックをかけるなどの用途が期待されている。リアルタイムに収集した多くのデータを活用する技術として、機械学習の技術が考えられる。 機械学習には試行錯誤によって最適な行動規則を学習する強化学習という技術がある。従来の強化学習技術では現実の設備に対して適用することが困難であるとされてきた。強化学習では膨大なサンプル数が必要となるため、実化学プラントへの応用可能性があまり検討されていない。 一方で近年サンプル効率の高い強化学習アルゴリズムが提案されている。我々は強化学習を使ったプラント最適運転の研究を進めており、シミュレータでの有効性を確認している。そこで本研究ではシミュレータではなく、現実の設備である三段水槽に強化学習を適用した。従来のPLCで実施されるPID制御と強化学習による制御を比較し、強化学習の有効性を紹介する。