Yolo-LSTM+PANetが開発中 - 普通の人間が普通のことを書くブログ

github.com

久しぶりにYoloのGitHubを覗いてみたところ、PANetをバックボーンとしたYolo-LSTMが開発されていた。PANetはCOCO 2017のInstance Segmentation taskで1位、Object Detection taskで2位を取ったモデルのようだ。

arxiv.org

PANetにConvolutional-LSTMを組み合わせることで、動画（連続したフレーム）の物体検出精度を高め、blinkingの問題を解消したのがYolo-LSTMらしい。

上記GitHubには各モデルの推論速度（RTX2070使用時）、mAPが記載されている。独自のデータセットを使って学習した結果なので、mAPの値を見てもピンとこないが、yolo_v3_tiny_pan_lstm.cfgがなかなか良いのではないかと感じた。yolo_v3_tiny_pan_lstm.cfg.txtをダウンロードすると分かるが、入力サイズが544x544になっており、この入力サイズ（リアルタイムの物体検出で使うサイズとしては割と大きめ）で推論時間14.7ms（約68FPS）でそこそこの精度で物体検出ができるのは魅力的。

しかし、このモデルを使って学習するには、動画（連続したフレーム）からデータセットを作る必要があるらしく、アノテーションのコストが大きい。でもそのうち試したい。。

GPUではなく、RasPiなどの組み込み向けのCPUで動かした推論速度がどの程度なのか気になるが、ネットで調べても全然情報が出てこないので自分で試すしかないか・・・