"データが得られずに" の部分が良く理解できていませんが、アプリで作成するエージェントは特定の環境に異存している物では有りません。
環境の作成方法は色々ありまして、時間に沿ったシミュレーションを行う環境でしたら Simulink で作成したり、そうでなければ MATLAB で作成するなど様々んです。action を加えることができ、そこから報酬と状態を取り出すことが出来れば環境としては満足しています。
上手く動作しないのは、適当なアルゴリズムが選択できていない、適当な方策の表現方法が選択出来ていない、学習パラメータが適当に設定されていない、そして一番多いのが報酬が上手く設定されていない ... 色々と原因が考えられます。
報酬の設定で四苦八苦されるパターンが多く、この reward shaping が強化学習の鍵です