Abstract
The modeling and control of genetic regulatory networks carries tremendous potential for gaining a deep understanding of biological processes, and for developing effective therapeutic intervention in diseases such as cancer. A dynamical programming control has been proposed for determining an optimal intervention policy to shift the steady-state distribution of the network. The dynamic programming solution is, however, computationally prohibitive for large gene regulatory networks, as its complexity increases exponentially with the number of genes. Since the number of genes considered is directly related to the accuracy of the model, it is imperative to be able to design optimal intervention policies that can be reasonably implemented for large gene regulatory networks. To this endeavor, we will design a neural dynamic programming controller to optimize the same dynamic programming performance measure, while requiring only a polynomial time complexity. The proposed neural dynamic programming structure includes two networks: action and critic. The critic network is trained toward optimizing a total reward to objective, namely to balance the Bellman equation. The action network, constrained by the critic network, generates the optimal control strategy. Both the control strategy and the critic output are updated according to an error function that changes from one step to another. General theory of non-homogeneous Markov chain will be used to find the optimal strategies of non uniform policy method.
Abstract
لنمذجة والتحكم في الشبكات التنظيمية الوراثية يحمل إمكانات هائلة الكتساب فهم عميق من العمليات البيولوجية، والتدخل
العالجي لتطوير فعالية في أمراض مثل السرطان. وقد تم اقتراح برمجة التحكم الديناميكي لتحديد سياسة التدخل الامثل لتحويل توزيع ثابتة للدولة للشبكة. الحل البرمجة الديناميكية، مع ذلك، باهظة حسابيا لشبكات الجينات التنظيمية الكبيرة،
وتعقيدها يزيد أضعافا مضاعفة مع عدد من الجينات. منذ يرتبط ارتباطا مباشرا على عدد من الجينات التي تعتبر دقة
النموذج، ال بد أن تكون قادرة على وضع سياسات التدخل األمثل التي يمكن تنفيذها بشكل معقول لشبكات الجينات التنظيمية
الكبيرة. في هذا المسعى، ونحن تصميم العصبية البرمجة الديناميكية تحكم لتحسين أداء نفس اإلجراء البرمجة الديناميكية،
في حين ال تتطلب سوى تعقيد الوقت متعدد الحدود. هيكل المقترح العصبية البرمجة الديناميكية تضم اثنين من الشبكات:
العمل والناقد. يتم تدريب نحو تحسين شبكة الناقد مكافأة إلجمالي الهدف، أال وهو تحقيق التوازن في المعادلة المنادي. شبكة
العمل، مقيدة شبكة الناقد، يولد استراتيجية التحكم األمثل. يتم تحديث كل من استراتيجية السيطرة وإخراج الناقد وفقا لوظيفة
من الخطأ أن التغييرات خطوة واحدة إلى أخرى. وسوف تستخدم النظرية العامة للسلسلة ماركوف غير متجانسة للعثور على
استراتيجيات األمثل لألسلوب غير سياسة موحدة.
العالجي لتطوير فعالية في أمراض مثل السرطان. وقد تم اقتراح برمجة التحكم الديناميكي لتحديد سياسة التدخل الامثل لتحويل توزيع ثابتة للدولة للشبكة. الحل البرمجة الديناميكية، مع ذلك، باهظة حسابيا لشبكات الجينات التنظيمية الكبيرة،
وتعقيدها يزيد أضعافا مضاعفة مع عدد من الجينات. منذ يرتبط ارتباطا مباشرا على عدد من الجينات التي تعتبر دقة
النموذج، ال بد أن تكون قادرة على وضع سياسات التدخل األمثل التي يمكن تنفيذها بشكل معقول لشبكات الجينات التنظيمية
الكبيرة. في هذا المسعى، ونحن تصميم العصبية البرمجة الديناميكية تحكم لتحسين أداء نفس اإلجراء البرمجة الديناميكية،
في حين ال تتطلب سوى تعقيد الوقت متعدد الحدود. هيكل المقترح العصبية البرمجة الديناميكية تضم اثنين من الشبكات:
العمل والناقد. يتم تدريب نحو تحسين شبكة الناقد مكافأة إلجمالي الهدف، أال وهو تحقيق التوازن في المعادلة المنادي. شبكة
العمل، مقيدة شبكة الناقد، يولد استراتيجية التحكم األمثل. يتم تحديث كل من استراتيجية السيطرة وإخراج الناقد وفقا لوظيفة
من الخطأ أن التغييرات خطوة واحدة إلى أخرى. وسوف تستخدم النظرية العامة للسلسلة ماركوف غير متجانسة للعثور على
استراتيجيات األمثل لألسلوب غير سياسة موحدة.