Abstract
In this research, the concept of variable selection method was studied by employing penalty methods in the multiple linear regression model. Four methods of organization (penalty) were addressed, and these methods are (Ridge method, Lasso method, adaptive lasso method, and elastic net method). Each penalty method was also clarified by studying its mathematical formula as well as the most important characteristics and disadvantages of each method.
In order to study these methods, one simulation experiment was conducted in this research, assuming the existence of a real vector of the parameters to be estimated in order to measure the accuracy of the work of each method, this experiment was conducted assuming the generation of different sample sizes, where the observations of the explanatory variables were first converted to the standard values to decipher the correlations between them, in addition to the conversion of the observations of the response variable to centering values. In other words, the study assumed that there are different values of correlations between the explanatory variables. The results in the simulation experiments indicated that the Elastic Net method showed the lowest value of the quality criterion of estimating the parameters called the mean absolute difference average, and therefore this method can be considered as the best method in terms of the accuracy and interpretation of the model.
In order to show the efficiency of the work of the above-mentioned penalty methods, real data collected from Nasiriyah Teaching Hospital were analyzed to represent a sample of patients with stroke, considering that the response variable in this study represents the size of the stroke and a set of (17) explanatory variables, and the relationship between the clot size variable and the explanatory variables is represented by a multiple linear regression model in order to identify the most important factors or variables that affect the size of the stroke. The results also showed that the Elastic Net method is the best rewarding method at the level of variable selection or at the level of the interpretive power of the model.
In order to study these methods, one simulation experiment was conducted in this research, assuming the existence of a real vector of the parameters to be estimated in order to measure the accuracy of the work of each method, this experiment was conducted assuming the generation of different sample sizes, where the observations of the explanatory variables were first converted to the standard values to decipher the correlations between them, in addition to the conversion of the observations of the response variable to centering values. In other words, the study assumed that there are different values of correlations between the explanatory variables. The results in the simulation experiments indicated that the Elastic Net method showed the lowest value of the quality criterion of estimating the parameters called the mean absolute difference average, and therefore this method can be considered as the best method in terms of the accuracy and interpretation of the model.
In order to show the efficiency of the work of the above-mentioned penalty methods, real data collected from Nasiriyah Teaching Hospital were analyzed to represent a sample of patients with stroke, considering that the response variable in this study represents the size of the stroke and a set of (17) explanatory variables, and the relationship between the clot size variable and the explanatory variables is represented by a multiple linear regression model in order to identify the most important factors or variables that affect the size of the stroke. The results also showed that the Elastic Net method is the best rewarding method at the level of variable selection or at the level of the interpretive power of the model.
Keywords
Linear regression
methods of penal organization
Stroke
Abstract
تم في هذا البحث دراسة مفهوم أسلوب اختيار المتغيرات من خلال توظيف طرائق الجزاء penalty method ) ) في نموذج الانحدار الخطي المتعدد . حيث تم تناول أربعة طرائق تنظيم ( جزاء ) وهذه الطرائق هي ( طريقة ridge ، طريقة lasso ، طريقة adaptive lasso ، طريقة elastic net ). تم أيضا توضيح كل طريقة جزاء من خلال دراسة صيغتها الرياضية وكذلك اهم الخصائص والعيوب لكل طريقة .
وبهدف دراسة هذه الطرائق تم أجراء تجربة محاكاة واحدة في هذا البحث تم افتراض وجود متجه حقيقي للمعالم المراد تقدير قيمها بهدف قياس دقة عمل كل طريقة ، أجريت هذه التجربة بافتراض توليد حجوم عينات مختلفة ، حيث تم أولا تحويل مشاهدات المتغيرات التوضيحية إلى القيم المعيارية لفك الارتباطات الموجودة بينها إضافة إلى ذلك تم أجراء تحويل المشاهدات متغير الاستجابة إلى قيم مركزية (centering) ، أي ان الدراسة افترضه ان هناك قيم مختلفة من الارتباطات بين المتغيرات التوضيحية. إشارة النتائج في تجارب المحاكاة إلى ان طريقة elastic net قد أظهرت اقل قيمة لمعيار جودة تقدير المعالم المسمى معيار وسط متوسط الفروق المطلقة ، وبالتالي يمكن اعتبار هذه الطريقة هي افضل الطرائق من ناحية دقة وتفسير النموذج .
ولبيان كفاءة عمل طرائق الجزاء المذكورة أعلاه تم تحليل لبيانات حقيقية قمت بجمعها من مستشفى الناصرية التعليمي لتمثل عينة من المرضى المصابين بالجلطة الدماغية على اعتبار ان متغير ان متغير الاستجابة في هذه الدراسة يمثل حجم الجلطة الدماغية ومجموعة من ( 17) متغير توضيحي ، وتمثيل العلاقة بين متغير حجم الجلطة والمتغيرات التوضيحية بنموذج انحدار خطي متعدد من اجل الوقوف على اهم العوامل أو المتغيرات التي تؤثر على حجم الجلطة الدماغية . كذلك أظهرت النتائج ان طريقة elastic net هي افضل طريقة جزاء سوآءا على مستوى اختيار المتغيرات أو على مستوى القدرة التفسيرية للنموذج .
وبهدف دراسة هذه الطرائق تم أجراء تجربة محاكاة واحدة في هذا البحث تم افتراض وجود متجه حقيقي للمعالم المراد تقدير قيمها بهدف قياس دقة عمل كل طريقة ، أجريت هذه التجربة بافتراض توليد حجوم عينات مختلفة ، حيث تم أولا تحويل مشاهدات المتغيرات التوضيحية إلى القيم المعيارية لفك الارتباطات الموجودة بينها إضافة إلى ذلك تم أجراء تحويل المشاهدات متغير الاستجابة إلى قيم مركزية (centering) ، أي ان الدراسة افترضه ان هناك قيم مختلفة من الارتباطات بين المتغيرات التوضيحية. إشارة النتائج في تجارب المحاكاة إلى ان طريقة elastic net قد أظهرت اقل قيمة لمعيار جودة تقدير المعالم المسمى معيار وسط متوسط الفروق المطلقة ، وبالتالي يمكن اعتبار هذه الطريقة هي افضل الطرائق من ناحية دقة وتفسير النموذج .
ولبيان كفاءة عمل طرائق الجزاء المذكورة أعلاه تم تحليل لبيانات حقيقية قمت بجمعها من مستشفى الناصرية التعليمي لتمثل عينة من المرضى المصابين بالجلطة الدماغية على اعتبار ان متغير ان متغير الاستجابة في هذه الدراسة يمثل حجم الجلطة الدماغية ومجموعة من ( 17) متغير توضيحي ، وتمثيل العلاقة بين متغير حجم الجلطة والمتغيرات التوضيحية بنموذج انحدار خطي متعدد من اجل الوقوف على اهم العوامل أو المتغيرات التي تؤثر على حجم الجلطة الدماغية . كذلك أظهرت النتائج ان طريقة elastic net هي افضل طريقة جزاء سوآءا على مستوى اختيار المتغيرات أو على مستوى القدرة التفسيرية للنموذج .
Keywords
الانحدار الخطي
الجلطة الدماغية
طرائق التنظيم الجزائية