Abstract
This research examines the efficiency of de-identification techniques in enhancing privacy protections for sensitive data using Long Short-Term Memory (LSTM) models. Following a structured five-step methodology such as Dataset Collection, Data Preparation, Feature Extraction, Classification, and Performance Evaluation. The study evaluates LSTM’s performance of dataset based on Resume, Construction, and Medical domains. The primary goal is to examine the ability of de-identification methods to hide certain information based on classification accuracy. Results indicate that LSTM achieves accuracy levels 97.14% on unmodified data, explaining its success detecting sensitive information. However, after applying de-identification using Java Programming at pre-processing phase to eliminate sensitive keyword, the accuracy drops to 78.30%.These findings highlight the effectiveness of de-identification techniques to enhance data privacy, especially in fields that require strict confidentiality.
Keywords
Keywords: LSTM De-Identification Protecting Sensitive data
Abstract
تتناول هذه الدراسة كفاءة تقنيات إزالة الهوية (De-identification) في تعزيز حماية الخصوصية للبيانات الحساسة باستخدام نماذج الذاكرة الطويلة القصيرة الأمد (LSTM). وقد اتبعت الدراسة منهجية مكونة من خمس خطوات تشمل: جمع البيانات، إعداد البيانات، استخراج السمات، التصنيف، وتقييم الأداء. تم تقييم أداء نموذج LSTM باستخدام بيانات من مجالات السيرة الذاتية، والإنشاءات، والقطاع الطبي. وتهدف الدراسة بشكل أساسي إلى فحص قدرة تقنيات إزالة الهوية على إخفاء معلومات معينة بناءً على دقة التصنيف.
أظهرت النتائج أن نموذج LSTM حقق مستوى دقة بلغ 97.14% عند استخدام البيانات غير المعدلة، مما يفسر نجاحه في اكتشاف المعلومات الحساسة. ومع ذلك، بعد تطبيق تقنيات إزالة الهوية باستخدام لغة جافا في مرحلة ما قبل المعالجة بهدف إزالة الكلمات الحساسة، انخفضت الدقة إلى 78.30%. وتبرز هذه النتائج فعالية تقنيات إزالة الهوية في تعزيز خصوصية البيانات، خاصة في المجالات التي تتطلب سرية صارمة.
أظهرت النتائج أن نموذج LSTM حقق مستوى دقة بلغ 97.14% عند استخدام البيانات غير المعدلة، مما يفسر نجاحه في اكتشاف المعلومات الحساسة. ومع ذلك، بعد تطبيق تقنيات إزالة الهوية باستخدام لغة جافا في مرحلة ما قبل المعالجة بهدف إزالة الكلمات الحساسة، انخفضت الدقة إلى 78.30%. وتبرز هذه النتائج فعالية تقنيات إزالة الهوية في تعزيز خصوصية البيانات، خاصة في المجالات التي تتطلب سرية صارمة.
Keywords
LSTM De-Identification Protecting Sensitive data