The overarching objective of the BAREC project is to develop a comprehensive reference resource to facilitate the study and evaluation of Arabic readability across the Arab world. This proposal is aligned with the recommendations set forth in the Arabic language curriculum research that the Abu Dhabi Arabic Language Center is currently conducting. BAREC will adopt an evidence-based approach and generate practical resources and tools to support and enhance the use of the Arabic language. To this end, we aim to compile a corpus of 10 million words that encompasses diverse genres, topics, and countries of origin, with a particular focus on readability levels. Portions of this corpus will undergo manual annotation to mark vocabulary and syntax complexity. Furthermore, we will build a comprehensive lexicon annotated for readability levels. These annotations will serve as the basis for developing artificial intelligence (AI) tools to automatically annotate the remaining corpus. We will also design additional AI tools to assist content creators in assessing the readability levels of their materials based on specific target audiences.
The project start date: September, 2023
إن الهدف الأساسي من مشروع «بارق» هو تطوير مورد مرجعي شامل من أجل تسهيل دراسة وتقييم إمكانية القراءة باللغة العربية في جميع أنحاء العالم العربي. ويأتي المقترح هذا متوافقًا مع التوصيات الواردة في أبحاث مناهج اللغة العربية التي يجريها مركز أبو ظبي للغة العربية حاليًا. يعتمد مشروع «بارق» نهجًا قائمًا على الأدلة ويوفر موارد وأدوات عملية بغية دعم وتعزيز استخدام اللغة العربية. وتحقيقًا لهذه الغاية، نهدف إلى تجميع ذخيرة لغوية مكونة من 10 ملايين كلمة تشمل طيفًا واسعًا من الأنواع والموضوعات وبلدان المصدر، مع تركيز خاص على مستويات إمكانية القراءة. وستخضع أجزاء من هذه الذخيرة اللغوية لعملية إضافة توسيمات إلى المفردات والتراكيب المعقّدة. علاوة على ذلك، سنبني معجمًا شاملًا تضاف إليه تعليقات توضيحية لأغراض تخص مستويات إمكانية القراءة. وستشكّل هذه التوسيمات أساسًا لتطوير أدوات الذكاء الاصطناعي التي ستعمل على إضافة التوسيمات تلقائيًا إلى باقي الذخيرة اللغوية. كما سنصمم أدوات ذكاء اصطناعي إضافية لمساعدة مطوري المحتوى في تقييم مستويات انقرائية موادهم.
تاريخ بداية المشروع: سبتمبر ٢٠٢٣
The BAREC project will be led by a team of researchers and experts from both New York University Abu Dhabi, Zayed University and the Abu Dhabi Arabic Language Center. The Principal Investigator is Prof. Nizar Habash, NYUAD Professor of Computer Science and Director of the Computational Approaches to Modeling Language (CAMeL) Lab, a leading research group on Arabic Artificial Intelligence. Prof. Hanada Taha, Director of the ZAI Centre at Zayed University, will work closely in the development of the project as the Co-Prinicipal Investigator.
يقود مشروع «بارق» فريق من الباحثين والخبراء من كل من جامعة نيويورك أبو ظبي وجامعة زايد ومركز أبو ظبي للغة العربية. الباحث الرئيسي هو البروفيسور نزار حبش، أستاذ علوم الحاسوب في جامعة نيويورك أبو ظبي ومدير مختبر الأساليب الحاسوبية لنمذجة اللغة (CAMeL Lab مختبر «كامل»)، وهو مختبر بحثي رائد في مجال الذكاء الاصطناعي للعربية. وستعمل البروفيسورة هنادا طه، مديرة مركز ZAI بجامعة زايد، بشكل وثيق في تطوير المشروع بصفتها الباحث الرئيسي المشارك.
[1] Khalid N. Elmadani, Bashar Alhafni, Hanada Taha, and Nizar Habash. 2025. BAREC Shared Task 2025 on Arabic Readability Assessment. In Proceedings of The Third Arabic Natural Language Processing Conference: Shared Tasks, Suzhou, China. Association for Computational Linguistics. [PDF]
[2] Kinda Altarbouch, Khalid N. Elmadani, Ossama Obeid, Hanada Taha, and Nizar Habash. 2025. BAREC Demo: Resources and Tools for Sentence-level Arabic Readability Assessment. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, Suzhou, China. Association for Computational Linguistics. [PDF]
[3] Khalid N. Elmadani, Nizar Habash, and Hanada Taha-Thomure. 2025. A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment. In Findings of the Association for Computational Linguistics: ACL 2025, Vienna, Austria. Association for Computational Linguistics. [PDF]
[4] Nizar Habash, Hanada Taha-Thomure, Khalid N. Elmadani, Zeina Zeino, and Abdallah Abushmaes. 2025. Guidelines for Fine-grained Sentence-level Arabic Readability Annotation. In Proceedings of the 19th Linguistic Annotation Workshop (LAW-XIX-2025), Vienna, Austria. Association for Computational Linguistics. [PDF]
[5] Nizar Habash, Hanada Taha-Thomure, Khalid N. Elmadani, Zeina Zeino, and Abdallah Abushmaes. 2024. Precise Annotation Guidelines for Sentence-level Arabic Readability in the BAREC Project. In Proceedings of the Third Annual Conference of the King Salman Global Academy for Arabic Language: Arabic Language Computing and Data Enrichment, Riyadh, Saudi Arabia. معاییر التوسیم الدقیقة لمستویات انقرائیة الجمل العربیة في مشروع بارق. المؤتمر السنوي الثالث لمجمع الملك سلمــان العالـمي للغـــة العربیـــــة: حوسبة اللغة العربیة وإثراء البیانات اللغویة، الریاض، المملكة العربیة السعودیة. [PDF]
We extend our sincere gratitude to our valued partners --- Arab Thought Foundation, Clinical Artificial Intelligence Lab, Kalima Project, Library of Arabic Literature, Majarra, and Rabie Publishing House --- for generously sharing their data and supporting this project.
We also thank Hindawi, the Internet Archive, and Wikipedia for making their data publicly available.
We further express our appreciation to the authors of the following publications for making their datasets publicly accessible.
نودّ أن نعرب عن خالص امتناننا لشركائنا الكرام --- مؤسسة الفكر العربي، مختبر الذكاء الاصطناعي الطبي، مشروع كلمة، المكتبة العربية، مجرّة، ودار ربيع للنشر --- لتكرّمهم بمشاركة بياناتهم ودعمهم لهذا المشروع.
كما نتوجّه بالشكر إلى مؤسسة هنداوي، أرشيف الإنترنت، وويكيبيديا لإتاحة بياناتهم للعامة.
ونُعرب كذلك عن تقديرنا لمؤلفي الدراسات التالية على إتاحة مجموعات بياناتهم للعموم.
BAREC Partners شركاء بارق
BAREC Data Sources مصادر بيانات بارق
ALC: A. Alfaifi. 2015. Building the Arabic Learner Corpus and a System for Arabic Error Annotation. Ph.D. thesis, University of Leeds.
ANERCorp: Yassine Benajiba, Paolo Rosso, and José Miguel BenedíRuiz. 2007. ANERsys: An Arabic Named Entity Recognition System Based on Maximum Entropy. In Computational Linguistics and Intelligent Text Processing. pages 143–153, Berlin, Heidelberg. Springer Berlin Heidelberg.
APCD: Waleed A. Yousef, Omar M. Ibrahime, Taha M. Madbouly, and Moustafa A. Mahmoud. 2019. Learning meters of Arabic and English poems with Recurrent Neural Networks: a step forward for language understanding and synthesis. arXiv preprint arXiv:1905.05700.
ArabicMMLU: Fajri Koto, Haonan Li, Sara Shatnawi, Jad Doughman, Abdelrahman Sadallah, Aisha Alraeesi, Khalid Almubarak, Zaid Alyafeai, Neha Sengupta, Shady Shehata, Nizar Habash, Preslav Nakov, and Timothy Baldwin. 2024. ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic. In Findings of the Association for Computational Linguistics: ACL 2024, pages 5622–5640, Bangkok, Thailand. Association for Computational Linguistics.
BTEC: Matthias Eck and Chiori Hori. 2005. Overview of the IWSLT 2005 Evaluation Campaign. In Proceedings of the Second International Workshop on Spoken Language Translation, Pittsburgh, Pennsylvania, USA.
CAMeL Treebank: Nizar Habash, Muhammed AbuOdeh, Dima Taji, Reem Faraj, Jamila El Gizuli, and Omar Kallas. 2022. Camel Treebank: An Open Multi-genre Arabic Dependency Treebank. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 2672–2681, Marseille, France. European Language Resources Association.
DARES: Mo El-Haj, Sultan Almujaiwel, Damith Premasiri, Tharindu Ranasinghe, and Ruslan Mitkov. 2024. DARES: Dataset for Arabic Readability Estimation of School Materials. In Proceedings of the Workshop on DeTermIt! Evaluating Text Difficulty in a Multilingual Context @ LREC-COLING 2024, pages 103–113, Torino, Italia. ELRA and ICCL.
MCWC: Mo El-Haj and Saad Ezzini. 2024. The Multilingual Corpus of World’s Constitutions (MCWC). In Proceedings of the 6th Workshop on Open-Source Arabic Corpora and Processing Tools (OSACT) with Shared Tasks on Arabic LLMs Hallucination and Dialect to MSA Machine Translation @ LREC-COLING 2024, pages 57–66, Torino, Italia. ELRA and ICCL.
ReadMe++: Tarek Naous, Michael J Ryan, Anton Lavrouk, Mohit Chandra, and Wei Xu. 2024. ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 12230–12266, Miami, Florida, USA. Association for Computational Linguistics.
SANAD: Omar Einea, Ashraf Elnagar, and Ridhwan Al Debsi. 2019. SANAD: Single-label Arabic News Articles Dataset for automatic text categorization. Data in Brief, 25:104076.
Subtitles: Bashar Alhafni, Nizar Habash, and Houda Bouamor. 2022. The Arabic Parallel Gender Corpus 2.0: Extensions and Analyses. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 1870–1884, Marseille, France. European Language Resources Association.
WikiNews Arabic: Ahmed Abdelali, Kareem Darwish, Nadir Durrani, and Hamdy Mubarak. 2016. Farasa: A Fast and Furious Segmenter for Arabic. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, pages 11–16, San Diego, California. Association for Computational Linguistics.
ZAEBUC: Nizar Habash and David Palfreyman. 2022. ZAEBUC: An Annotated Arabic-English Bilingual Writer Corpus. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 79–88, Marseille, France. European Language Resources Association.