تشخیص خودکار متون تولید شده توسط ماشین مبتنی بر مدلهای زبانی و یادگیری عمیق | ||
| پژوهش های نظری و کاربردی هوش ماشینی | ||
| دوره 2، شماره 1، شهریور 1403، صفحه 142-154 اصل مقاله (934.69 K) | ||
| نوع مقاله: مقاله پژوهشی | ||
| شناسه دیجیتال (DOI): 10.22034/abmir.2025.22455.1078 | ||
| نویسندگان | ||
| ابوالفضل شیرافکن* 1؛ مهدی نقوی2؛ میثم میرزایی3 | ||
| 1دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین(ع) | ||
| 2استادیار دانشگاه جامع امام حسین(ع) | ||
| 3پژوهشگر دانشگاه جامع امام حسین(ع) | ||
| چکیده | ||
| امروزه با رشد چشمگیر هوش مصنوعی و تولیدات آن، فرصتها و تهدیدات زیادی به وجود آمده است. یکی از معروفترین و محبوبترین تولیدات هوش مصنوعی تولید متن است که به آن متن ماشینی نیز گفته میشود. در این پژوهش روش جدیدی معرفی میشود که ویژگیهای استخراج شده از متن را با ویژگیهای ساختاری آن ترکیب کرده و به این ترتیب برای تشخیص متن نوشته شده توسط انسان و متن تولیدی هوشمصنوعی، یک متمایزگر خودکار ایجاد میکند. روش معرفی شده متشکل از دو بخش میباشد، بخش اول: مدل توسعه یافتهی (RoBERTa) BERT و مدل حافظهای کوتاه مدت بلند مدت دو سویه (BiLSTM) است که با لایهی ادغام بهبود یافتهاند. بخش دوم: ویژگیهای ساختاری متن با روشی مبتنی بر سبک نوشتار استخراج میشود. در نهایت خروجی بخشهای مدل باهم ترکیب شده و به این ترتیب مدل متن نوشته شده توسط انسان را از متن تولید شده توسط ماشین تشخیص میدهد. نتایج حاصل از این پژوهش نشان میدهد که روش پیشنهادی با دقت 90 درصدی قابلیت تشخیص متون ماشینی را داشته و عملکرد مطلوبی را از خود به نمایش میگذارد. | ||
| کلیدواژهها | ||
| یادگیری عمیق؛ مدل مبتنیبر سبک نوشتار؛ RoBERTa؛ BiLSTM | ||
| عنوان مقاله [English] | ||
| Automatic detection of machine-generated texts based on linguistic models and deep learning | ||
| نویسندگان [English] | ||
| Abolfazl Shirafkan1؛ mahdi naghavi2؛ Meysam Mirzaee3 | ||
| 1Master's student at Imam Hussein (AS) Comprehensive University | ||
| 2Assistant Professor, Imam Hussein University | ||
| 3Researcher at Imam Hussein (AS) Comprehensive University | ||
| چکیده [English] | ||
| Today, with the significant growth of artificial intelligence and its products, many opportunities and threats have emerged. One of the most famous and popular products of artificial intelligence is text generation, also called machine text. In this research, a new method is introduced that combines features extracted from the text with its structural features, thus creating an automatic discriminator to distinguish between human-written text and artificial intelligence-generated text. The introduced method consists of two parts, the first part: the extended BERT (RoBERTa) model and the bidirectional long-term short-term memory (BiLSTM) model, which are improved with the fusion layer. The second part: the structural features of the text are extracted using a writing style-based method. Finally, the output of the model parts is combined together, and in this way, the model distinguishes human-written text from machine-generated text. The results of this research show that the proposed method is capable of recognizing machine texts with 90% accuracy and exhibits good performance. | ||
| کلیدواژهها [English] | ||
| Deep learning, writing style based model, RoBERTa, BiLSTM | ||
| مراجع | ||
|
[1] Jawahar, G., M. Abdul-Mageed, and L.V. Lakshmanan, Automatic detection of machine generated text: A critical survey. arXiv preprint arXiv:2011.01314, 2020. [2] Kudugunta, S. and E. Ferrara, Deep neural networks for bot detection. Information Sciences, 2 : 467 . 018p. 312-322. [3] Solaiman, I., et al., Release strategies and the social impacts of language models. arXiv preprint arXiv:1908.09203, 2019. [4] Zellers, R., et al., Defending against neural fake news. Advances in neural information processing systems, 2019. 32. [5] Uchendu, A., et al. Authorship attribution for neural text generation. in Proceedings of the 2020 conference on empirical methods in natural language processing (EMNLP). 2020. [6] Dukić, D., D. Keča, and D. Stipić. Are you human? Detecting bots on Twitter Using BERT. in 2020 IEEE 7th International Conference on Data Science and Advanced Analytics (DSAA). 2020. IEEE. [7] Adelani, D.I., et al. Generating sentiment-preserving fake online reviews using neural language models and their human-and machine-based detection. in Advanced information networking and applications: Proceedings of the 34th international conference on advanced information networking and applications (AINA-2020). 2020. Springer. [8] Ippolito, D., et al., Automatic detection of generated text is easiest when humans are fooled. arXiv preprint arXiv:1911.00650, 2019. [9] Rodriguez, J.D., et al. Cross-domain detection of GPT-2-generated technical text. in Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: human language technologies. 2022. [10] Crothers, E.N., N. Japkowicz, and H.L. Viktor, Machine-generated text: A comprehensive survey of threat models and detection methods. IEEE Access, 2023. 11: p. 70977-71002. [11] Jacob, D., et al., BERT: Pre-training of deep bidirectional transformers for language understanding. CoRR abs/1810.04805 (2018). arXiv preprint arXiv:1810.04805, 2018. [12] Liu, Y., Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019. [13] Adelani, D.I., et al. Generating sentiment-preserving fake online reviews using neural language models and their human-and machine-based detection. in Advanced information networking and applications: Proceedings of the 34th international conference on advanced information networking and applications (AINA-2020). [14] Ippolito ,D., et al., Automatic detection of generated text is easiest when humans are fooled. arXiv preprint arXiv:1911.00650, 2019. [15] Fagni, T., et al., TweepFake: About detecting deepfake tweets. Plos one, 2021. 16(5): p. e0251415. | ||
|
آمار تعداد مشاهده مقاله: 1,025 تعداد دریافت فایل اصل مقاله: 321 |
||
