استخراج برچسب برای آگهیهای وبسایت مبتنی بر درونسازی واژه | ||
پژوهش های نظری و کاربردی هوش ماشینی | ||
مقاله 3، دوره 2، شماره 1، شهریور 1403، صفحه 39-50 اصل مقاله (991.13 K) | ||
نوع مقاله: مقاله پژوهشی | ||
شناسه دیجیتال (DOI): 10.22034/abmir.2024.20879.1041 | ||
نویسندگان | ||
محمدعلی زارع چاهوکی* 1؛ محمدمهدی صدقیان2 | ||
1دانشکده مهندسی کامپیوتر - بخش مهندسی نرمافزار، دانشگاه یزد | ||
2کارشناسی ارشد مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران | ||
چکیده | ||
در جامعه امروزی اخبار و آگهیها، جایگاه بهخصوصی در رشد و ترقی جامعه دارند. با مشخصکردن واژگان اصلی آگهی، میتوان به مفهوم کلی آن پی برد. آمادهسازی این واژگان به روش سنتی نیازمند صرف زمان و دانش تخصصی راجع به موضوع متن است. سایت ایدهکاو، سامانهای هست که به جمعآوری پیامها و آگهیهای تلگرام میپردازد. نیازمندی سامانه ایدهکاو، استخراج کلمات کلیدی از آگهیهای منتشر شده در تلگرام بوده است. کیفیت کلمات کلیدی استخراج شده، نقش بسزایی در بهبود سئو و آمار بازید آگهیها دارد. با استفاده از الگوریتمهای درونسازی، میتوان صحبتهای محاورهای و ساختار معنایی متن را استخراج کرد، ازاینرو در تشخیص کلمات کلیدی در آگهیهای تلگرام که اغلب بهصورت عامیانه منتشر میشوند، مفید واقع میشود. در این پژوهش با استفاده از دادههای سامانه ایدهکاو مدلی از روشهای درونسازی پیادهسازی شده است. نوآوری استفاده شده در این پژوهش از ترکیبکردن روشهای درونسازی واژه، بسامد کلمات و جایگاه کلمات ایجاد شده است. مدل درونسازی از کلمات دو کلمهای ایجاد شده است. ایجاد مدل از کلمات دو کلمهای، به این دلیل است که اغلب کلمات کلیدی از دو کلمه به بالا تشکیل شدهاند. جهت نمایش بهتر ارزیابیها، مدل آیکِی (مدل پیشنهادی) با روشهای آماری و روشهای مبتنی بر گراف مقایسه شده است که نتایج بهدستآمده نشان میدهد ترکیب مدل آیکِی دو-گرم عملکرد بهتری در استخراج کلمات کلیدی نسبت به سایر روشها به وجود آورده است. | ||
کلیدواژهها | ||
استخراج برچسب؛ بهینهسازی برای موتور جستوجو (سئو)؛ یادگیری عمیق؛ درونسازی واژه | ||
عنوان مقاله [English] | ||
Extracting keywords from Telegram ads based on the integration of word embedding and statistical features | ||
نویسندگان [English] | ||
Mohammad Ali Zare Chahooki1؛ Mohammad mehdi sedghian2 | ||
1Yazd University | ||
2Computer Engineering Department, Yazd University, Yazd | ||
چکیده [English] | ||
In today's society, news and advertisements have a special place in the growth and development of society. By specifying the main words of the ad, you can understand its general meaning. Preparing these words in the traditional way requires time and specialized knowledge about the subject of the text. Ideakav site is a system that collects Telegram messages and advertisements. The requirement of the idea search system was to extract keywords from the advertisements published in Telegram. The quality of extracted keywords plays a significant role in improving SEO and advertising statistics. By using embedding algorithms, it is possible to extract colloquial conversations and the semantic structure of the text, therefore, it is useful in identifying keywords in Telegram ads that are often published in popular form. In this research, a model of word embedding has been implemented using the data of the idea mining system. The innovation used in this research is created by combining word embedding methods, word frequency and word position. The embedding model is created from two-word words. Creating a model of two-word words is because most of the keywords consist of two words or more. In order to better display the evaluations, the IK model (proposed model) has been compared with statistical methods and graph-based methods, and the obtained results show that the combination of the two-gram IK model has produced a better performance in extracting keywords than other methods. | ||
کلیدواژهها [English] | ||
Tag extraction, search engine optimization (SEO), deep learning, word embedding | ||
مراجع | ||
Onan, S. Korukoğlu, and H. Bulut, “Ensemble of keyword extraction methods and classifiers in text classification,” Expert Syst. Appl., vol. 57, pp. 232–247, 2016. “Tagging posts properly for users and SEO,” Yoast, 11-Apr-2019. [Online]. Available: https://yoast.com/tagging-posts-properly-for-users-and-seo/. [Accessed: 23-Jan-2022]. Williams, WordPress for beginners 2021: A visual step-by-step guide to mastering WordPress. Independently Published, 2020. Moz, “What are keywords?,” Moz, 28-Mar-2017. [Online]. Available:https://moz.com/learn/seo/what-are-keywords. [Accessed: 23-Jan-2022]. “Telegram revenue and usage statistics (2022),” Business of Apps, 08-Aug-2017. [Online]. Available: https://www.businessofapps.com/data/telegram-statistics. [Accessed: 23-Jan-2022]. Tankovska, “Most popular global mobile messenger apps as of January 2023, based on number of monthly active users,” 20022. [Online]. Available: https://www.statista.com/statistics/258749/most-popular global-mobilemessenger-apps/. [Accessed: 2- May- 2023]. Sun, H. Qiu, Y. Zheng, Z. Wang, and C. Zhang, “SIFRank: A new baseline for unsupervised keyphrase extraction based on pre-trained language model,” IEEE Access, vol. 8, pp. 10896–10906, 2020. Won, M., Martins, B. and Raimundo, F. (2019) Automatic extraction of relevant keyphrases for the study of issue competition. In Proceedings of the 20th International Conference on Computational Linguistics and Intelligent Text Processing, Berkeley, La Rochelle, France, April 7-13, 2019. Florescu and C. Caragea, “PositionRank: An unsupervised approach to keyphrase extraction from scholarly documents,” in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017. Ruder,"word-embeddings-1,"1142016.[Online].Available: https://www.ruder.io/word-embeddings-1/. Goldberg, Neural network methods in natural language processing. San Rafael, CA: Morgan & Claypool, 2017. Kedia and M. Rasu, Hands-On Python Natural Language Processing: Explore tools and techniques to analyze and process text with a view to building real-world NLP applications. Birmingham, England: Packt Publishing, 2020. Haarman, B. Zijlema, and M. Wiering, “Unsupervised keyphrase extraction for web pages,” Multimodal technol. interact., vol. 3, no. 3, p. 58, 2019. Bennani-Smires, C. Musat, A. Hossmann, M. Baeriswyl, and M. Jaggi, “Simple Unsupervised Keyphrase Extraction using Sentence Embeddings,” in Proceedings of the 22nd Conference on Computational Natural Language Learning, 2018. Saraswathi and V. Balu, "Preprocessing Techniques for Effective Data Extraction and Computation," IUP Journal of Computer Sciences, Volume 7(3), p. 27, 2013. Hajipoor, et al., “Determine the Sentiment for Persian Words and Phrases Using Deep Learning,” Computer Society of Iran Conference, Volume 24, 2019. Harris Hawks’ Optimization algorithm," Knowledge-Based Systems, | ||
آمار تعداد مشاهده مقاله: 125 تعداد دریافت فایل اصل مقاله: 103 |