معرفی یک روش مبتنی بر یادگیری تقویتی برای تعیین زمان و تعداد مناسب خرید سهام | ||
پژوهش های نظری و کاربردی هوش ماشینی | ||
مقاله 6، دوره 2، شماره 1، شهریور 1403، صفحه 92-103 اصل مقاله (1.07 M) | ||
نوع مقاله: مقاله پژوهشی | ||
شناسه دیجیتال (DOI): 10.22034/abmir.2024.21357.1050 | ||
نویسندگان | ||
ولی درهمی* 1؛ فاطمه دره زرشکی2 | ||
1دانشگاه یزد- دانشکده مهندسی کامپیوتر | ||
2دانشگاه یزد، دانشکده مهندسی کامپیوتر | ||
چکیده | ||
نوسان قیمت و عدم اطمینان موجود در بازار، تعیین استراتژی بهینه برای خرید سهام را به یک فرایند پیچیده تبدیل کرده است. عدم تکرار شرایط یک معامله، لزوم یادگیری بهصورت تعاملی را ایجاب میکند. یادگیری تقویتی یک روش یادگیری تعاملی است که تنها با استفاده از یک سیگنال اسکالرِ راندمان، میتواند پارامترهای سیستم را تنظیم نماید. در این مقاله با تعریف مناسب حالتهای سیستم شامل گام زمانی، تعداد کل سهام خریداریشده تا گام زمانی فعلی، میزان انحراف معیار قیمت سهام از گام نخست تا گام زمانی مورد نظر و میزان تغییرات قیمت نسبت به گام زمانی قبل و همچنین تعریف مناسب سیگنال تقویتی، از روش یادگیری کیو بهعنوان یکی از معروفترین الگوریتمهای یادگیری تقویتی برای تقریب توابع ارزش حالت-عمل استفاده میشود. در این پژوهش، بازار سهام با توجه به روابط ریاضی موجود، مدل شده و روش ارائهشده در آن به کار گرفته شده است. عملکرد استراتژی حاصل از مدل پیشنهادی با استراتژی بازگشت به میانگین در 5000 بازارِ شبیهسازیشده مورد مقایسه قرار گرفته است. نتایج نشاندهنده آن است که بهرهگیری از مدل پیشنهادی در مقایسه با استراتژی بازگشت به میانگین نهتنها هزینه متوسط پایینتر، بلکه قابلیت اطمینان بسیار بالاتری نیز دارد. | ||
کلیدواژهها | ||
بازار سهام؛ بهینهسازی هزینههای اجرایی سهام؛ یادگیری تقویتی؛ یادگیری کیو | ||
عنوان مقاله [English] | ||
A Reinforcement Learning Approach to Determine When and How Many Stocks to Buy in Stock Trading | ||
نویسندگان [English] | ||
Fatemeh Darezereshki2؛ | ||
2Yazd university | ||
چکیده [English] | ||
Due to the volatility and uncertainty inherent in the stock market, devising an optimal trading strategy is a complex endeavor. Given the non-repetitive nature of trading circumstances, learning through interactions becomes imperative. Reinforcement learning emerges as an interactive learning approach capable of adjusting system parameters based solely on a scalar efficiency signal. This paper introduces a methodology wherein the states of the system are defined by the time step, the total number of shares purchased thus far, the standard deviation of stock prices from the beginning to the current step, and the difference between the current price and the price at the previous step. By defining a suitable reinforcement signal, the paper employs one of the most popular reinforcement learning algorithms, Q-learning, to approximate state-action value functions. The stock market is simulated using a set of equations, and the proposed method is applied. Performance evaluation is conducted by comparing the proposed model against mean reversion trading strategy across 5000 simulated markets. The experimental results demonstrate that the trading strategy derived from the Q-model not only yields lower average cost but also exhibits greater reliability compared to mean reversion strategy. | ||
کلیدواژهها [English] | ||
Stock Market, Optimizing Execution Costs of Shares, Reinforcement Learning, Q-learning | ||
مراجع | ||
| ||
آمار تعداد مشاهده مقاله: 239 تعداد دریافت فایل اصل مقاله: 62 |