School of AI

Description
هدف ما در این اجتماع کوچک، آموزش و ترویج هوش مصنوعی و افزایش سطح آگاهی و تخصص نسبت به آن است.
باشد که دست در دست هم، آینده‌ی این صنعت را در میهن‌مان ایران بسازیم.

https://www.aparat.com/v/Pmrs8
Advertising
We recommend to visit

𝐈𝐍 𝐆𝐎𝐃 𝐖𝐄 𝐓𝐑𝐔𝐒𝐓 🕋

We comply with Telegram's guidelines:

- No financial advice or scams
- Ethical and legal content only
- Respectful community

Join us for market updates, airdrops, and crypto education!

Last updated 1 month, 2 weeks ago

[ We are not the first, we try to be the best ]

Last updated 4 months ago

FAST MTPROTO PROXIES FOR TELEGRAM

ads : @IR_proxi_sale

Last updated 1 day, 16 hours ago

2 months, 1 week ago
School of AI
2 months, 4 weeks ago
تسلا روبووَن و روبوتاکسی را معرفی …

تسلا روبووَن و روبوتاکسی را معرفی کرد...
فرمون بی فرمون!
به آینده خوش آمدید.

https://www.caranddriver.com/news/a62567491/tesla-robotaxi-reveal/

3 months ago
نوبل شیمی هم به سازندگان AlphaFold …

نوبل شیمی هم به سازندگان AlphaFold رسید…

4 months, 3 weeks ago

شبکه‌های عصبی کولموگروف-آرنولد (KANs)
درشبکه‌های عصبی، ما معمولا به‌دنبال تخمین‌زدن یک تابع چندمتغیره‌ی پیوسته‌ی بسیار پیچیده هستیم!

در شبکه‌های عصبی سنتی (MLP ها)، هر سیگنال ورودی به‌صورت خطی، در یک پارامتر (وزن یال‌ها) ضرب شده، حاصل این ضرب‌ها وارد node های لایه‌های بعدی شده و آن‌جا با هم تجمیع (+) می‌شوند و حاصل‌جمع از یک تابع غیرخطیِ ثابت (Activation Function) مثل ReLU یا Sigmoid عبور می‌کند. قضیه‌ی Universal Approximation می‌گه، از نگاه تئوری، یک MLP با فقط با یک لایه‌ی پنهان (شامل تعداد نورون متناهی اما گاها خیلی زیاد) قادرست هر تابع چندمتغیره‌ی پیوسته، با هر میزان پیچیدگی را با هر دقتی که مدنظر ما باشد، تخمین بزند.

شبکه‌های KAN اما براساس قضیه‌ی Kolmogorov-Arnold Representation شکل گرفته‌اند که می‌گه، هر تابع چندمتغیره‌ی پیوسته (هرچند پیچیده) رو می‌شه به‌صورت جمع تعداد متناهی (اما گاها بسیار زیاد) تابع تک متغیره‌ی پیوسته نوشت (به‌صورت دقیق!) بنابراین، در شبکه‌های KAN، هر سیگنال ورودی به‌جای ضرب ساده و خطی در یک پارامتر ثابت (وزن یال)، از یک تابع تک‌متغیره‌ی پیوسته (آموزش دیده‌شده) می‌گذرد و هر نورون فقط مسئول تجمیع (+) خروجی این توابع‌ست. درواقع، به‌جای هر وزن روی هر یال، یک تابع آموزش داده می‌شود و بنابراین هر نورون می‌تواند فقط شامل یک جمع ساده باشد.

توابعی که روی هر یال، آموزش می‌بینند، از نوع ‌Spline اند. توابع اسپلاین، در بازه‌های مختلف و متفاوت از دامنه‌ی خود به‌شکل چندجمله‌ای‌های مجزا تعریف شده و قادرند هر منحنی (هرچند پیچیده) را تخمین بزنند. ازین رو گزینه‌ی مناسبی برای توابع آموزش‌پذیر در KAN ها اند.

یکی از مشکلات شبکه‌های عصبی سنتی، فراموشی ناگوار (Catastrophic Forgetting) است. وقتی یک داده‌ی جدید را به شبکه آموزش می‌دهیم، تعداد بسیار زیادی پارامتر تغییر می‌کنند (به علت تاثیر هر تابع فعال‌سازی بر تعداد بسیار زیادی پارامتر روی یال‌های ورودی به نورون) و ممکن‌ست دانشی که از داده‌های قبلی به‌دست آمده،‌ فراموش شود. اما در KAN ها به علت محلی بودن هر تابع اسپلاین، تعداد بسیار کم‌تری پارامتر تغییر کرده و فراموشی ناگوار در این شبکه‌ها به‌مراتب کم‌تر‌ست و این شبکه‌ها نسبت به نویز مقاوم‌ترند.

باتوجه به قدرت بالای توابع اسپلاین در یادگیری توابع غیر خطی، و همین‌طور مشخص‌بودن یال‌های بی‌اهمیت و قابل هرس (Pruning) از روی تابع تخمین‌زده‌شده، تعداد لایه‌های مورد نیاز در کل شبکه و تعداد نورون‌های هر لایه، می‌توانند به‌مراتب کم‌تر بوده و با تعداد پارامتر آموزش‌پذیر کم‌تر به Generalization بیش‌تر و سریع‌تر رسید. ازطرفی مدل‌های KAN بسیار تفسیرپذیرتر بوده و می‌توانند ضابطه‌ی ریاضی تابع تخمین‌زده‌شده‌ی نهایی را نیز معرفی کنند! (شکل زیر)

با این همه خوبی، آیا قراره شبکه‌های KAN جایگزین شبکه‌های فعلی در هوش مصنوعی شن؟! معلومه که نه! اساس پیش‌رفت شبکه‌های عصبی در سال‌های اخیر، استفاده از GPU برای ضرب بهینه‌ی همین ماتریس‌های وزنی‌ست که در KAN حذف شده ? بنابراین (تا جایی که فعلا می‌دونیم) این شبکه‌ها برای کاربردهای علمی و مهندسی مناسب‌اند نه پردازش الگوهای پیچیده مثل بینایی ماشین و مدل‌سازی زبان.

5 months ago

پدیده‌ی Double Descent

در یادگیری ماشین، می‌دانید که اگر مدل خیلی ساده‌تر از حد نیاز باشد، آموزش نمی‌بیند و درنهایت، پس از چند تلاش، کم‌برازش (Underfit) خواهد شد. هرچه مدل را پیچده‌تر کنیم (مثلا تعداد پارامترها را بیش‌تر کنیم)، بیش‌تر آموزش می‌بیند و قابلیت تعمیم (Generalization) آن به‌تر می‌شود. این به‌ترشدن قابلت تعمیم، از روی کاهش مقدار خطا به‌ازای داده‌های ارزیابی مشخص‌ست.

اما این خطا تا کجا کاهش می‌یابد؟ آیا هرچه‌قدر مدل پیچیده‌تر شود، خطای ارزیابی آن کمتر و قابلیت تعمیم آن بیش‌تر می‌شود؟!

در مدل‌های ساده‌تر و سنتی‌تر یادگری ماشین، هرچه مدل پیچیده‌تر می‌شد، نیاز به داده‌ی آموزشی بیش‌تری هم داشت. بنابراین با ثابت بودن سایز مجموعه داده، افزایش پیچیدگی از یک‌جا به بعد باعث بیش‌برازش (Overfitting) مدل و حفظ‌کردن داده‌ها و نویزها می‌شد و قابلیت تعمیم مدل از بین می‌رفت.

اما در دنیای مدل‌های جدید (مثلا مدل‌های زبانی بزرگ) شاهد آن‌یم که مدل هرچه بزرگ‌تر و پیچیده‌تر می‌شود قدرت‌مندتر و قابل تعمیم‌تر می‌شود! این تناقض ناشی از چی‌ست؟!

از پدیده‌ی جالبی به‌نام Double Descent که در شبکه‌های عصبی بسیار بزرگ دیده می‌شود. نوعی Regularization ضمنی که ظاهرا به‌علت رویه‌ی آموزش (مثلا الگوریتم کاهش گرادیان) اتفاق می‌افتد. در این حالت، با پیچیده‌تر شدن مدل (مثلا بیشترشدن تعداد پارامترها)، ابتدا خطای ارزیابی کاهش یافته، پس از آن در جایی با پدیده‌ی بیش‌برازش روبه‌رو شده و خطای ارزیابی افزایش می‌یابد، اما با پیچیده‌ترشدن مدل، از جایی به بعد، برای بار دوم خطای ارزیابی کاهشی شده و عمومیت مدل به‌تر می‌شود!

تصویر زیر را ببینید ???

7 months, 2 weeks ago

واژه‌ی AI Agent (عامل هوش‌مصنوعی) واژه‌ای‌ست که علاقه‌مندان به AI این روزها زیاد باهاش روبه‌رو می‌شن. بنابراین در این پست به توضیح این مفهوم می‌پردازیم.

این مفهوم جدید نیست و پیش‌تر با عنوان Intelligent Agent در هوش مصنوعی بررسی می‌شد. اخیرا این مفهوم شکل و شمایل مدرن‌تری به خود گرفته و تحت نام AI Agent پوست‌اندازی کرده‌ست.

در تعریف قدیمی، Intelligent Agent سامانه‌ای (نرم‌افزاری یا سخت‌افزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حس‌گرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامه‌ی تصمیم‌گیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عمل‌گرهای خود (Actuators) آن عمل را در محیط انجام می‌دهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار می‌شوند تا درنهایت عامل به هدف خود برسد.

این مفهوم، از ابتدا یک ایده‌ی مناسب برای مدل‌کردن سامانه‌های هوشمند مثل انواع روبات‌ها، اتومبیل‌های خودران، برنامه‌های هوش مصنوعی و … بود.

با پیدایش مدل‌های بنیادین مثل LLM ها، دنیای نرم‌افزار هم دچار انقلاب شده و علاقه به توسعه‌ی نرم‌افزارها، سرویس‌ها و دستیارهای هوشمند و خودمختار افزایش یافته‌ست.

در توسعه‌ی نرم‌افزار کلاسیک، همه‌ی‌کار‌ها روی دوش توسعه‌دهنده است، توسعه‌دهنده، هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند، خروجی هر task را مشخص می‌کند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد.

با همه‌گیرشدن LLMها، خیلی از برنامه‌ها LLM-powered شدند، در این برنامه‌ها همچنان توسعه‌دهنده هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست می‌آید.

این سبک طراحی و توسعه‌ی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشن‌های RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیده‌ست بسنده نمی‌شود و دانش به‌روزتر و کامل‌تری همراه با پرامپت به LLM داده می‌شود تا با توجه به آن دانش، خروجی task را مشخص کند.

با افزایش توان استدلال LLM ها، منطق اجرایی برنامه‌ها نیز به LLM ها سپرده شد (توسعه نرم‌افزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعه‌دهنده، هدف برنامه رو مشخص می‌کند و این هدف رو به تعدادی task کوچک‌تر می‌شکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام می‌شود.

و اما ترند این روزها در توسعه‌ی سرویس‌های نرم‌افزاری ظاهرا به سمت AI Agent ها در حرکت‌ست. در این نرم‌افزارها، توسعه‌دهنده، فقط هدف برنامه رو مشخص می‌کند، یک LLM سعی می‌کند آن هدف را بررسی و درک کرده، آن را به دنباله‌ای از task های کوچک و قابل دست‌رسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاه‌های داده‌ای، RAG، فایل‌ها، سرچ، APIها و …) دریافت می‌کند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را می‌دهد. این عمل در یک حلقه،‌ تکرار شده تا AI Agent به هدف خود برسد.

مثلا یک چت‌بات خدمات مشتریان را در نظر بگیرید که intent ها و action ها از قبل برای آن مشخص نشده و این عامل، طی تعامل با مشتری، با چرخیدن در پایگاه‌های داده و مستندات و به‌صورت خودمختار اقدام به رفع مشکل می‌کند.

We recommend to visit

𝐈𝐍 𝐆𝐎𝐃 𝐖𝐄 𝐓𝐑𝐔𝐒𝐓 🕋

We comply with Telegram's guidelines:

- No financial advice or scams
- Ethical and legal content only
- Respectful community

Join us for market updates, airdrops, and crypto education!

Last updated 1 month, 2 weeks ago

[ We are not the first, we try to be the best ]

Last updated 4 months ago

FAST MTPROTO PROXIES FOR TELEGRAM

ads : @IR_proxi_sale

Last updated 1 day, 16 hours ago