Что не так с безопасностью LLM? 🧐
Узнаем на Reading Club от программы Искусственный интеллект вместе с инженерами AI Security Lab!
🗓 23 апреля в 18:30
👉 Поговорим о том, насколько уязвимы языковые модели и как именно их защиту удаётся обойти — даже если это GPT-4.
Что разберем?
➡️ Universal and Transferable Adversarial Attacks on Aligned Language Models — автоматическая генерация суффиксов, которые заставляют LLM нарушать встроенные ограничения.
Эксперт: Никита Беляевский — инженер Raft Security, участник AI Security Lab.
➡️ AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs [статья будет представлена на ICLR 2025] — автономный агент, который сам обучается джейлбрейкам и улучшает стратегии обхода.
Эксперт: Тимур Низамов — инженер Raft Security, магистрант AI Talent Hub.
Регистрируйтесь по ссылке 👉 https://ai-talent-hub.timepad.ru/event/3320466/
Узнать больше о программе Искусственный интеллект в магистратуре ИТМО 🔗