Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт.
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka
Ведущие в выпуске:
Евгений Кателла, Егор Толстой
Полезные ссылки:
Бенчмарки
https://huggingface.co/datasets/cais/mmlu
https://huggingface.co/datasets/MMMU/MMMU
https://huggingface.co/datasets/allenai/ai2_arc
https://huggingface.co/datasets/Rowan/hellaswag
https://huggingface.co/datasets/allenai/winogrande
https://huggingface.co/datasets/Idavidrein/gpqa
https://lastexam.ai/
https://www.swebench.com/
https://arcprize.org/arc-agi
https://github.com/t3dotgg/SnitchBench
Арена
https://lmarena.ai/
Фреймворк для эвалов
https://github.com/EleutherAI/lm-evaluation-harness
Бумаги
https://arxiv.org/abs/2504.07825
https://arxiv.org/abs/2311.12022
https://arxiv.org/abs/2406.12045
Тех репорты с таблицами
https://www.anthropic.com/news/claude-4
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
https://openai.com/index/introducing-o3-and-o4-mini/
--------
1:27:43
--------
1:27:43
Podlodka #432 – AI за пределами кодинга
Пока одни скромно просят ChatGPT написать пару скриптов, другие уже вовсю интегрируют всё многообразие AI-моделей и инструментов во все сферы своей жизни, стремясь максимально оптимизировать процессы, минимизировать рутину и расширить границы возможного. Как? Разбираемся с Денисом Ширяевым, автором канала Denis Sexy IT. Денис использует AI практически для всего: от работы и хобби до здоровья и саморазвития, и в выпуске мы обсудили его опыт применения АI, текущие ограничения, различия между моделями и лучшие практики работы с ними.
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka
Ведущие в выпуске:
Катя Петрова, Егор Толстой, Аня Симонова
Полезные ссылки:
Анализ SEO-контента конкурентов и создание лендингов на базе этой инфы с помощью LLM https://t.me/c/1051500113/8777
Подготовка к интервью в JetBrains
https://t.me/c/1051500113/10106
Программа для восстановления шеи от o1 Pro
https://t.me/c/1051500113/9436
Канал Дениса с другими постами
https://t.me/s/denissexy
--------
1:35:20
--------
1:35:20
Podlodka #431 – Вычисления на GPU
GPU – это не только запустить новый Doom на максималках, но и возможность решать вычислительные задачи в тысячи раз быстрее, чем на CPU. Как это работает и для каких задач – разбираемся в выпуске с Николаем Полярным!
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka
Ведущие в выпуске:
Женя Кателла, Катя Петрова
Полезные ссылки:
Telegram-канал
https://t.me/UnicornGlade
Лекция про то как работает Nanite в Unreal Engine 5
https://www.youtube.com/watch?v=ltUzX1IR9JI
Концентрат-лекция про видеокарты
https://www.youtube.com/watch?v=zJ6ru8dNAcs
Курс по видеокартам (OpenCL/CUDA)
https://www.youtube.com/playlist?list=PLlb7e2G7aSpSkDWlyJQzT9Qx9rrgKSgAp
домашние задания - https://github.com/gpgpucourse
Твитч (сессии Live Coding)
https://www.twitch.tv/polarnick239
Сайт Николая Полярного
https://polarnick.com/
Алгоритм как конструировать BVH в realtime
https://www.youtube.com/watch?v=WuycXesy4pQ&list=PLlb7e2G7aSpSptbl_yI5uvMlpRc1mwsCL&index=8
--------
2:24:37
--------
2:24:37
Podlodka #430 – Зачем программисту PhD?
PhD — путь к великим открытиям или очередной способ пострадать? Почему айтишники задумываются о науке и как понять, что пора задуматься и тебе? Обсуждаем, зачем идти в PhD и как в этом выжить: на что обратить внимание до поступления, чего ждать от процесса и легко ли потом вернуться в индустрию. Какие плюшки даёт академический бэкграунд — и стоят ли они того, если можно просто кодить? Разбираемся вместе с Ваней Ямщиковым.
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka
Ведущие в выпуске:
Аня Симонова, Катя Петрова
Полезные ссылки:
Подкаст «Проветримся!» https://t.me/progulka
YouTube-канал Вани Ямщикова https://youtube.com/@kroniker
Сайт Academic positions https://academicpositions.com
--------
1:28:26
--------
1:28:26
Podlodka #429 – Fear of missing out
Последнее время куда ни посмотришь – все уже начали использовать AI, код вовсю пишут агенты, количество успешных стартапов растет, а всех программистов скоро обещают разогнать. Из-за этого у многих появляется сильная тревога выражающаяся в FOMO – Fear of missing out – ощущении, что все что-то знают и делают, а только ты – нет. Чтобы разобраться, откуда берется это чувство, насколько ему стоит верить, и как с ним бороться, мы позвали Евгения Кота, менеджера с 20-летним стажем в IT и психологическим образованием за плечами.
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka
Ведущие в выпуске:
Евгений Кателла, Егор Толстой
Полезные ссылки:
Motivational, emotional, and behavioral correlates of fear of missing out https://selfdeterminationtheory.org/wp-content/uploads/2014/04/2013_PrzybylskiMurayamaDeHaanGladwell_CIHB.pdf
Thoughts on thinking
https://dcurt.is/thinking
Sam Altman – The Gentle Singularity
https://blog.samaltman.com/the-gentle-singularity
Блог Simon Willison
https://simonwillison.net/
Podlodka – это еженедельное аудио-шоу про IT и все, что с ним связано. Формат наших выпусков - это полное погружение в тему вместе с приглашенным гостем. В каждый выпуск мы зовём интересных и именитых профессионалов в разных областях.
Мы любим обсуждать архитектуру, делиться опытом промышленной разработки и спорить на горячие темы.
Подкаст Подлодка ведут четверо весёлых и опытных инженеров с примесями менеджеров:
- Егор Толстой (Kotlin Project Lead, JetBrains)
- Стас Цыганов (Product Manager, Kotlin team в JetBrains)
- Катя Петрова (Product Marketing Manager, Kotlin team в JetBrains)
- Женя Кателла (Staff Developer, Shopify)