Data Science | Machinelearning [ru]

Data Science | Machinelearning [ru]

Public

Просмотреть канал

Не можете присоединиться? @devsp

0

20.1k Участники

Обновлено: May 25, 2026 at 2:48 AM

Data Science | Machinelearning [ru]

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM. По вопросам рекламы или разработки - @g_abashkin РКН: https://vk.cc/cJPGXD

@devsp is a dedicated channel for data and g_abashkin with regular updates in Курсы и Обучение

Рейтинг

Глобальный рейтинг

#38421

-2497

Рейтинг по языку

#29682

-2252

Рейтинг по категории

#501

-18

Рост участников (Последние 30 дней)

Всего: 20.1K

Рост за 24ч: +40 0%

Loading...

Рейтинг

Требуется вход

Loading...

Loading recommended channels...

Последние посты

Data Science | Machinelearning [ru]

19 мар. 2026 г., 18:35

Переоценка и ошибки в навыках Data Science инженеров в 2025 году

Изменения в подходах к оценке специалистов
В 2025 году индустрия Data Science столкнулась с важным вызовом: переоценка навыков инженеров. Область стремительно меняется, и требования к специалистам также эволюционируют. Компании всё чаще осознают необходимость уделять внимание не только техническим, но и более широким навыкам, таким как бизнес-ориентированное мышление и понимание этических аспектов использования данных.

Ключевые навыки, которые недооценивали
В прошлом многие специалисты фокусировались исключительно на технической стороне: разработке моделей, работе с big data и глубоком знании Python и R. Сегодня важнейшими становятся навыки интерпретации результатов, умение объяснять модели для менеджеров, а также интеграция моделей в бизнес-процессы компании. Неспособность понять и ощутить этот сдвиг может серьёзно ограничить карьерные возможности.

👉 В 2025 году увеличилось внимание к непрерывному обучению и адаптации специалистов в Data Science.
👉 Компании начали более интенсивно инвестировать в развитие навыков их сотрудников в области интерпретации и бизнес-аналитики.

❗️Адаптация к изменяющимся требованиям и расширение набора навыков имеют критическое значение для построения успешной карьеры в Data Science в 2025 году. Специалистам рекомендуется фокусироваться не только на развитии технической экспертизы, но и на понимании бизнес-ценности своих моделей и решений.

TG:

2,200

6

0

Data Science | Machinelearning [ru]

19 мар. 2026 г., 18:35

🎥 Video

🖥 Anthropic https://claude.com/blog/code-review Code Review

Систему, которую в компании запускают почти на каждом PR. За последний год объём кода на инженера в Anthropic вырос примерно на 200%. При такой скорости неудивительно, что ревью стало узким местом.

Теперь Code Review автоматически проверяет PR: несколько ИИ-агентов параллельно ищут баги, перепроверяют результаты и ранжируют проблемы по серьёзности. Причем чем более объемным и сложным будет PR — тем больше агентов туда пойдет работать.

✖️ https://t.me/xCode_Journal

2,100

6

Data Science | Machinelearning [ru]

19 мар. 2026 г., 18:35

Неочевидные подводные камни при использовании ансамблей моделей

Введение в ансамбли моделей
Ансамбли моделей — это мощный инструмент в арсенале дата-сайентиста. Их использование может значительно улучшить качество моделей за счет объединения нескольких слабых обучателей. Однако, не все так просто, как может показаться на первый взгляд.

Проблема переобучения
Один из ключевых вопросов, с которыми можно столкнуться при работе с ансамблями, — это переобучение. Когда ансамбль состоит из чрезмерно сложных моделей, он может адаптироваться к шуму в данных, что негативно скажется на его генерализации.

👉 Базовый пример использования ансамблей:


from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# Загрузка данных
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Обучение модели
model = RandomForestClassifier(n_estimators=10)
model.fit(X_train, y_train)

# Оценка качества
accuracy = model.score(X_test, y_test)
print(f'Accuracy: {accuracy:.2f}')



👉 Проблема переобучения на ансамблях:


# Усложнение модели
model = RandomForestClassifier(n_estimators=100, max_depth=None)
model.fit(X_train, y_train)

# Проверка на тестовых данных
accuracy = model.score(X_test, y_test)
print(f'Overfitted Accuracy: {accuracy:.2f}')

# Проверка на обучающих данных
train_accuracy = model.score(X_train, y_train)
print(f'Train Accuracy: {train_accuracy:.2f}')



Влияние несбалансированных данных
Другой подводный камень заключается в том, что ансамбли могут быть чувствительны к несбалансированным данным, что может привести к тому, что ансамбль будет склоняться в пользу большинства.

👉 Влияние несбалансированных классов на ансамбли:


from imblearn.ensemble import BalancedRandomForestClassifier

# Балансировка данных напрямую в ансамбле
balanced_model = BalancedRandomForestClassifier(n_estimators=10)
balanced_model.fit(X_train, y_train)

balanced_accuracy = balanced_model.score(X_test, y_test)
print(f'Balanced Accuracy: {balanced_accuracy:.2f}')



Сложность интерпретации ансамблей
Еще одной сложностью является интерпретация результатов ансамблей. Они часто считаются черными ящиками, что осложняет объяснение их работы.

👉 Типичный анти-паттерн: попытка интерпретации без визуализации:


# Без применения инструментов интерпретации
# Попытка вручную разбираться в деревьях может быть неэффективной
# Альтернативы: SHAP, LIME
import shap
explainer = shap. TreeExplainer(model)
shap_values = explainer.shap_values(X_test)
shap.summary_plot(shap_values, X_test)



Заключение
Работа с ансамблями требует не только знаний о базовых принципах их работы, но и понимания возможных подводных камней. Следует всегда помнить о переобучении, учитывать баланс классов и применять соответствующие инструменты для интерпретации моделей. Только так можно максимально эффективно использовать ансамбли в реальных проектах.

TG:

Data Science | Machinelearning [ru]

19 мар. 2026 г., 18:35

pinned «📍 Авторский канал про вайбкодинг и разработку ИИ-агентов ➡️ Геныч.»

0

0

0

Data Science | Machinelearning [ru]

19 мар. 2026 г., 18:35

📷 Photo

😭 Гендерный разрыв в IT никуда не делся

Исследование Selecty и hh․ru показало: >200 тыс. рублей в месяц получают 51,5% мужчин и только 34,8% женщин. В тестировании этот порог пробивают 60% парней и 45% девушек, а в бэкенде высокие доходы лишь у 26,5% разработчиц.

Почему так? Мужчины чаще забирают руководящие посты и сеньорские грейды.

✖️ https://t.me/xCode_Journal

2,320

0

Data Science | Machinelearning [ru]

19 мар. 2026 г., 18:35

Ошибки, которые делают почти все при обработке категориальных признаков

Введение
Обработка категориальных признаков — одна из ключевых задач в подготовке данных для моделей машинного обучения. Несмотря на кажущуюся простоту, данный этап часто становится источником ошибок, которые могут значительно влиять на качество моделей. Давайте рассмотрим некоторые из распространённых ошибок и способы их избежать.

Ошибка 1: Ошибка в выборе метода кодирования
Одна из частых ошибок при работе с категориальными признаками — неверный выбор метода кодирования. Многие начинающие инженеры используют One-Hot Encoding для всех категориальных признаков, что не всегда оправдано. Например, если мы имеем дело с признаками с высокой кардинальностью, One-Hot Encoding может значительно увеличить количество признаков, что плохо сказывается на скорости обучения и памяти.

Сравнение One-Hot Encoding и Target Encoding

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Пример данных
data = pd. DataFrame({'city': ['Moscow', 'Berlin', 'Berlin', 'New York', 'Moscow']})

# One-Hot Encoding
encoder = OneHotEncoder(sparse=False)
ohe_df = pd. DataFrame(encoder.fit_transform(data[['city']]), columns=encoder.get_feature_names_out(['city']))
print(ohe_df)

# Target Encoding (простое среднее значение по городу)
mean_target_encoding = data.groupby('city').size() / len(data)
data['city_encoded'] = data['city'].map(mean_target_encoding)
print(data)



Ошибка 2: Отсутствие учёта порядка категорий
Игнорирование порядка категориальных признаков может стать причиной для искажения результатов. Например, при кодировании рейтинга (низкий, средний, высокий) важно сохранить порядок. Без учета порядка некоторые методы, такие как Label Encoding, могут привести к неправильной интерпретации модели.

Использование Label Encoding на упорядоченных данных

from sklearn.preprocessing import OrdinalEncoder

# Пример данных
ratings = pd. DataFrame({'rating': ['low', 'medium', 'high']})

# Ordinal Encoding
ordinal_encoder = OrdinalEncoder(categories=[['low', 'medium', 'high']])
ratings_encoded = ordinal_encoder.fit_transform(ratings)
print(ratings_encoded)


Ошибка 3: Игнорирование новых категорий в данных
При изменении структуры данных, например, при поступлении новых данных, легко упустить появление новых категорий, отсутствующих в обучающей выборке. Это может привести к ошибкам в прогнозировании и даже к падению сервиса в production. Использование специальных объектов (например, категориальных маппингов) или добавление логики обработки новых значений помогает избежать этой проблемы.

Пример использования категориальных маппингов с обработкой новых категорий

# Пример данных
train_data = pd. DataFrame({'city': ['Moscow', 'Berlin', 'New York']})
test_data = pd. DataFrame({'city': ['London', 'Berlin', 'Moscow']})

# Создание маппинга
city_mapping = {'Moscow': 0, 'Berlin': 1, 'New York': 2}

# Применение маппинга с обработкой новых категорий
train_data['city_encoded'] = train_data['city'].map(city_mapping)
test_data['city_encoded'] = test_data['city'].map(lambda x: city_mapping.get(x, -1))

print(test_data)


TG:

Data Science | Machinelearning [ru]

19 мар. 2026 г., 18:35

📍 Авторский канал про вайбкодинг и разработку ИИ-агентов

➡️ https://t.me/just_genych

2,350

2

0

Data Science | Machinelearning [ru]

19 мар. 2026 г., 18:35

WebDS: новый бенчмарк для веб-ориентированных задач Data Science

Введение в WebDS
В августе 2025 года была представлена новая система оценки для веб-ориентированных задач Data Science под названием WebDS. Этот бенчмарк включает 870 задач, охватывающих 29 различных веб-сайтов, от структурированных государственных порталов до неструктурированных новостных ресурсов. Задачи требуют выполнения сложных, многошаговых операций с использованием различных инструментов и данных в разнородных форматах, что отражает реалии современной аналитики данных.

Проблемы существующих бенчмарков
Ранее существующие бенчмарки для веб-ориентированных задач часто фокусировались на простых взаимодействиях, таких как заполнение форм или транзакции в электронной коммерции, и не требовали разнообразных инструментальных возможностей, необходимых для веб-ориентированной аналитики данных. Традиционные бенчмарки Data Science, в свою очередь, обычно концентрировались на статических, часто текстовых наборах данных и не оценивали полные рабочие процессы, включающие сбор, очистку, анализ данных и генерацию инсайтов.

Оценка современных моделей
Оценка современных моделей на WebDS показала значительные пробелы в их производительности. Например, агент Browser Use, успешно выполняющий 80% задач на Web Voyager, справился только с 15% задач на WebDS. Анализ выявил новые причины неудач, такие как слабая привязка к информации, повторяющееся поведение и стремление к упрощению задач, что подчеркивает необходимость дальнейших исследований и улучшений в области веб-ориентированной аналитики данных.

Факты
👉 В августе 2025 года представлен бенчмарк WebDS, включающий 870 задач на 29 различных веб-сайтах.
👉 Агент Browser Use успешно выполняет 80% задач на Web Voyager, но только 15% на WebDS.

Итог
❗️ WebDS предоставляет более реалистичную и сложную среду для тестирования, стимулируя развитие практических и эффективных моделей для веб-ориентированных задач Data Science.

Источники
https://arxiv.org/abs/2508.01222 раскрывает подробности о новом бенчмарке.

Data Science | Machinelearning [ru]

19 мар. 2026 г., 18:35

Индия принимает AI Impact Summit 2026: ключевые темы и обсуждения

Введение
С 16 по 21 февраля 2026 года в Нью-Дели прошёл AI Impact Summit 2026, ставший первой глобальной встречей по искусственному интеллекту, организованной в стране Глобального Юга. Саммит собрал лидеров государств, руководителей технологических компаний и экспертов для обсуждения роли ИИ в инклюзивном росте и устойчивом развитии.

Основные темы саммита
На саммите были рассмотрены следующие ключевые темы:
👉 развитие человеческого капитала;
👉 инклюзия для социального расширения возможностей;
👉 безопасный и надёжный ИИ;
👉 устойчивость, инновации и эффективность;
👉 наука, демократизация ресурсов ИИ;
👉 использование ИИ для экономического роста и общественного блага. Эти темы отражают стремление Индии к ответственному и инклюзивному развитию ИИ.

Обсуждения по ключевым направлениям
В рамках саммита были проведены дискуссии по следующим направлениям:
👉 Доверие и управление: создание структур, позволяющих инновациям развиваться без потери общественного доверия, включая оценочные протоколы и механизмы управления рисками.
👉 Суверенитет: развитие национальных возможностей в области ИИ, включая вычислительные мощности и архитектуру данных.
👉 Человеческий капитал: трансформация рабочей силы, реформа высшего образования и повышение уровня грамотности в области ИИ.

Объявления и инициативы
В ходе саммита были сделаны значимые объявления:
👉 Компания Sarvam AI представила новые модели ИИ, включая языковые модели с 30 и 105 миллиардами параметров, а также устройства, такие как умные очки Kaze.
👉 Государственная инициатива BharatGen Param2 представила модель с 17 миллиардов параметров, поддерживающую 22 индийских языка.
👉 Министр Ашвини Вайшнав объявил о планах увеличить количество GPU в Индии более чем на 20 000 единиц в рамках портала IndiaAI Compute.

Международное сотрудничество
Саммит подчеркнул важность международного сотрудничества в области ИИ. Французский президент Эммануэль Макрон и генеральный секретарь ООН Антониу Гутерриш приняли участие в мероприятии, обсуждая глобальные инициативы и необходимость совместных усилий для обеспечения ответственного развития ИИ.

❗️AI Impact Summit 2026 в Нью-Дели стал важной вехой в глобальном диалоге об искусственном интеллекте, подчеркнув стремление Индии к ответственному и инклюзивному развитию ИИ и укреплению международного сотрудничества в этой области.

Источники:
https://uatimpact.indiaai.in/home/main-summit-events.
https://economictimes.indiatimes.com/ai/ai-insights/india-ai-impact-summit-2026-opens-conversations-that-could-shape-indias-ai-future/articleshow/128409790.cms.
https://en.wikipedia.org/wiki/India_AI_Impact_Summit_2026.
https://apnews.com/article/67c2b5a37f98e0a6ebb81136e0287969.

Data Science | Machinelearning [ru]

19 мар. 2026 г., 18:35

MBZUAI и G42 представили K2 Think — революционную модель рассуждения с открытым исходным кодом

Введение
Мохаммед бин Заидский университет искусственного интеллекта (MBZUAI) совместно с технологической компанией G42 объявили о выпуске K2 Think — передовой модели рассуждения с открытым исходным кодом, предназначенной для решения сложных задач в области искусственного интеллекта. Узнайте больше в https://www.g42.ai/resources/news/mbzuai-and-g42-launch-k2-think-leading-open-source-system-advanced-ai-reasoning.

Технические характеристики и производительность
K2 Think содержит 32 миллиарда параметров, что значительно меньше по сравнению с другими флагманскими моделями, такими как GPT-4 и DeepSeek-V3.1, которые имеют более 200 миллиардов параметров. Несмотря на меньший размер, K2 Think демонстрирует сопоставимую производительность в задачах математического и научного рассуждения. Подробнее читайте в https://www.thenationalnews.com/future/technology/2025/09/09/uaes-mbzuai-launches-k2-think-a-smaller-ai-system-to-rival-openai-and-deepseek/.

Инновационные подходы
Модель основана на шести ключевых инновациях, включая обучение с подкреплением с проверяемыми наградами и агентное планирование, позволяющее разбивать сложные задачи на более простые этапы. Подробности доступны в https://www.g42.ai/resources/news/mbzuai-and-g42-launch-k2-think-leading-open-source-system-advanced-ai-reasoning.

Производительность и доступность
K2 Think будет доступна на платформе Cerebras, оптимизированной для высокоскоростного вывода, достигая скорости обработки до 2000 токенов в секунду. Узнайте больше о производительности в https://www.cerebras.ai/press-release/k2-think-pr.

Открытость и прозрачность
В отличие от большинства моделей, K2 Think полностью открыта: доступны данные обучения, веса параметров и программный код для развертывания и оптимизации. Это обеспечивает прозрачность и воспроизводимость для исследовательского сообщества. Детали можно найти в https://www.g42.ai/resources/news/mbzuai-and-g42-launch-k2-think-leading-open-source-system-advanced-ai-reasoning.

Значение для ОАЭ
Выпуск K2 Think подчеркивает стремление ОАЭ к лидерству в области искусственного интеллекта, демонстрируя способность страны разрабатывать передовые технологии и делиться ими с мировым сообществом. Подробнее в https://www.g42.ai/resources/news/mbzuai-and-g42-launch-k2-think-leading-open-source-system-advanced-ai-reasoning.

Факты
👉 K2 Think содержит 32 миллиарда параметров и сопоставима по производительности с моделями, имеющими более 200 миллиардов параметров. Источник: https://www.thenationalnews.com/future/technology/2025/09/09/uaes-mbzuai-launches-k2-think-a-smaller-ai-system-to-rival-openai-and-deepseek/.
👉 Модель достигает скорости обработки до 2000 токенов в секунду на платформе Cerebras. Подробности в https://www.cerebras.ai/press-release/k2-think-pr.

❗️K2 Think представляет собой значительный шаг вперед в области моделей рассуждения, сочетая эффективность, производительность и открытость, что способствует развитию глобального сообщества искусственного интеллекта.

Источники
https://www.g42.ai/resources/news/mbzuai-and-g42-launch-k2-think-leading-open-source-system-advanced-ai-reasoning. https://www.thenationalnews.com/future/technology/2025/09/09/uaes-mbzuai-launches-k2-think-a-smaller-ai-system-to-rival-openai-and-deepseek/. https://www.cerebras.ai/press-release/k2-think-pr.

Data Science | Machinelearning [ru]

18 мар. 2026 г., 09:11

DeepSeek V3.2 в Yandex AI Studio: теперь агенты реально умеют рассуждать

В Yandex AI Studio https://www.kommersant.ru/doc/8478789 модель, которая предназначена для решения сложных пошаговых задач. Агенты на базе этой модели могут сравнивать тендеры, разбирать инциденты, гонять автотесты, поднимать репозиторий и деплоить приложения.

Технически — это полноценный chain-of-thought + tool use, где сессия хранит длинный контекст и повторные обращения. Платформа оптимизирует кеширование и вызов инструментов, так что стоимость сессий падает почти в 4 раза.

Платформа SourceCraft уже интегрировала модель в своего кодового ассистента. ИИ теперь не просто completion — он orchestration.

2,650

14

Data Science | Machinelearning [ru]

18 мар. 2026 г., 09:11

🎥 Video

🦾 Превращаем любой репозиторий в интерактивный ГРАФ ЗНАНИЙ с https://github.com/abhigyanpatwari/GitNexus

GitNexus работает полностью в браузере — просто кидаешь ссылку на GitHub или загружаешь архив и получаешь наглядную карту: файлы, модули, зависимости и связи между ними. Плюс внутри есть ИИ-агент, который отвечает на все вопросы по проекту. Так что можно узнать, где используется функция, как связаны компоненты или за что отвечает конкретный модуль.

По сути, это быстрый способ разобраться в чужом (да и своем…) проекте.

✖️ https://t.me/xCode_Journal

2,630

16

Data Science | Machinelearning [ru]

16 мар. 2026 г., 06:34

📷 Photo

😭 «Меньше 200 тыс. в Москве — лютейшая нищета»

Разраб создал проект Salary Tiers, который разбивает зарплаты по городам и выдает жестокую правду о том, на каком ты уровне жизни.

https://alexwortega.github.io/salary-tiers/

✖️ https://t.me/xCode_Journal

3,000

52

Data Science | Machinelearning [ru]

16 мар. 2026 г., 06:34

Edge AI: видеокамеры с искусственным интеллектом

Введение в Edge AI
Edge AI — это технология, позволяющая обрабатывать данные непосредственно на устройствах, расположенных на периферии сети, таких как видеокамеры, без необходимости передачи информации в облако. Это обеспечивает более быструю обработку данных и снижает задержки, что критично для приложений реального времени.

Преимущества видеокамер с Edge AI
Внедрение искусственного интеллекта в видеокамеры позволяет анализировать видео в реальном времени, повышая эффективность систем видеонаблюдения. Это снижает нагрузку на центральные серверы и уменьшает затраты на передачу данных. Кроме того, такие камеры могут работать автономно, обеспечивая непрерывный мониторинг даже при отсутствии подключения к сети.

Применение в различных отраслях
Видеокамеры с Edge AI находят применение в различных сферах: от промышленности до здравоохранения. В промышленности они используются для контроля качества продукции и обеспечения безопасности на производственных площадках. В здравоохранении такие камеры помогают в мониторинге пациентов и обеспечении безопасности медицинских учреждений.

Технологические достижения
Современные видеокамеры с Edge AI оснащены мощными процессорами и специализированными нейронными сетями, что позволяет им выполнять сложные задачи машинного зрения непосредственно на устройстве. Это включает в себя распознавание лиц, обнаружение аномалий и анализ поведения в реальном времени.

Будущие перспективы
Ожидается, что к 2032 году рынок Edge AI достигнет 35,26 миллиарда долларов США, демонстрируя среднегодовой темп роста 12,35% с 2025 года. Это свидетельствует о растущем спросе на устройства с локальной обработкой данных и их интеграции в различные отрасли.

Факты
👉 К 2032 году рынок Edge AI достигнет 35,26 миллиарда долларов США с CAGR 12,35% с 2025 года
👉 Внедрение Edge AI в видеокамеры снижает задержки обработки данных и повышает эффективность систем видеонаблюдения

❗️Видеокамеры с Edge AI представляют собой значительный шаг вперед в области видеонаблюдения, обеспечивая быструю и эффективную обработку данных непосредственно на устройстве, что открывает новые возможности для различных отраслей.

Источники
https://www.interstorm.ru/ai-reports/2025/edge-ai-interstorm.
https://www.computerra.ru/321382/edge-ai-v-2025-godu-kak-lokalizovannyj-intellekt-otkryvaet-novye-gorizonty-dlya-biznesa/.
https://qhub.md/ru/blog/obzory/supraveghere-video-cu-edge-ai-costuri-mai-mici-mai-multe-posibilitati/.

Data Science | Machinelearning [ru]

16 мар. 2026 г., 06:34

📷 Photo

Станьте Deep Learning Engineer с дипломом 👍

Голосовые помощники, распознавание лиц, рекомендации в приложениях, медицинская диагностика — нейросети используются уже во всех сферах бизнеса. Компании ищут DL-специалистов, чтобы точнее обучать и настраивать нейросети под свои запросы.
Освоить Deep Learning самостоятельно сложно, но ребята из Simulative нашли решение, где учёба становится понятной и структурированной, а все темы разбираются на практике 🔥

Simulative запускает программу профессиональной переподготовки «Инженер глубокого обучения нейросетей».

По итогам обучения вы получите:

🎓 Диплом гособразца
Официальный диплом о профессиональной переподготовке с квалификацией «Специалист по большим данным».

💯 Практика
Более 40 практических работ в формате симуляции реальной работы DL-инженера — всё пойдёт в портфолио.

🙌🏽 Онлайн обучение
Учитесь из любой точки мира, совмещая с работой, а доступ к материалам останется навсегда.

Курс подходит для специалистов любого уровня: новичок, аналитик, ML-инженер или выпускник — на программе опытные менторы помогут выстроить вашу персональную траекторию роста в Deep Learning.

Что вы освоите:
🟠Создание и обучение нейросетей с нуля
🟠Компьютерное зрение (Computer Vision)
🟠NLP (обработка текста)
🟠Генеративные модели
🟠MLOps и продакшн-подход

🕖 Старт обучения — 12 марта, количество мест на поток ограничено

Бронируйте место на курсе прямо сейчас и получите скидку 30%

😶 https://simulative.ru/dl-course?utm_source=telegram&utm_medium=paid-placement&utm_campaign=devsp&utm_content=22-02-2026&erid=

Data Science | Machinelearning [ru]

13 мар. 2026 г., 15:50

📷 Photo

😱 Человек больше не различает фото настоящих людей от сгенерированных

К такому выводу пришли https://unsw.au1.qualtrics.com/jfe/form/SV_9Erbe3ZPzZ5CwOW. В эксперименте (125+ участников) людей просили определить, где реальное лицо, а где созданное ИИ. В результате точность оказалась близка к случайному угадыванию.

А все дело в том, что искусственные лица нередко кажутся более реальными — из-за симметрии и усреднённой привлекательности.

✖️ https://t.me/xCode_Journal

2,900

Data Science | Machinelearning [ru]

13 мар. 2026 г., 15:50

📷 Photo

Укротить машинное обучение — миссия выполнима 💪

В 2026 перед бизнесом стоит задача: окупить расходы на машинное обучение. Точно не обойтись без знаний по MLOps.

На помощь приходит мини-курс по https://slc.tl/3a43a?2W5zFGcFfub https://slc.tl/bh3en?2W5zFGamgdF
Эксперты подробно рассказали:
- как работать с артефактами в MLOps,
- что нужно бизнесу от Feature Store,
- как работать с ML-моделями на open source-платформах.

🔝 Проходите уроки бесплатно по ссылке:

Хотите быть в курсе трендов и реальной практики машинного обучения? Присоединяйтесь к сообществу профессионалов: https://t.me/mlpathway 👈

Эксперты Selectel поделятся тем, как развить надежную ИТ-инфраструктуру для ресурсоемких задач и инференса моделей.

2,780

Data Science | Machinelearning [ru]

11 мар. 2026 г., 21:07

📷 Photo

Transformer простыми словами

Если объяснить максимально просто:
Transformer — это модель, которая понимает контекст через механизм внимания.

Именно на ней построены современные LLM.

Проблема старых моделей

До Transformer были:
👉 RNN
👉 LSTM
👉 GRU

Они читали текст последовательно — слово за словом.

Проблемы:
👉 плохо запоминали длинный контекст
👉 обучались медленно
👉 не параллелились

Нужно было что-то принципиально другое.


Главная идея Transformer — Attention

Transformer не читает текст по порядку.

Он смотрит на всё предложение сразу
и решает, какие слова важны друг для друга.

Например:

«Я положил ноутбук на стол, потому что он был тяжёлый»

Что значит «он»?

Transformer вычисляет, к какому слову это относится,
через механизм внимания.
Это называется Self-Attention.


Что такое Self-Attention интуитивно

Представь, что каждое слово:
👉 смотрит на остальные слова
👉 решает, кому доверять больше
👉 взвешивает их влияние

Математически это:
👉 Query
👉 Key
👉 Value
👉 Softmax
👉 взвешенная сумма

Интуитивно — это просто умное распределение внимания.


Почему это революция

👉 модель видит весь контекст сразу
👉 можно обучать параллельно
👉 отлично работает с длинными последовательностями
👉 хорошо масштабируется

Именно поэтому после статьи
Attention Is All You Need
всё изменилось.


Из чего состоит Transformer

Если сильно упростить:
👉 Embedding
👉 Positional Encoding
👉 Multi-Head Attention
👉 Feed Forward Network
👉 Residual + LayerNorm

И всё это повторяется много раз слоями.


Почему LLM — это просто большой Transformer

Потому что если:
👉 увеличить количество слоёв
👉 увеличить размерность
👉 увеличить объём данных

получается модель, способная:
👉 писать код
👉 объяснять физику
👉 переводить языки
👉 вести диалог


В одном предложении

Transformer — это архитектура,
которая понимает текст через внимание ко всему контексту сразу.

Data Science | Machinelearning [ru]

11 мар. 2026 г., 21:07

🤬 Google Chrome захламляет ПК нейросетями без вашего ведома

Браузер втихую https://x.com/zephyrianna/status/2024962946598949214?s=46 на систему локальную версию Gemini и скрыто запускает, когда надо. Если хотите освободить память:
— Вписываем в браузер адрес chrome://flags/;
— Находим параметр Optimization Guide On Device Model и отключаем его;
— Повторяем с пунктом Prompt API;
— Находим на диске по пути AppData/Local/Google/Chrome/User Data/OptGuideOnDeviceModel/ файл весом в 4 ГБ и удаляем его.

Не благодарите

✖️ https://t.me/xCode_Journal

View on X (Twitter)

2,700

Data Science | Machinelearning [ru]

11 мар. 2026 г., 21:07

🎥 Video

😎 Сеньор-разработчик перепрыгивает с созвона одной валютной удаленки на созвон другой валютной удаленки:

💥 https://t.me/xCode_Journal

2,650

16

Data Science | Machinelearning [ru]

10 мар. 2026 г., 15:55

📷 Photo

Accuracy - худшая метрика в классификации

Accuracy - самая популярная метрика в ML.
И одновременно - самая опасная.

Звучит провокационно? Давай разберёмся.

Почему все любят Accuracy?

Формула максимально простая:

Accuracy =
(количество правильных предсказаний / общее количество объектов)

Если модель угадывает 90% объектов - кажется, что всё отлично.

Но есть одна проблема 👇

Когда Accuracy полностью врёт

Представим задачу:

👉 1000 клиентов
👉 950 — не уйдут (класс 0)
👉 50 — уйдут (класс 1)

Модель, которая всегда предсказывает «0», получит:

👉 950 правильных предсказаний
👉 Accuracy = 95%

95% — звучит круто. Но модель вообще не находит тех 50 клиентов, ради которых бизнес запускал проект. Она бесполезна.

Проблема №1 — дисбаланс классов

Accuracy не чувствительна к перекосу данных.

В задачах:

👉 Fraud detection
👉 Churn prediction
👉 Medical diagnosis

дисбаланс — это норма, а не исключение.

И accuracy начинает вводить в заблуждение.

Проблема №2 — разные ошибки стоят по-разному

В медицине:

👉 False Negative → пациент болен, модель сказала «здоров»
👉 False Positive → пациент здоров, модель сказала «болен»

Цена ошибок совершенно разная. Accuracy этого не учитывает.

Что использовать вместо Accuracy?

Зависит от задачи.

Если важен поиск редкого класса:

👉 Recall
👉 Precision
👉 F1-score

Если важен баланс:

👉 ROC-AUC
👉 PR-AUC

Если классы несбалансированы:

👉 Balanced Accuracy

Когда Accuracy всё-таки можно использовать?

👉 Когда классы сбалансированы
👉 Когда стоимость ошибок одинакова
👉 Когда это baseline

Во всех остальных случаях - это иллюзия качества.

Вывод

Accuracy - не плохая метрика.
Плохой - слепой выбор метрики.

Метрика должна соответствовать бизнес-задаче.
Иначе вы оптимизируете красивую цифру, а не реальную пользу.

Data Science | Machinelearning [ru]

10 мар. 2026 г., 15:55

🎥 Video

Project Genie: Google даёт поиграться с генеративными мирами

Google запустили https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/ — и это первая нормальная возможность для обычных пользователей потрогать Genie-3 руками. По сути, это генератор интерактивных миров: ты отдельно задаёшь промпт для окружения и для персонажа (или просто кидаешь картинку), сначала получаешь превью мира от Nano Banana, правишь детали, а уже потом «заходишь» внутрь. Фантазия вообще ничем не ограничена — можно, например, сделать мир “34th Street–Penn Station” и играть за “Discarded pack of cigarettes”, буквально управляя пачкой сигарет в метро. Плюс есть ремиксы: берёшь персонажа из одного мира, окружение из другого, или копаешься в галерее чужих миров и перекраиваешь их под себя. В итоге это выглядит как песочница между игрой, генеративным артом и прототипированием будущих виртуальных миров — залипнуть реально легко. Единственный минус: доступ пока только для подписчиков Ultra за $250, так что это скорее взгляд в будущее, чем массовый релиз.

2,900

Data Science | Machinelearning [ru]

8 мар. 2026 г., 23:40

📷 Photo

Галлюцинации LLM: где модель помогает, а где уверенно врёт

Большие языковые модели выглядят как всезнающие эксперты. Текст гладкий, уверенный, логичный. Ровно до тех пор, пока не выясняется, что все это были галлюцинации. Давай разберёмся, где галлюцинации — это ожидаемое поведение модели, а где они quietly превращаются в серьёзную проблему.

1. Где галлюцинации — это «нормально»

Модель не знает, она продолжает
LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину.

Недостаток или неоднозначность данных
Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения.

Креативные задачи
В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде.

2. Где начинаются проблемы

Фактические вопросы
Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду.

Генерация кода
• Функции, которых не существует.
• API, которых никогда не было.
• Код выглядит правильно — пока не запускаешь.

Критические домены
Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа.

Уверенный тон без знаний
Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается.

3. Что реально снижает галлюцинации

RAG (привязка к данным)
Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий.

Дообучение и выравнивание
RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой.

Чёткие инструкции:
— отвечай только по контексту
— если не знаешь — скажи
— обоснуй каждый шаг

Иногда этого уже достаточно.

• Пост-проверки и правила
• Тесты для кода
• Проверка ссылок
• Фильтры на запрещённые паттерны

Попросить модель:
— проверить себя
— оценить уверенность
— пересмотреть ответ

4. Что отличает надёжную систему от «просто LLM»

— Модель не единственный источник истины
— Есть данные, проверки и ограничения
— Ошибка ловится до пользователя
— Уверенность ≠ корректность

Галлюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать.

Data Science | Machinelearning [ru]

8 мар. 2026 г., 23:40

📷 Photo

Ищем Data Scientist специалиста в команду RecSys в 2ГИС

Делаем рекомендательные сервисы для всех продуктов компании:
— рекомендации заведений на карте
— улучшение поиска по категориям
— персональные подборки для пользователей

Что будешь делать:
• Писать сервисы для команды рекомендательных систем;
• Разрабатывать системы мониторинга качества рекомендательных систем;
• Настраивать мониторинг и алертинг качества данных;
• Писать unit тесты (pytest), тесты для различных участков ML пайплайна, участвовать в код ревью.

Что важно:
• 3+ года опыта полного ML-цикла
• Сильный Python и SQL
• Классический ML + один из DL-фреймворков (torch / tensorflow / keras)
• Понимание RecSys: подходы, метрики, A/B-тесты
• Опыт с инструментами разработки и CI/CD

Удалёнка или офис. Аккредитованная IT-компания, белая зарплата, конференции, свобода в технологиях.
👉 https://tglink.io/b27267a099e9fe?erid=2W5zFH5nVHj

Другие инженерные инсайты от 2ГИС → в Telegram-канале RnD

2,480

Data Science | Machinelearning [ru]

7 мар. 2026 г., 19:20

📷 Photo

Данные для обучения ИИ в 2026

Идея «интернет как бесконечный датасет» больше не работает. Графики по https://data.stackexchange.com/stackoverflow/query/1932553/data-stack-exchange#graph выглядят тревожно: поток новых вопросов рос до середины 2010-х, потом застыл, а после 2022–2023 начал резко падать. А ведь именно Q&A-площадки были идеальным топливом для LLM: вопрос → контекст → решение → обсуждение → правки.

Давай разберёмся, на чём нейросети будут учиться в 2026-м и где данные всё ещё тащат, а где quietly превращаются в проблему.

Где данные всё ещё — это win

• Очищенный веб вместо «сырого интернета»
CommonCrawl никуда не делся, но в обучение идут уже не сырые скрейпы, а сильно отфильтрованные корпуса. Примеры вроде FineWeb и FineWeb-Edu на Hugging Face показывают новый стандарт: меньше объёма, больше смысла, жёсткая дедупликация и фильтрация AI-мусора.

• Код и инженерные следы
Даже если вопросов становится меньше, разработчики продолжают писать код. Репозитории, PR, issue-дискуссии, changelog’и и migration-гайды — стабильный источник свежего прикладного знания, особенно для reasoning и tool-use.

• Книги и архивы public domain
Происходит тихий разворот к «старым» источникам. Они качественнее случайного веба и юридически безопаснее. Например, корпус public-domain книг от Harvard University — это почти учебник для будущих моделей.

• Логи взаимодействий с продуктами
Диалоги пользователей с ассистентами, оценки «полезно / не полезно», исправления — золото для instruction-tuning и RL. Именно здесь появляется знание о том, как моделью реально пользуются.

Где начинаются выстрелы в ногу

• Исчезновение бесплатных Q&A
Знания уходят в закрытые чаты, корпоративные базы, Slack и Discord. Публичный слой интернета беднеет, а модели теряют источник «живых» инженерных кейсов.

• AI-засорение веба
Самоповторы, SEO-копипаст и синтетика поверх синтетики. Без жёсткой фильтрации это прямой путь к деградации качества.

• Синтетические данные без тормозов
Синтетика дёшева и удобна, но перекорм приводит к замыканию на собственных ошибках и стилю «копия копии». Рабочие пайплайны держатся только на смеси: реальное + синтетика + фильтры.

• Юридические риски
Компании всё меньше готовы «скрейпить и разбираться потом». Лицензирование и партнёрства становятся нормой — как у OpenAI с Stack Overflow.

Что отличает устойчивые датасеты будущего

— Курирование вместо гонки за объёмом
— Model-based filtering и дедупликация
— Чёткое происхождение данных
— Смесь источников, а не ставка на один
— Версионирование и воспроизводимость

Будущее обучения ИИ — это меньше данных, но больше инженерии вокруг них. И если раньше узким местом были модели, то в 2026-м им станет именно качество и происхождение датасетов.

Data Science | Machinelearning [ru]

7 мар. 2026 г., 19:20

📷 Photo

😁 Неделя из жизни IT-конторы

💥 https://t.me/xCode_Journal

2,460

24

Data Science | Machinelearning [ru]

2 мар. 2026 г., 17:18

📷 Photo

ML-модель пересобирает логику ранжирования маршрутов

В Яндекс Картах изменился принцип выбора маршрута, который показывается первым. Раньше это по дефолту был самый быстрый. Теперь порядок определяет ML-модель, которая учитывает не только время в пути, но и множество других факторов: количество поворотов, сложность маневров, историю сходов на участке, предсказуемость движения и другие поведенческие сигналы. Второе важное изменение — переход от задачи ранжирования к задаче выбора (Softmax + one-hot таргет). Модель больше не отвечает на вопрос «какой маршрут лучше в рейтинге?» — она учится угадывать единственный вариант, по которому пользователь действительно поедет. Фактически навигация сместилась от абстрактной оптимизации ETA к предсказанию реального выбора водителя — как если бы система пыталась угадать, какой маршрут человек сам бы выбрал, взглянув на карту. Почему выбрали в итоге не классический для такой задачи YetiRank — в разборе команды на https://habr.com/ru/companies/yandex/articles/994422/.

2,740

Data Science | Machinelearning [ru]

2 мар. 2026 г., 17:18

🎥 Video

ИИ-анимация: где генерация реально тащит, а где без людей всё развалится

DeepMind показали https://blog.google/innovation-and-ai/models-and-research/google-deepmind/dear-upstairs-neighbors/. Короткометражку представили на Sundance, называется она «Dear Upstairs Neighbors» и рассказывает историю девушки с бессонницей и галлюцинациями из-за шумных соседей.

На бумаге звучит как обычный арт-проект, но это хороший пример того, где генеративный ИИ реально ускоряет продакшн, а где сам по себе пока бесполезен. Давай разберёмся.

Сложные визуальные стили
Режиссёр Конни Хи из Pixar нарисовала образы, которые в классической анимации потребовали бы месяцев ручной работы. ИИ здесь выступил как усилитель, а не замена художника.

Сокращение времени производства
Фильм собрали за несколько недель. Без генерации это был бы долгий и дорогой процесс.

Гибкость в итерациях
Модели позволяли быстро пробовать варианты сцен, ритма и образов, не перерисовывая всё с нуля.

Необычный сюжет
История оказалась слишком нешаблонной для «из коробки» генераторов. Без донастройки модели просто не тянули нужную драматургию.

Чистый ИИ не справляется
Сам по себе генератор не может держать стиль, эмоцию и нарратив на протяжении всего фильма. Чтобы всё заработало, понадобилась команда из 45 инженеров DeepMind, которые отдельно тюнили Veo и Imagen, плюс инструменты для локального редактирования кадров.

Что отличает рабочую схему

— Человек задаёт стиль и историю
— Модель оживляет и ускоряет
— Человек снова правит и доводит
— ИИ — инструмент, а не автор

Именно эта петля «аниматор → модель → аниматор» и дала результат.

Будущее анимации не в «ИИ рисует всё сам». Оно в том, что сложные, дорогие и долгие процессы внезапно ужимаются до недель, если ИИ встроен в пайплайн правильно.

Будущее, как обычно, подкралось не громко, а рабочим коммитом.

Data Science | Machinelearning [ru]

2 мар. 2026 г., 17:18

📷 Photo

Маск vs Лекун: очередной раунд старого спора про ИИ и роботов

Илон Маск снова сцепился с Ян Лекун, и это тот случай, когда оба говорят не просто ради твитов. Лекун заявил, что ни одна из современных робототехнических лабораторий толком не понимает, как делать по-настоящему полезных роботов, на что Илон Маск довольно ядовито ответил, что Ян «просто сам не знает, что делать, и думает, что никто не знает». Но Лекун быстро вернул подачу: по его словам, он как раз знает и что делать, и как — просто не теми методами, на которые сейчас ставит индустрия. Его ставка — JEPA, world models и планирование, а не текущий мейнстрим. И вишенка на торте: «в какой-то момент ты поймёшь, что я прав». Старый добрый конфликт подходов — масштабирование и инженерия против фундаментальных моделей мира — снова вышел на поверхность, и, кажется, это спор не на один год.

3,560

Data Science | Machinelearning [ru]

27 февр. 2026 г., 01:18

📷 Photo

Мультиагентные системы: где команда помогает, а где только мешает

Идея собрать команду ИИ-агентов звучит как логичный апгрейд. Ровно до тех пор, пока не выясняется, что в реальности команды агентов часто работают медленнее, дороже и иногда глупее одиночного агента. В https://arxiv.org/html/2512.08296v1, написанной специалистами из Google и MIT, поднимается важный вопрос инженерии: в каких случаях мультиагентная система превосходит по эффективности одиночного агента?

Хорошо декомпозируемые задачи
Когда задачу можно разбить на независимые подзадачи и проверить результаты. Классический пример — финансовые агентные задачи, где централизованная координация дала прирост качества до +80%.

Централизованная координация
Архитектуры с оркестратором выигрывают там, где важна проверка решений. Ошибки ловятся на уровне системы, а не размножаются между агентами.

Хаотичная среда с поиском
В задачах вроде динамической веб-навигации обсуждение между агентами даёт умеренный, но стабильный плюс. Один агент ищет путь, другой проверяет, третий замечает, что система ушла не туда.

Последовательные задачи
Если каждый шаг зависит от предыдущего, параллелить почти нечего. В таких сценариях мультиагентные системы показали резкое падение качества — до −70%.

Дорогая координация
Переговоры между агентами почти всегда стоят дорого:
— независимые агенты: +58% токенов
— децентрализованные: +263%
— централизованные: +285%
— гибридные: до +515%

При фиксированном бюджете это значит одно — токены уходят на разговоры, а не на решение задачи.

Усиление ошибок
Ошибка одного агента легко становится общей. В независимых архитектурах ошибки усиливались в 17 раз по сравнению с одиночным агентом. Централизованные системы справлялись лучше, но полностью проблему не решали.

Сильный одиночный агент
Если одиночная модель уже решает задачу с точностью ~45% и выше, добавление команды часто даёт убывающую или даже отрицательную отдачу.

Что отличает разумное использование команд

— Чёткое понимание, можно ли задачу распараллелить
— Контроль накладных расходов на координацию
— Архитектура с валидацией, а не «демократией ошибок»
— Осознание, что больше агентов ≠ лучше результат

Команда ИИ-агентов — это не универсальный апгрейд. Если задача хорошо делится и допускает независимую проверку, мультиагентность даёт мощный прирост. Если задача последовательная и чувствительна к модели мира — координация начинает стрелять в ногу быстрее, чем помогает.

Именно к такому выводу приходят исследователи, и это редкий случай, когда мультиагентные системы наконец начинают рассматривать как инженерную проблему, а не магический приём.

Showing 30 of 100 posts