Яндекс: CatBoost

Продукт
Разработчики: Яндекс (Yandex)
Дата премьеры системы: 2017/07/18
Технологии: Средства разработки приложений

CatBoost - метод машинного обучения.

18 июля 2017 года компания Яндекс сообщила о создании метода машинного обучения CatBoost. Он предназначен для обучения моделей на разнородных данных.

В основу берутся сведения о местонахождении пользователя, история операций и тип устройства. Библиотека машинного обучения CatBoost опубликована в открытом доступе, её могут использовать все желающие.

CatBoost заявлена, как наследник метода машинного обучения Матрикcнет - он применяется почти во всех сервисах Яндекса. Как и Матрикснет, CatBoost использует механизм градиентного бустинга (англ. boosting - улучшение): он подходит для работы с разнородными данными.

CatBoost учитывает модели числовых и нечисловых данных - виды облаков или типы зданий. Прежде эти данные переводились на язык цифр, и это могло поменять их суть, повлиять на точность работы модели. Теперь их можно использовать в первоначальном виде. Это помогает CatBoost демонстрировать повышенное качество обучения. Его можно применять в разных сферах - от банковской до производственной.

«
Яндекс много лет занимается машинным обучением, и CatBoost создавали лучшие специалисты в этой области. Выкладывая библиотеку CatBoost в открытый доступ, мы хотим внести свой вклад в развитие машинного обучения. Надо сказать, что CatBoost — российский метод машинного обучения, который стал доступен в open sourсe. Надеемся, что сообщество специалистов оценит его по достоинству и поможет сделать ещё лучше.

Михаил Биленко, руководитель управления машинного интеллекта и исследований Яндекса
»

Метод протестирован на сервисах Яндекса. В рамках эксперимента он применялся для улучшения результатов поиска, ранжирования ленты рекомендаций Яндекс.Дзен и для расчёта прогноза погоды в технологии Метеум. В дальнейшем CatBoost будет работать и на других сервисах. Его использует команда Yandex Data Factory — в своих решениях для промышленности, в частности для оптимизации расхода сырья и предсказания дефектов. Европейский центр ядерных исследований (ЦЕРН) внедрил CatBoost: центр использует продукт для объединения данных, полученных с разных частей детектора LHCb.

Для работы с CatBoost достаточно установить его на компьютер. Библиотека поддерживает операционные системы Linux, Windows и macOS и доступна на языках программирования Python и R.

Загрузка CatBoost доступна на GitHub.

Робототехника





СМ. ТАКЖЕ (7)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Солар (ранее Ростелеком-Солар) (46)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (15)
  Форсайт (11)
  Бипиум (Bpium) (10)
  Axiom JDK (БеллСофт) ранее Bellsoft (10)
  Другие (389)

  Солар (ранее Ростелеком-Солар) (8)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (4)
  Консом групп, Konsom Group (КонсОМ СКС) (2)
  ЛАНИТ - Би Пи Эм (Lanit BPM) (2)
  IFellow (АйФэлл) (2)
  Другие (30)

  Солар (ранее Ростелеком-Солар) (10)
  Форсайт (3)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
  КРИТ (KRIT) (2)
  Cloud.ru (Облачные технологии) ранее SberCloud (2)
  Другие (13)

  Солар (ранее Ростелеком-Солар) (6)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  РЖД-Технологии (3)
  Robin (Робин) (3)
  Другие (23)

  Солар (ранее Ростелеком-Солар) (3)
  Unlimited Production (Анлимитед Продакшен, eXpress) (3)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  Нота (Холдинг Т1) (1)
  Оператор Газпром ИД (ГИД) (1)
  Другие (9)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Солар (ранее Ростелеком-Солар) (2, 48)
  Microsoft (41, 47)
  Oracle (49, 26)
  Hyperledger (Open Ledger Project) (1, 23)
  IBM (33, 18)
  Другие (595, 304)

  Солар (ранее Ростелеком-Солар) (1, 8)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (1, 4)
  Microsoft (4, 3)
  Oracle (2, 3)
  SAP SE (2, 2)
  Другие (16, 19)

  Солар (ранее Ростелеком-Солар) (1, 11)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 3)
  Форсайт (1, 3)
  Сбербанк (1, 2)
  Cloud.ru (Облачные технологии) ранее SberCloud (1, 2)
  Другие (9, 9)

  Солар (ранее Ростелеком-Солар) (1, 6)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 6)
  Мобильные ТелеСистемы (МТС) (1, 4)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 4)
  Форсайт (1, 3)
  Другие (14, 24)

  Мобильные ТелеСистемы (МТС) (2, 3)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 3)
  Солар (ранее Ростелеком-Солар) (1, 3)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
  Гриндата (GreenData) (1, 1)
  Другие (12, 12)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Solar appScreener (ранее Solar inCode) - 48 (48, 0)
  Hyperledger Fabric - 23 (23, 0)
  Windows Azure - 20 (20, 0)
  FIS Platform - 15 (15, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 12 (12, 0)
  Другие 311

  Solar appScreener (ранее Solar inCode) - 8 (8, 0)
  FIS Platform - 4 (4, 0)
  Парадокс: MES Builder - 2 (2, 0)
  Java - 2 (2, 0)
  Siemens Xcelerator - 2 (2, 0)
  Другие 21

  Solar appScreener (ранее Solar inCode) - 11 (11, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 3 (3, 0)
  BSS Digital2Go - 3 (3, 0)
  Cloud ML Space - 2 (2, 0)
  Турбо X - 1 (1, 0)
  Другие 7

  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  Solar appScreener (ранее Solar inCode) - 6 (6, 0)
  МТС Exolve - 4 (4, 0)
  РЖД и Робин: Облачная фабрика программных роботов - 3 (3, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 3 (3, 0)
  Другие 12

  EXpress Защищенный корпоративный мессенджер - 3 (3, 0)
  Solar appScreener (ранее Solar inCode) - 3 (3, 0)
  МТС Exolve - 2 (2, 0)
  ФинПлатформа Т1 - 1 (1, 0)
  Axiom JDK (ранее Liberica JDK до 2022) - 1 (1, 0)
  Другие 8