Напишите нам

Подготовка текстовых данных для задач машинного обучения

Методы машинного обучения активно проникают во многие области нашей жизни. Идея машинного обучения достаточно проста: найти закономерность в имеющихся данных, и распространить ее на новые данные. Методы обучения с учителем применяются, когда в части данных, закономерности уже выявлены, а для новых данных их нужно предсказать. Не секрет, что качество предсказания моделей в первую очередь зависит от качества подготовки обучающей выборки. И подготовка последней (разметка данных) требует значительных трудозатрат. Если мы говорим о данных, описывающих специфическую предметную область, то к значительным трудозатратам нужно прибавить и требования к квалификации специалистов, формирующих обучающую выборку. Специалисты должны обладать навыками работы с данными, умением быстро погружаться в новую для себя предметную область. Эффективная подготовка обучающей выборки должна поддерживаться соответствующим программным обеспечением.

В ходе многолетней проектной деятельности по разработке и ведению систем НСИ в нашей компании сформировался коллектив специалистов, обладающих требуемыми навыками. Компания обладает собственным программным обеспечением для обработки текстовых данных. Косвенный результат наших проектов — массив (текстовые описания объектов, используемых в деятельности производственных предприятий — материалы, контрагенты, оборудование), представляющий из себя параллельный корпус нормализованных текстов, дополнительно размеченных в терминах продуктовых онтологий и отраслевых классификаторов. Объем корпуса позволяет использовать его в создании соответствующих систем машинного обучения. Наличие такого массива данных позволяет нам активно развивать и применять методы машинного обучения в своей проектной деятельности. Полагая, что наши наработки могут быть интересны и полезны сторонним специалистам, мы разработали программное обеспечение Data Master , с описанием которого вы можете ознакомиться в разделе Продукты .

Наличие:
— квалифицированных трудовых ресурсов,
— более чем 15-ти летнего опыта обработки текстовых данных,
— специализированного программного обеспечения для обработки текстовых данных,
— глубокое практическое понимание методов машинного обучения,
позволяет предложить нам сотрудничество компаниям, занимающимся реализацией решения задач обработки естественного языка, решаемых методами машинного обучения.

Ваши модели — наша разметка данных!