Preview only show first 10 pages with watermark. For full document please download

Machine Learning в модерации - андрей рыбинцев (avito)

1. ML в Модерации Применение машинного обучения и анализа данных в процессах модерации Авито…

   EMBED

  • Rating

  • Date

    May 2018
  • Size

    363.9KB
  • Views

    9,470
  • Categories


Share

Transcript

1. ML в Модерации Применение машинного обучения и анализа данных в процессах модерации Авито Андрей Рыбинцев 2. Модерация в Авито Объявление Неправильная категория Запрещённый товар ... Правила 3. Автоматизация • Экспертные правила • b(куплю|приобрету|прим(?:у|ет) в дар)b => Объявление о покупке • Новые автомобили: Цена < 150000 => Нереалистичная цена • Машинное обучение 4. Пример: запрещённый товар Пистолет Запрещённый товар (оружие) 5. Визуальные классы Классификатор (нейронные сети) База данных размеченных изображений Изображение Визуальный класс 1500+ классов 6. Визуальные классы Блок питания Клатч Нож ВАЗ 2107 7. Пример: несоответствующее фото Фото не является собственным Нет лица Нет лица Нет лица 8. Пример: неправильная категория Текст объявления Pymorphy2 TFIDF SGDClassifier cat1:prob1 cat2:prob2 cat3:prob3 … cat1:prob1 cat2:prob2 cat3:prob3 … XGBoost Правильная / неправильная категория 9. Пример: некорректное описание "кхоъ" N-граммы Классификатор по частотам "плохое слово" кх, хо, хъ кхо, хоъ 10. Пример: повторная подача 11. Решения с конкурсов 12. Инфраструктура Детектор дубликатов 5000+ строк кода500+ воркеров 250+ GB 10k+ hits/s ML 13. Аналитика Обоснование проблемы Реализация Оценка Инфраструктура ML 14. Метрики и качество • Автоматический режим • Нарушение = блокировка • Важно не заблокировать лишнее Precision -> 1.0 • Подсказки модераторам • Нарушение = подсказка • Важно не пропустить ничего Recall -> 1.0 15. Вопросы? Андрей Рыбинцев Unit Leader @ Moderation Systems [email protected]