О парсинге. Идея просто гениальная.
12 октября, 2010
Наткнулся на слайды презентации доклада Сергея Нурк на YaC, Москва, 1 октября 2010 года. «Автоматический сбор данных по примерам».
У меня в голове сложилась полная модель одного интересного проекта, который обдумываю уже пол года.
Качать тут: http://narod.ru/disk/25824717000/_Sergey_Nurk_AutoExtraction_By_Example.pdf.html
P.S. Большое спасибо Сергею за материал.
Ну и чо, парсер экселя в немилость впал? 🙂
Не, с ним всё в порядке. Я думал над тем, как яндекс может определять по сайту содержимое(ключ, значение), думал нейронные сети или что-то ассоциативное. Оказывается всё проще — шаблоны. Но вот о том, что они строят DOM дерево и готовят шаблоны страниц, как-то не задумывался. Теперь мне осталось придумать, как хранить данные.
[…] наткнулся на видео, к презентации, о которой писал http://lenta.iadlab.ru/2010/10/12/o-parsinge-ideya-prosto-genialnaya/ […]