наткнулся на видео, к презентации, о которой писал http://lenta.iadlab.ru/2010/10/12/o-parsinge-ideya-prosto-genialnaya/
Наткнулся на слайды презентации доклада Сергея Нурк на YaC, Москва, 1 октября 2010 года. «Автоматический сбор данных по примерам».
У меня в голове сложилась полная модель одного интересного проекта, который обдумываю уже пол года.
Качать тут: http://narod.ru/disk/25824717000/_Sergey_Nurk_AutoExtraction_By_Example.pdf.html
P.S. Большое спасибо Сергею за материал.
Наткнулся на две библиотеки:
1. PHPExcel.
2. PHP_Excel_parser_pro_4.5.
Первая — клёвая, файл грузится в память, доступен как объект, можно работать с листиками, ячейками. Судя по докам библиотека ещё умеет пересчитывать формулы в ячейках О_о. НО! жрёт память как паровоз. и мне показалось, что медленно работает. (прайс лист от dns-shop.ru (размером в 3 мегабайта, 11 листов, где-то 9000 строк суммарно, по 15 ячеек в строке=135000 ячеек) жрал под 150 мегабайт памяти).
Вторая — коже клёвая, листики и ячейки доступны как массив, работать так же легко, файл грузит в память в массив. Памяти жрёт меньше. (тот же прайс, но уже 70 мегабайт). Работает вроде шустрее.
Для проектов выбрал вторую. Написал врэпер, уместил его в библиотеку. Теперь могу удобно работать из своего фреймворка.