Coder, если бы в .docs теги соответствовали тегам html (хоты бя схожестью архитектуры) тогда вообще бы не было никаких проблем. Все бы решил str_replace. Только .docs чтобы прочитать, из него сначала нужно сделать zip архив в котором будут xml файлы. Один из этих файлов отвечает за содержимое. Вот пример просто заголовка в тексте:
Код |
---|
<w:p w:rsidR="000B6759" w:rsidRPr="000B6759" w:rsidRDefault="000B6759" w:rsidP="000B6759"><w:pPr><w:ind w:firstLine="709"/><w:jc w:val="both"/>
<w:rPr><w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/><w:b/><w:color w:val="333333"/><w:sz w:val="28"/>
<w:szCs w:val="28"/><w:shd w:val="clear" w:color="auto" w:fill="FFFFFF"/><w:lang w:val="ru-RU"/></w:rPr></w:pPr><w:r w:rsidRPr="000B6759"><w:rPr>
<w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/><w:b/><w:color w:val="333333"/><w:sz w:val="28"/>
<w:szCs w:val="28"/><w:shd w:val="clear" w:color="auto" w:fill="FFFFFF"/><w:lang w:val="ru-RU"/></w:rPr><w:t xml:space="preserve">
Это заголовок статьи
</w:t></w:r></w:p><w:p w:rsidR="000B6759" w:rsidRPr="000B6759" w:rsidRDefault="000B6759" w:rsidP="000B6759">
<w:pPr><w:ind w:firstLine="709"/><w:jc w:val="both"/><w:rPr><w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/>
<w:color w:val="333333"/><w:sz w:val="28"/><w:szCs w:val="28"/><w:shd w:val="clear" w:color="auto" w:fill="FFFFFF"/><w:lang w:val="ru-RU"/></w:rPr>
</w:pPr><w:r w:rsidRPr="00884D2F"><w:rPr><w:rFonts w:ascii="Times New Roman" w:hAnsi="Times New Roman" w:cs="Times New Roman"/><w:b/>
<w:color w:val="333333"/><w:sz w:val="28"/><w:szCs w:val="28"/><w:shd w:val="clear" w:color="auto" w:fill="FFFFFF"/><w:lang w:val="ru-RU"/></w:rPr><w:t> |
Вот какая по вашему здесь должна быть php регулярка, чтобы превратить его в html аналог или сгенерировать css стиль =)
И это только самый простой пример (маленький кусочек кода оформления лишь заголовка). А представьте сколько в word'e всяких разных инструментов редактирования текста, даже если не брать в рассчет все остальное, что в нем может быть (таблицы, картинки, диаграммы и прочее)