【项目内容描述】
项目目的:最终目的将论文word,pdf 转变成一个html,要解析出word/pdf的段落,图片,表格,公式.我们就可以把解析出来的内容进行加工处理, 变成一个好看的html,并且拼成xml存入数据库.
1. 需求,把论文word和论文pdf解析出来,解析出来的内容顺序不能打乱,比如一个图片在一个段落中,那么解析出来的内容,图片应该还在段落中.
2. 解析论文word为例,能将标题、作者、关键字、段落、引用文献解析出来。
3. 段落中可能包含图片、公式、表格。
4. 要求能提供java语言调用解析的api,或者其他语言编写的程序java能访问,比如webservic、http协议等。
5. 要求提供源码,我们以后可能根据需求修改。