⚪️ LiteParse от LllamaIndex, это бесплатно
У LLamaIndex сейчас основной бизнес - это LlamaParse для преобразования документов разного типа в читаемый агентами формат. Довольно навороченная штука, но платная - хотя и бесплатный тир (и не маленький) тоже имеет.
У нее теперь LiteParse - бесплатный opensource вариант, но без агентов/моделей. Заявлено что круче Markitdown / PyPDF / PyMuPDF. Не использует VLM.
🔗 Почитать блог: https://www.llamaindex.ai/blog/liteparse-local-document-parsing-for-ai-agents
🔗 Репка : https://github.com/run-llama/liteparse
🔗 Анонс :
https://x.com/jerryjliu0/status/2034665976428724267
(ц) Ползеная штука, да.
——
▶️ Все же знают аналоги? Помимо упомянутых в посте еще отметил бы: https://github.com/opendataloader-project/opendataloader-pdf
——
▶️ Fast Office document extraction for LLMs and agents. Converts DOCX, XLSX, CSV, PPTX, and PDF into clean markdown, structured JSON IR, and Docling output : https://github.com/ThomAub/officemd
——
▶️ MarkIt. Convert anything to markdown. PDF, DOCX, PPTX, XLSX, HTML, EPUB, Jupyter, RSS, images, audio, URLs, and more. Pluggable converters, built-in LLM providers for image description and audio transcription. Works as a CLI and as a library : https://github.com/Michaelliv/markit