Language:

Search

Mistral bổ sung API mới giúp biến bất kỳ tài liệu PDF nào thành tệp Markdown sẵn sàng cho AI

  • Share this:
Mistral bổ sung API mới giúp biến bất kỳ tài liệu PDF nào thành tệp Markdown sẵn sàng cho AI

Vào thứ Năm, nhà phát triển mô hình ngôn ngữ lớn tiếng Pháp (LLM) Mistral đã ra mắt API mới dành cho các nhà phát triển xử lý các tài liệu PDF phức tạp. Mistral OCR là API nhận dạng ký tự quang học (OCR) có thể biến bất kỳ tệp PDF nào thành tệp văn bản để giúp các mô hình AI dễ dàng nhập hơn.

LLM, nền tảng của các công cụ GenAI phổ biến như ChatGPT của OpenAI, hoạt động đặc biệt tốt với văn bản thô. Vì vậy, những công ty muốn tạo quy trình làm việc AI của riêng mình biết rằng việc lưu trữ và lập chỉ mục dữ liệu ở định dạng rõ ràng để dữ liệu này có thể được sử dụng lại cho quá trình xử lý AI trở nên cực kỳ quan trọng.

Không giống như hầu hết các API OCR, Mistral OCR là một API đa phương thức, nghĩa là nó có thể phát hiện khi có hình minh họa và ảnh đan xen với các khối văn bản. API OCR tạo các hộp giới hạn xung quanh các thành phần đồ họa này và đưa chúng vào đầu ra.

Mistral OCR cũng không chỉ xuất ra một bức tường văn bản lớn; kết quả đầu ra được định dạng trong Markdown, một cú pháp định dạng mà các nhà phát triển sử dụng để thêm liên kết, tiêu đề và các thành phần định dạng khác vào tệp văn bản thuần túy.

LLM phụ thuộc rất nhiều vào Markdown cho tập dữ liệu đào tạo của họ. Tương tự, khi bạn sử dụng trợ lý AI, chẳng hạn như Le Chat của Mistral hoặc ChatGPT của OpenAI, chúng thường tạo Markdown để tạo danh sách dấu đầu dòng, thêm liên kết hoặc in đậm một số thành phần. Các ứng dụng Trợ lý định dạng liền mạch đầu ra Markdown thành đầu ra văn bản đa dạng thức. Đó là lý do tại sao văn bản thô — và Markdown — trở nên quan trọng hơn trong những năm gần đây khi GenAI bùng nổ.

“Qua nhiều năm, các tổ chức đã tích lũy rất nhiều tài liệu, thường ở định dạng PDF hoặc slide, mà LLM không thể truy cập được, đặc biệt là các hệ thống RAG. Với Mistral OCR, khách hàng của chúng tôi giờ đây có thể chuyển đổi các tài liệu phong phú và phức tạp thành nội dung có thể đọc được bằng mọi ngôn ngữ,” Guillaume Lample, đồng sáng lập và giám đốc khoa học của Mistral cho biết.

“Đây là một bước quan trọng hướng tới việc áp dụng rộng rãi trợ lý AI ở những công ty cần đơn giản hóa việc truy cập vào tài liệu nội bộ khổng lồ của họ,” ông nói thêm.

 

Mistral OCR có sẵn trên nền tảng API của Mistral hoặc thông qua các đối tác đám mây của Mistral (AWS, Azure, Google Cloud Vertex, v.v.). Và đối với các công ty làm việc với dữ liệu mật hoặc nhạy cảm, Mistral cung cấp dịch vụ triển khai tại chỗ.

Theo công ty AI có trụ sở tại Paris, Mistral OCR hoạt động tốt hơn các API của Google, Microsoft và OpenAI. Công ty đã thử nghiệm mô hình OCR của mình với các tài liệu phức tạp bao gồm các biểu thức toán học (định dạng LaTeX), bố cục hoặc bảng nâng cao. Nó cũng được cho là hoạt động tốt hơn với các tài liệu không phải tiếng Anh.

Tín dụng hình ảnh:Mistral

Vì Mistral OCR thực hiện một việc và chỉ một việc duy nhất nên công ty tin rằng nó cũng nhanh hơn những gì hiện có. Không có gì ngạc nhiên nếu bạn so sánh nó với LLM đa phương thức như GPT-4o, cũng có khả năng OCR (trong số nhiều tính năng khác).

Mistral cũng đang sử dụng Mistral OCR cho trợ lý AI của riêng mình Le Chat. Khi người dùng tải tệp PDF lên, công ty sẽ sử dụng Mistral OCR ở chế độ nền để hiểu nội dung trong tài liệu trước khi xử lý văn bản.

Các công ty và nhà phát triển rất có thể sẽ sử dụng Mistral OCR với hệ thống RAG (còn gọi là Thế hệ tăng cường truy xuất) để sử dụng các tài liệu đa phương thức làm đầu vào trong LLM. Và có nhiều trường hợp sử dụng tiềm năng. Ví dụ: chúng tôi có thể hình dung các công ty luật sử dụng nó để giúp họ nhanh chóng xử lý khối lượng tài liệu khổng lồ.

RAG là một kỹ thuật được sử dụng để truy xuất dữ liệu và sử dụng dữ liệu đó làm bối cảnh với mô hình AI tổng hợp.

Tech Crunch