MS Office Dosyalarını Markdown'a Çeviren Araç Yayınladı
Microsoft, geliştiricilerin Office dosyalarını hızlıca Markdown formatına dönüştürmesini sağlayan yeni bir Python kütüphanesi olan MarkItDown’u duyurdu. Bu araç, metin analizi ve içerik indeksleme gibi pek çok uygulama için büyük kolaylık sunuyor.
Microsoft, Open Source Python Aracıyla Office Dosyalarını Markdown Formatına Dönüştürüyor
Microsoft, açık kaynaklı yeni bir Python kütüphanesi olan MarkItDown’u tanıttı. Bu araç, kullanıcıların çeşitli dosyaları ve Office belgelerini Markdown formatına dönüştürmelerine olanak tanıyor. Markdown, basit ve anlaşılır bir metin formatı olarak popülerliğini koruyor, özellikle yapay zeka algoritmalarının metni daha kolay analiz edebilmesi nedeniyle tercih ediliyor.
Markdown, metin yapısını belirtmenin hızlı ve etkili bir yoludur. GitHub, Jupyter Notebook gibi yaygın kullanılan araçlarla uyumlu çalıştığı için yazılım geliştiricileri arasında oldukça popülerdir. MarkItDown kütüphanesi ise, geliştiricilere PDF, PowerPoint, Word, Excel gibi dosya formatlarını Markdown formatına dönüştürme imkânı sunuyor. Ayrıca, görsellerin EXIF meta verisini, ses dosyalarındaki konuşma transkriptlerini ve HTML içeriğini de destekliyor.
Şu anda şunları destekliyor:
- PDF (.pdf)
- PowerPoint (.pptx)
- Kelime (.docx)
- Excel (.xlsx)
- Görüntüler (EXIF meta verileri ve OCR)
- Ses (EXIF meta verileri ve konuşma transkripsiyonu)
- HTML (Vikipedi vb.'nin özel kullanımı)
- Çeşitli diğer metin tabanlı formatlar (csv, json, xml, vb.)
Geliştiriciler ayrıca MarkItDown kütüphanesini görüntüleri tanımlamak için Büyük Dil Modelleri kullanacak şekilde yapılandırabilirler. Bunu yapmak için, mlm_client ve mlm_model parametrelerini MarkItDown nesnesine aşağıdaki gibi ayarlamaları gerekir:
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)
Microsoft’un bu kütüphanesi, dosyaların hızlı ve verimli bir şekilde dönüştürülmesini sağlıyor. Geliştiriciler, MarkItDown’u pip komutu aracılığıyla kolayca yükleyebilir ve kullanabilir. Aracın MIT açık kaynak lisansı altında yayımlanması, kullanıcıların aracı özgürce değiştirmelerine ve dağıtmalarına imkân tanıyor. Ancak, dağıtım sırasında orijinal lisans ve telif hakkı bildirimlerinin eklenmesi gerekiyor.
MarkItDown, aynı zamanda GitHub üzerinden indirilebiliyor ve bir web uygulaması olarak da kullanılabiliyor. Bu araç, metin analizi, içerik indeksleme gibi birçok alanda faydalı olacak şekilde geliştiricilere destek sunuyor. Markdown formatına dönüştürme işlemini hızlandıran bu araç, içerik oluşturma süreçlerini daha verimli hale getiriyor.
MarkItDown kütüphanesine GitHub üzerinden erişebilir ve aracın sunduğu özellikleri daha yakından keşfedebilirsiniz.(https://github.com/microsoft/markitdown)
https://github.com/microsoft/markitdown/blob/main/src/markitdown/_markitdown.py#L482
https://github.com/microsoft/markitdown/blob/main/src/markitdown/_markitdown.py#L513
Tepkiniz Nedir?