MS Office Dosyalarını Markdown'a Çeviren Araç Yayınladı

Microsoft, geliştiricilerin Office dosyalarını hızlıca Markdown formatına dönüştürmesini sağlayan yeni bir Python kütüphanesi olan MarkItDown’u duyurdu. Bu araç, metin analizi ve içerik indeksleme gibi pek çok uygulama için büyük kolaylık sunuyor.

MS Office Dosyalarını Markdown'a Çeviren Araç Yayınladı

Microsoft, Open Source Python Aracıyla Office Dosyalarını Markdown Formatına Dönüştürüyor

Microsoft, açık kaynaklı yeni bir Python kütüphanesi olan MarkItDown’u tanıttı. Bu araç, kullanıcıların çeşitli dosyaları ve Office belgelerini Markdown formatına dönüştürmelerine olanak tanıyor. Markdown, basit ve anlaşılır bir metin formatı olarak popülerliğini koruyor, özellikle yapay zeka algoritmalarının metni daha kolay analiz edebilmesi nedeniyle tercih ediliyor.

Markdown, metin yapısını belirtmenin hızlı ve etkili bir yoludur. GitHub, Jupyter Notebook gibi yaygın kullanılan araçlarla uyumlu çalıştığı için yazılım geliştiricileri arasında oldukça popülerdir. MarkItDown kütüphanesi ise, geliştiricilere PDF, PowerPoint, Word, Excel gibi dosya formatlarını Markdown formatına dönüştürme imkânı sunuyor. Ayrıca, görsellerin EXIF meta verisini, ses dosyalarındaki konuşma transkriptlerini ve HTML içeriğini de destekliyor.

Şu anda şunları destekliyor:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Kelime (.docx)
  • Excel (.xlsx)
  • Görüntüler (EXIF meta verileri ve OCR)
  • Ses (EXIF meta verileri ve konuşma transkripsiyonu)
  • HTML (Vikipedi vb.'nin özel kullanımı)
  • Çeşitli diğer metin tabanlı formatlar (csv, json, xml, vb.)

Geliştiriciler ayrıca MarkItDown kütüphanesini görüntüleri tanımlamak için Büyük Dil Modelleri kullanacak şekilde yapılandırabilirler. Bunu yapmak için, mlm_client ve mlm_model parametrelerini MarkItDown nesnesine aşağıdaki gibi ayarlamaları gerekir:

from markitdown import MarkItDown

from openai import OpenAI

client = OpenAI()

md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")

result = md.convert("example.jpg")

print(result.text_content)

Microsoft’un bu kütüphanesi, dosyaların hızlı ve verimli bir şekilde dönüştürülmesini sağlıyor. Geliştiriciler, MarkItDown’u pip komutu aracılığıyla kolayca yükleyebilir ve kullanabilir. Aracın MIT açık kaynak lisansı altında yayımlanması, kullanıcıların aracı özgürce değiştirmelerine ve dağıtmalarına imkân tanıyor. Ancak, dağıtım sırasında orijinal lisans ve telif hakkı bildirimlerinin eklenmesi gerekiyor.

MarkItDown, aynı zamanda GitHub üzerinden indirilebiliyor ve bir web uygulaması olarak da kullanılabiliyor. Bu araç, metin analizi, içerik indeksleme gibi birçok alanda faydalı olacak şekilde geliştiricilere destek sunuyor. Markdown formatına dönüştürme işlemini hızlandıran bu araç, içerik oluşturma süreçlerini daha verimli hale getiriyor.

MarkItDown kütüphanesine GitHub üzerinden erişebilir ve aracın sunduğu özellikleri daha yakından keşfedebilirsiniz.(https://github.com/microsoft/markitdown)

https://github.com/microsoft/markitdown/blob/main/src/markitdown/_markitdown.py#L482

https://github.com/microsoft/markitdown/blob/main/src/markitdown/_markitdown.py#L513

Tepkiniz Nedir?

like

dislike

love

funny

angry

sad

wow