Google Imagen 3 ile Yapay Zeka da Yeni Dönem Başlıyor

Imagen 3, yapay zekâ destekli görsel oluşturma alanında devrim niteliğinde bir adım atmaktadır. Google'ın bu yeni modeli, dil zekâsı ve görsel işleme teknolojilerini birleştirerek kullanıcıların metinlerden yüksek kaliteli görseller üretmesine olanak tanımaktadır. Bu yazıda, Imagen 3'ün temel özelliklerini ve nasıl çalıştığını keşfedeceğiz.

Yapay Zeka Şubat 26, 2025 0 861 Okuma Listesine Ekle

Google Imagen 3 ile Yapay Zeka da Yeni Dönem Başlıyor

Imagen 3: Yapay Zeka ile Sanatın Yeni Ufukları

Google, metin tabanlı görsel üretme alanında çığır açan Imagen 3'ü tanıtarak, yapay zekanın sanat dünyasına entegrasyonunu önemli bir noktaya taşımış oldu. Bu yeni model, görsel kalitesini sadece arttırmakla kalmıyor, aynı zamanda kullanıcı deneyimini ve etik standartları da yeniden şekillendiriyor. Peki, Imagen 3’ü diğer benzer sistemlerden ayıran özellikler ne? İşte detaylar…

Teknik Altyapı: Dil ve Görselin Büyülü Uyumu

Imagen 3, karmaşık görsel işleme süreçlerini gerçekleştiren görsel tabanlı modellerin ve büyük dil modellerinin (LLM) birleşimiyle çalışıyor. Model, kullanıcının verdiği metni ilk olarak dil modeliyle analiz ediyor, kelimeler arasındaki ilişkileri, metaforları ve anlam inceliklerini doğru bir şekilde kavrıyor. Bu veriler, daha sonra sinir ağları aracılığıyla görsel hale getiriliyor.

Görselleştirme Süreci: Bu süreç, başta dağılmış ve dağınık bir görüntüden başlayıp, zamanla net ve detaylı bir görsele dönüşmeyi içeriyor. Imagen 3’te, bu süreç daha verimli hale getirilmiş ve görsellerdeki ışık yansımaları, doku detayları gibi unsurlar çok daha gerçekçi işlenebiliyor. Örneğin, "altın rengi bir gün batımında dans eden balerin" gibi karmaşık bir istekte, model ışığın kırılması ve kumaşın dokusu gibi ince detayları hassas bir şekilde işliyor.
Dil ve Görsel Entegrasyonu: Model, Transformer mimarisi sayesinde metni parçalara bölmeden bütünsel olarak değerlendiriyor. Örneğin, "1950'lerin retro tarzındaki bir uzay istasyonu" talimatı verildiğinde, renk paleti ve mimari detaylar o döneme ait estetiğe uygun şekilde şekilleniyor.

Rakiplerle Karşılaştırma: DALL-E 3, MidJourney ve Grok-2

Imagen 3’ün yeteneklerini daha iyi anlayabilmek için rakipleriyle karşılaştırmak faydalı olacaktır:

DALL-E 3 (OpenAI): DALL-E 3, metin ile görsel uyumu konusunda oldukça başarılı; ancak Imagen 3, ışıklandırma ve kompozisyon gibi detaylarda öne çıkıyor.
MidJourney: Sanatsal stiller konusunda MidJourney hâlâ lider olsa da, Imagen 3 fotogerçekçilik ve günlük dilde daha etkili bir şekilde istem işliyor.
Grok-2 (xAI): Elon Musk’a ait bu model, etik kısıtlamaları göz ardı edebiliyor. Örneğin, Grok-2, siyasi figürleri oluşturabilirken, Imagen 3 telifli karakterleri ve ünlüleri engelliyor.

Telif Hakkı ve Etik Sınırlar: Yaratıcılık ile Sorumluluk Arasında

Google, Imagen 3'ü piyasaya sürerken telif hakkı ihlalleri ve zararlı içerikler için çeşitli önlemler aldı:

Kara Liste Sistemi: Ünlü isimler ve logolar (Taylor Swift, Mickey Mouse gibi) doğrudan engellendi. Ancak kullanıcılar, "kırmızı tişörtlü, sarı saçlı bir çizgi film karakteri" gibi tanımlamalarla bu engeli aşabiliyor.
SynthID Filigranı: Görsellere eklenen bu görünmeyen filigran, içeriğin yapay zekâ tarafından üretildiğini işaretliyor. Bu, telif hakkı denetiminde önemli olsa da, bazı kullanıcılar bunun "sanatsal özgürlüğe müdahale" olarak nitelendiriyor.

Kullanıcı Deneyimi: Sanatçılar İçin Kolaylaştırılmış Yaratım

Imagen 3, AI Test Kitchen ve Vertex AI platformları üzerinden kullanılabiliyor. Kullanıcılar basitçe metin kutusuna istedikleri ifadeyi yazıyor; örneğin: "Ejderha şeklinde duyarlı bir bulutun 3 boyutlu görüntüsü, karnında parlayan şimşekler, karmaşık detaylar, arka planda ışıldayan gökyüzü". Sistem birkaç saniye içinde dört farklı seçenek sunuyor. Beğenilen görsel üzerinde inpainting veya outpainting gibi düzenlemeler yapılabiliyor. Ücretsiz kullanıcılar günlük sınırlı jetonla başlıyor, ancak ücretli planlarda çözünürlük ve düzenleme araçları daha geniş.

Sınırlamalar ve Tartışmalar

Dil Desteği: Şu anda sadece İngilizce talimatlarla yüksek performans gösteriyor. Türkçe ifadelerde, özellikle soyut ve mecaz anlamlı cümlelerde bazen tutarsızlıklar oluşabiliyor.
İnsan Figürleri: Ücretsiz hesaplar, insan yüzü üretemiyor. Bu özellik sadece kurumsal kullanıcılara açık.
Yapaylık İzleri: Bazen, eller veya simetrik yapılar gibi karmaşık detaylarda hatalar görülebiliyor.

Görsellerin Oluşturulması

Bu kısımda, Imagen modelinin kurulumu ve görsel üretme süreci detaylı bir şekilde açıklanmaktadır.

Google'ın Üretken Yapay Zeka SDK'sını yükledikten sonra, görselleri oluşturmak için şu kodu kullanabilirsiniz:

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Fuzzy bunnies in my kitchen',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

Imagen model parametreleri

generate_images() için aşağıdaki parametreler kullanılabilir:

prompt: Resim için metin istemi.
number_of_images: Oluşturulacak resim sayısı (1 ile 4 arasında). Varsayılan değer 4'tür.
aspect_ratio: Oluşturulan resmin en boy oranını değiştirir. Desteklenen değerler: "1:1", "3:4", "4:3", "9:16" ve "16:9". Varsayılan değer: "1:1".
safety_filter_level: Güvenlik filtresine bir filtre düzeyi ekler. Aşağıdaki değerler geçerlidir:
- "BLOCK_LOW_AND_ABOVE": Olasılık puanı veya önem puanı LOW, MEDIUM veya HIGH olduğunda engelleyin.
- "BLOCK_MEDIUM_AND_ABOVE": Olasılık puanı veya önem puanı MEDIUM ya da HIGH olduğunda engelleyin.
- "BLOCK_ONLY_HIGH": Olasılık puanı veya önem puanı HIGH olduğunda engelleyin.
person_generation: Modelin insanların resimlerini oluşturmasına izin verin. Aşağıdaki değerler desteklenir:
- "DONT_ALLOW": İnsanların yer aldığı resimlerin oluşturulmasını engelleyin.
- "ALLOW_ADULT": Çocuklara ait değil, yetişkinlere ait görseller oluşturun. Bu varsayılan ayardır.

Oluşturulan resimlere her zaman görünmeyen dijital bir SynthID filigranı eklenir.

Gelecek Vizyonu: Google Ekosistemine Entegrasyon

Google, Imagen 3'ü daha da geliştirmeyi ve ekosistemine entegre etmeyi planlıyor. Örneğin:

Slides’ta Otomatik Görsel Üretme: Sunumlar için anında görsel oluşturulabilecek.
Reklam Metinlerinden Görsel Önerileri: Markalar, ürün açıklamalarıyla birlikte hedef kitlelerine uygun görseller alabilecek.