Stability AI, DeepFloyd IF AI görüntü oluşturucuyu kullanıma sunuyor
Mevcut nesil AI destekli görüntü oluşturucular harika şeyler yapıyor, ancak bazı eksiklikleri de var ve bunlardan biri, bir binada “bar ve restoran” veya “otel, boş yer yok” gibi görüntülerde karakterler oluşturmak. DeepFloyd AI laboratuvarı, tam olarak bunu çözmesi gereken AI If görüntü oluşturucuyu geliştirdi. Yazılı foto-gerçekçi temsillere ek olarak, logo tasarımı gibi grafik görevler için de uygun olmalıdır.
![](https://Haberler.cloudimg.io/width/4096/q50.png-lossy-50.webp-lossy-50.foil1/_Haber_/imgs/71/3/5/7/7/5/0/5/Titel-df2303001-6173a7b8c6f2e140.jpg)
DeepFloyd, geliştirdiği Stable Diffusion görüntü üreteci ile tanınan yazılım üreticisi Stability AI tarafından desteklenmektedir. Adı, 1965’te kurulan İngiliz rock grubu Pink Floyd’u anımsatıyor. If algoritmasının adı da aynı adlı Pink Floyd hitinden ödünç alındı. Görüntü oluşturucu için düzenlenmiş metinler, “Model olsaydım açık kaynak olurdum” diyor. Aynı stüdyo, aynı adlı görüntü oluşturucunun Rusça kopyası olan RU Dall-E’yi de geliştirdi.
Google Imagen rol modeli
If, Google Imagen’in daha önce yayınlanmamış yapay zeka görüntü oluşturucusunu temel alır ve Stable Diffusion’dan tamamen farklı bir mimariye sahiptir. Görüntü oluşturucu, basamaklı bir piksel difüzyon modeline bağlı bir büyük dil modeli (LLM) içerir.
Dil modeli olarak T5-XXL-1.1 kullanılmış ve Google Research, İngilizce LLM’yi açık kaynak olarak yayınlamıştır. Dondurulmuş metin kodlayıcı, istemi daha iyi anlamaya yardımcı olmak için tasarlanmıştır, ancak anahtar sözcükler eklemez, bunun yerine difüzyon modeline girdi olarak daha anlamlı bir vektör üretir. Diğer görüntü oluşturucular, çok modlu mimariye sahip AI CLIP (Contrastive Language-Image Pretraining) modeline dayanır.
ben model olsam
İlk olarak If, istemden 64 x 64 piksel boyutlarında bir görüntü oluşturur. Farklı sayıda parametreye sahip üç temel model vardır: IF-I 400M, IF-I 900M ve IF-I 4.3B. Bunu, 256 x 256 piksellik ara aşama aracılığıyla 1024 x 1024 piksellik doğal çözünürlüğe ulaşana kadar daha fazla ayrıntı aldığı süper çözünürlükte iki çalışma aşaması takip eder.
Birinci düzey süper çözünürlük için iki model IF-II 400M ve IF-II 1.2B mevcuttur.; ikinci aşama için IF-III 700M modeli. Ekteki sayılar, milyon (M) veya milyar (B) cinsinden parametre sayısını ifade eder.
![](https://Haberler.cloudimg.io/width/696/q50.png-lossy-50.webp-lossy-50.foil1/_Haber_/imgs/18/4/1/5/2/6/0/3/IF-Architektur-7b825594a046c1c9.png)
If mimarisi: Başında Google’ın T5 XXL Büyük Dil Modeli var. Ardından, görüntü oluşturucunun üç difüzyon modelini izleyin.
Görüntü üreteci, toplam 4,3 milyar parametreli LAION-A veri seti ile eğitildi. LAION-5B veri kümesinden yaklaşık 1,2 milyar görüntü içerir. Karşılaştırma için: Üreticiye göre, Midjourney V5 eğitimi sırasında 5 milyar görüntü parametresi ve Stable Diffusion XL için 2,1 milyar parametre kullanıldı.
Lisans ve kullanılabilirlik
Şimdiye kadar Deepfloyds IF kullanan çevrimiçi bir görüntü oluşturucu yoktur. Yazılım Github’dan indirilebilir. Önceki lisans, ticari amaçlar için değil, yalnızca araştırma için kullanıma izin verir.
(acr)
Haberin Sonu