Ideje za konfe

1. Napravite svoj Midjourney

Uzeti grafički dio koji su kolege radile u prijašnjim sessionima kao uvod i sada objasniti na tehničkom nivou – kako napraviti isto na svom modelu, na svom kompu ali bez ikakvih restrikcija.
Vjerujem da je ovo svima zanimljivo i lakše za pratiti jer je sadržaj grafički a i radi se u grafičkom sučelju, osim toga bang-for-buck je fenomenalno…ne moras čekati, besple je, neograničeno i najvažnije nema nikakvih restrikcija.
Ovo je najbrži način za čovjeka bez puno specifičnog AI tehničkog znanja da dotrenira neki moderni AI model i ima instant value.
Nakon što pogleda ovaj uvod svaki od posjetitelja ( ukoliko znaju poslati email ) će moći reproducirati viđeno doma.

Alati : računalo sa instaliranim python/conda, pip i primjerenom grafičkom karticom

Što je StableDiffusion
Objasniti spregu llm-a i diffusera bez puno matematike, objasniti kako se dobija tekst embeding prompta i kako se njim se uz pomoć diffusera stvara slika
Performanse
Kako ga upogoniti i koji su benefiti lokalne instalacije te što možemo očekivati od kojeg hw,pokazati omjere cijena i brzine renderiranja za nekoliko suvremenih kartica
Featuri diffusion modela
Tehnički background featura koje vide u Midjourneyu i Daleeu, što su steps, seed, inpainting…
Alati
predstaviti ukratko UI alati koji olakšavaju rad sa sirovim modelima (comfy vs automatic1111)
Instalacija
Uživo proći instalaciju na lokalnom windows računalu ( vjerovatno automatic1111 )
Embeddings
objasniti word embedinge u kontekstu SD kroz uživo kloniranje umjetničkog stila ili osobe
Dodatni featuri Automatic11111
CLIP, navođenje modela sa poseNetom ili 3d sadržajem , možda uživo pokazati interior design / visualisation
LoRa
upotreba i stvaranje LoRa, downloadati i loadati loru sa civit.ai, izrenderirati neki prompt za usporedbu
Final
stvaranje svog chekpointa / pakiranje i merganje napravljenog u svoj model ( ne vjerujem da bi ovo zadnje stigli )

2. Napravite svoj Google search

Iz nule document indexing sustav pogonjen modernim NLP tehnikama i alatima ( Lanchain Ragatoile / ColBert za Information retrival/RAG )
Ovo je dosta suhoparno, pisalo bi se puno po tipkovnici i slicno, ali je isto atraktivno jer bi ljudima objasnilo kako radi Google.
Ne vjerujem da bi mogli stići sve, pa mozda neki dio ovoga

Alati : snažno računalo sa instaliranim python/conda, pip, langchain

što su word vektori i povijest embedinga
bow, word2vec (objasniti da se rijeci, recenice i tekstovi mogu izraziti kao fixed length vektori koji se dalje tretiraju matematicki i onda opet renderiraju u tekst)
Što je IR, indexing, RAG
Arhitektura modernog sustava
objasniti arhitekturu IR sustava (u videu je dijagram)
Indexing
napraviti bota koji surfa netom i internet stranice razbije na tokene i indexira s Lanchain Ragatoile
Sučelje
search sucelje (input i button) koje šalje na api “search”;
Retrival / query
api implementacija Lanchain Ragatoile za IR;

3. AI Audio sa Warp-om

Demonstriramo SOTA audio modele i mogućnopsti Warp-a u edge pipeline-ima kroz stvaranje potpuno automatiziranog sustava za generaciju audio drama.
Za konfu se izradi posebni profil ili aplikacija koju posjetitelji mogu potražiti unutar warp-a i sami koristiti neko vrijeme pojedine alate/aplikacije nakon eventa, besplatno ( one koje ce im biti najzanimljivije, kloniranje glasa npr. ).

Alati : računalo sa instaliranim modernim preglednikom

Što je Warp
Kako pristupiti, što su Inspectori i Brandovi
Speech to text
pokazati nekoliko nivoa kvalitete speech2text, demonstrirati alat za Whisper
Razbijanje teksta na strukturirani kod sa govornicima (dieratisation) sa cgpt
Uzeti kratki tekst ( ili dugi pa razbiti na context window length ) i promptati cgptu da vrati json sa govornicima
napraviti brand “AudioDrama” za ovu strukturu
Stvaranje heurističkog glumca / govornika
Napraviti JS objekt i brand “Actor” koji imlpementira .speak() metodu, ima property name, za svakog govornika iz “AudioDrama” -e
Kloniranje glasa
Demonstrirati uživo snimanje i kloniranje za “Actore” sa 11labs ili styletts2 ( ak mi je server live)
Generiranje pozadinskih zvukova sa AudioLM
Generiranje glazbe sa StableAudio
Final
napraviti renderer za “AudioDrama” koji izrenderira JSON strukturu u audio timeline sa govornicima i pozadinskim zvukovima