1. Napravite svoj Midjourney
Uzeti grafički dio koji su kolege radile u prijašnjim sessionima kao uvod i sada objasniti na tehničkom nivou – kako napraviti isto na svom modelu, na svom kompu ali bez ikakvih restrikcija.
Vjerujem da je ovo svima zanimljivo i lakše za pratiti jer je sadržaj grafički a i radi se u grafičkom sučelju, osim toga bang-for-buck je fenomenalno…ne moras čekati, besple je, neograničeno i najvažnije nema nikakvih restrikcija.
Ovo je najbrži način za čovjeka bez puno specifičnog AI tehničkog znanja da dotrenira neki moderni AI model i ima instant value.
Nakon što pogleda ovaj uvod svaki od posjetitelja ( ukoliko znaju poslati email ) će moći reproducirati viđeno doma.
Alati : računalo sa instaliranim python/conda, pip i primjerenom grafičkom karticom
- Što je StableDiffusion
Objasniti spregu llm-a i diffusera bez puno matematike, objasniti kako se dobija tekst embeding prompta i kako se njim se uz pomoć diffusera stvara slika - Performanse
Kako ga upogoniti i koji su benefiti lokalne instalacije te što možemo očekivati od kojeg hw,pokazati omjere cijena i brzine renderiranja za nekoliko suvremenih kartica - Featuri diffusion modela
Tehnički background featura koje vide u Midjourneyu i Daleeu, što su steps, seed, inpainting… - Alati
predstaviti ukratko UI alati koji olakšavaju rad sa sirovim modelima (comfy vs automatic1111) - Instalacija
Uživo proći instalaciju na lokalnom windows računalu ( vjerovatno automatic1111 ) - Embeddings
objasniti word embedinge u kontekstu SD kroz uživo kloniranje umjetničkog stila ili osobe - Dodatni featuri Automatic11111
CLIP, navođenje modela sa poseNetom ili 3d sadržajem , možda uživo pokazati interior design / visualisation - LoRa
upotreba i stvaranje LoRa, downloadati i loadati loru sa civit.ai, izrenderirati neki prompt za usporedbu - Final
stvaranje svog chekpointa / pakiranje i merganje napravljenog u svoj model ( ne vjerujem da bi ovo zadnje stigli )
2. Napravite svoj Google search
Iz nule document indexing sustav pogonjen modernim NLP tehnikama i alatima ( Lanchain Ragatoile / ColBert za Information retrival/RAG )
Ovo je dosta suhoparno, pisalo bi se puno po tipkovnici i slicno, ali je isto atraktivno jer bi ljudima objasnilo kako radi Google.
Ne vjerujem da bi mogli stići sve, pa mozda neki dio ovoga
Alati : snažno računalo sa instaliranim python/conda, pip, langchain
- što su word vektori i povijest embedinga
bow, word2vec (objasniti da se rijeci, recenice i tekstovi mogu izraziti kao fixed length vektori koji se dalje tretiraju matematicki i onda opet renderiraju u tekst) - Što je IR, indexing, RAG
- Arhitektura modernog sustava
objasniti arhitekturu IR sustava (u videu je dijagram) - Indexing
napraviti bota koji surfa netom i internet stranice razbije na tokene i indexira s Lanchain Ragatoile - Sučelje
search sucelje (input i button) koje šalje na api “search”; - Retrival / query
api implementacija Lanchain Ragatoile za IR;
3. AI Audio sa Warp-om
Demonstriramo SOTA audio modele i mogućnopsti Warp-a u edge pipeline-ima kroz stvaranje potpuno automatiziranog sustava za generaciju audio drama.
Za konfu se izradi posebni profil ili aplikacija koju posjetitelji mogu potražiti unutar warp-a i sami koristiti neko vrijeme pojedine alate/aplikacije nakon eventa, besplatno ( one koje ce im biti najzanimljivije, kloniranje glasa npr. ).
Alati : računalo sa instaliranim modernim preglednikom
- Što je Warp
Kako pristupiti, što su Inspectori i Brandovi - Speech to text
pokazati nekoliko nivoa kvalitete speech2text, demonstrirati alat za Whisper - Razbijanje teksta na strukturirani kod sa govornicima (dieratisation) sa cgpt
Uzeti kratki tekst ( ili dugi pa razbiti na context window length ) i promptati cgptu da vrati json sa govornicima
napraviti brand “AudioDrama” za ovu strukturu - Stvaranje heurističkog glumca / govornika
Napraviti JS objekt i brand “Actor” koji imlpementira .speak() metodu, ima property name, za svakog govornika iz “AudioDrama” -e - Kloniranje glasa
Demonstrirati uživo snimanje i kloniranje za “Actore” sa 11labs ili styletts2 ( ak mi je server live) - Generiranje pozadinskih zvukova sa AudioLM
- Generiranje glazbe sa StableAudio
- Final
napraviti renderer za “AudioDrama” koji izrenderira JSON strukturu u audio timeline sa govornicima i pozadinskim zvukovima