Ideje za konfe

Uzeti grafički dio koji su kolege radile u prijašnjim sessionima kao uvod i sada objasniti na tehničkom nivou – kako napraviti isto na svom modelu, na svom kompu ali bez ikakvih restrikcija.
Vjerujem da je ovo svima zanimljivo i lakše za pratiti jer je sadržaj grafički a i radi se u grafičkom sučelju, osim toga bang-for-buck je fenomenalno…ne moras čekati, besple je, neograničeno i najvažnije nema nikakvih restrikcija.
Ovo je najbrži način za čovjeka bez puno specifičnog AI tehničkog znanja da dotrenira neki moderni AI model i ima instant value.
Nakon što pogleda ovaj uvod svaki od posjetitelja ( ukoliko znaju poslati email ) će moći reproducirati viđeno doma.

Alati : računalo sa instaliranim python/conda, pip i primjerenom grafičkom karticom

  • Što je StableDiffusion
    Objasniti spregu llm-a i diffusera bez puno matematike, objasniti kako se dobija tekst embeding prompta i kako se njim se uz pomoć diffusera stvara slika
  • Performanse
    Kako ga upogoniti i koji su benefiti lokalne instalacije te što možemo očekivati od kojeg hw,pokazati omjere cijena i brzine renderiranja za nekoliko suvremenih kartica
  • Featuri diffusion modela
    Tehnički background featura koje vide u Midjourneyu i Daleeu, što su steps, seed, inpainting…
  • Alati
    predstaviti ukratko UI alati koji olakšavaju rad sa sirovim modelima (comfy vs automatic1111)
  • Instalacija
    Uživo proći instalaciju na lokalnom windows računalu ( vjerovatno automatic1111 )
  • Embeddings
    objasniti word embedinge u kontekstu SD kroz uživo kloniranje umjetničkog stila ili osobe
  • Dodatni featuri Automatic11111
    CLIP, navođenje modela sa poseNetom ili 3d sadržajem , možda uživo pokazati interior design / visualisation
  • LoRa
    upotreba i stvaranje LoRa, downloadati i loadati loru sa civit.ai, izrenderirati neki prompt za usporedbu
  • Final
    stvaranje svog chekpointa / pakiranje i merganje napravljenog u svoj model ( ne vjerujem da bi ovo zadnje stigli )

Iz nule document indexing sustav pogonjen modernim NLP tehnikama i alatima ( Lanchain Ragatoile / ColBert za Information retrival/RAG )
Ovo je dosta suhoparno, pisalo bi se puno po tipkovnici i slicno, ali je isto atraktivno jer bi ljudima objasnilo kako radi Google.
Ne vjerujem da bi mogli stići sve, pa mozda neki dio ovoga

Alati : snažno računalo sa instaliranim python/conda, pip, langchain

  • što su word vektori i povijest embedinga
    bow, word2vec (objasniti da se rijeci, recenice i tekstovi mogu izraziti kao fixed length vektori koji se dalje tretiraju matematicki i onda opet renderiraju u tekst)
  • Što je IR, indexing, RAG
  • Arhitektura modernog sustava
    objasniti arhitekturu IR sustava (u videu je dijagram)
  • Indexing
    napraviti bota koji surfa netom i internet stranice razbije na tokene i indexira s Lanchain Ragatoile
  • Sučelje
    search sucelje (input i button) koje šalje na api “search”;
  • Retrival / query
    api implementacija Lanchain Ragatoile za IR;

Demonstriramo SOTA audio modele i mogućnopsti Warp-a u edge pipeline-ima kroz stvaranje potpuno automatiziranog sustava za generaciju audio drama.
Za konfu se izradi posebni profil ili aplikacija koju posjetitelji mogu potražiti unutar warp-a i sami koristiti neko vrijeme pojedine alate/aplikacije nakon eventa, besplatno ( one koje ce im biti najzanimljivije, kloniranje glasa npr. ).

Alati : računalo sa instaliranim modernim preglednikom

  • Što je Warp
    Kako pristupiti, što su Inspectori i Brandovi
  • Speech to text
    pokazati nekoliko nivoa kvalitete speech2text, demonstrirati alat za Whisper
  • Razbijanje teksta na strukturirani kod sa govornicima (dieratisation) sa cgpt
    Uzeti kratki tekst ( ili dugi pa razbiti na context window length ) i promptati cgptu da vrati json sa govornicima
    napraviti brand “AudioDrama” za ovu strukturu
  • Stvaranje heurističkog glumca / govornika
    Napraviti JS objekt i brand “Actor” koji imlpementira .speak() metodu, ima property name, za svakog govornika iz “AudioDrama” -e
  • Kloniranje glasa
    Demonstrirati uživo snimanje i kloniranje za “Actore” sa 11labs ili styletts2 ( ak mi je server live)
  • Generiranje pozadinskih zvukova sa AudioLM
  • Generiranje glazbe sa StableAudio
  • Final
    napraviti renderer za “AudioDrama” koji izrenderira JSON strukturu u audio timeline sa govornicima i pozadinskim zvukovima