Recommender Systems und Personalisierung
Shownotes
Anwendungsbereiche und Hintergründe mit Marcel Kurovski
Recommender-Experte Marcel Kurovski beschreibt verschiedene Typen von Recommender Systemen und ihre Anwendungsgebiete.
Paper aus der Folge:
- Tapestry - ein 1992 als wahrscheinlich erstes Recommender System auf Basis von Collaborative Filtering: “Using Collaborative Filtering to Weave an Information Tapestry” (Goldberg et al., 1992) https://dl.acm.org/doi/pdf/10.1145/138859.138867
- Cross-Domain Recommender Systems: “Recommending Podcasts for Cold-Start Users Based on Music Listening and Taste” (Nazari et al., Spotify, 2020): https://arxiv.org/pdf/2007.13287.pdf
- Item-basierte Empfehlungen bei Amazon: “Amazon.com Recommendations: Item-to-Item Collaborative Filtering” (Linden et al., Amazon.com, 2013): https://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf
Kurse und Bücher:
- Coursera: Recommender Systems Specialization: https://www.coursera.org/specializations/recommender-systems
- Recommender Systems Handbook (Ricci et al., 2022): https://www.amazon.de/-/en/Francesco-Ricci-dp-1071621963/dp/1071621963
- Practical Recommender Systems (Falk, 2019): https://www.manning.com/books/practical-recommender-systems
Blogposts und Podcast:
- “Recsperts - Recommender Systems Experts” (https://www.recsperts.com/) - bei Spotify und überall sonst, wo es Podcasts gibt: https://open.spotify.com/show/6VD2KroeVVimEtUOQ75Q8V?si=7e35451b4f044012
- inovex Blogpost: Fairness in Recommender Systems - How to Reduce the Popularity Bias (Eva Engel)
- Recommender Systems bei inovex: https://www.inovex.de/de/leistungen/data-science/recommender-systems
Sonstige:
- ACM Conference on Recommender Systems (RecSys): https://recsys.acm.org/recsys22/
- Netflix Prize (2006-2009): https://en.wikipedia.org/wiki/Netflix_Prize
Twitter: https://twitter.com/inovexgmbh Instagram: https://www.instagram.com/inovexlife/ www.inovex.de www.inovex.de/blog
Transkript anzeigen
00:00:00: Intro
6566: Hallo und herzlich willkommen zu dir zu tun future dem inovex Podcast mein Name ist Wolfgang Schoch und ich unterhalte mich heute mit meinem Kollegen Marcel Kurovski über wie Commander Marcel schön dass du da bist wie geht's dir denn.
7202: Ja danke für die Einladung wir hatten schon drüber gesprochen es wird so langsam wärmer
7202: und auch ich merke die die zunehmende Hitze aber es ist noch erträglich und ansonsten ist natürlich so Sonne immer äußerst gut fürs Gemüt also mir geht's gut ja.
6566: Ja richtig gut also Sonne ist auf jeden Fall toll fürs Gemüter spüren
6566: ich auch was die Temperatur angeht also ich sende heute live aus der Sauna bei mir zu Hause ich glaube also ich habe normal zum kleinen Thermometer bei mir im Büro gehabt
6566: und der der Akku ist leer oder die Batterie ist leer und ich hatte letztes Jahr Spitzentemperaturen von weit über 30 Grad und ich glaube dass ich die 30° heute echt schon gerissen habe aber
6566: dann gibt's jetzt na ich wollte schon sagen dann gibt's noch eine leichte Unterhaltung am Abend aber das stimmt ja gar nicht.
6566: Da war mal das da war meine Terminplanung wollte ich für richtig gut.
7202: Ja aber als Moderator bringst du mich ja gleich ins Schwitzen insofern.
6566: Artifact also ok so betrachtet stehen Twitter Marcel wir wollen uns heute über recomendo unterhalten und ich freue mich dass du mein Gesprächspartner dafür bist denn ich glaube dass du,
6566: der große Experte freeCommander bei unserem Unternehmen bist also ist meine Wahrnehmung auf jeden Fall.
7202: Das freut mich zu hören.
6566: Also du hast eine eigenen Recommender Podcast du bist auf Konferenzen erzählst du über Rico Mende und du arbeitest in Projekten
6566: daran dass du Kunden glücklich machst indem du recomendo optimiert dann entwickelt für die also insofern ist es aus meiner Wahrnehmung auf jeden Fall schon mal ein guter Experten level.
7202: Ja und natürlich um den innovex Logan zu vervollständigen Kunden glücklich aber natürlich auch mich selbst damit.
6566: So wird ein Schuh draus ja perfekt Marcel befahrbar Einsteigen in das Thema Recommender wie ist denn eigentlich so deine Laufbahn was machst du bei uns wo kommst du her und wie bist du auf den na jetzt nicht auf den Hund gekommen sondern auf den Weg Kommentar.
7202: Ja ursprünglich ich bin derzeit in Köln und das schon seit,
7202: über fünf Jahren war für mich etwas eine Rückkehr wobei auch nicht so wirklich da ich tatsächlich Ostwestfalen komme und dann meine Studienzeit am gleichen Standort
7202: beschäftigt oder meine Studienzeit am gleichen Standort hatte wie unser unser Hauptsitz oder nicht unser Hauptsitz aber unser größter sitzen nicht in Karlsruhe also ich habe hier einen Karlsruhe ursprünglich Wirtschaftsingenieurwesen Bachelor und Master studiert
7202: mich dann etwas im Ausland rumgetrieben,
7202: und dachte mir dann irgendwann okay jetzt hast du Karlsruhe genug gesehen und bist die Baustellen jetzt auch satt und vor kurzem ich war vor zwei Wochen mal wieder in Karlsruhe konnte ich sehen dass es jetzt fertig ist und ich,
7202: dieser Technologie U-Bahn total faszinierend also eine Bahn die unterhalb der Erde fährt
7202: na ja und das war das erste Mal dass ich so als Alumnus quasi von Karlsruhe oder von keiti in den Genuss kam das mal zu erleben wo ich Tag,
7202: ein Tag aus als Baustelle dran vorbeifahren dürfte das war mal ganz nett.
7202: Na ja und dann begab es sich so ca Ende 2016 da ich schon relativ im Feld machine-learning unterwegs war
7202: mich da mit dem Master beschäftigt hatte Vorlesung dazu hatte und aber auch.
7202: Seminararbeiten zu stehen und dass ich mir so ja gut jetzt stehst du zu deiner Masterarbeit
7202: was machst du und dann dachte ich mir so ja du kannst natürlich standardmäßig im Institut schreiben du kannst aber auch gucken ob du ein cooles Unternehmen findest wo du deine Masterarbeit in der Kooperation schreiben kannst,
7202: und dann bin ich tatsächlich ganz zufällig über innovex gestolpert und dachte mir die Rechnung anfangen hey das ist ne ganz coole Sache
7202: und so kam es dann dass ich meine Master Thesis über das Thema deep learning für recomendo Systeme
7202: betreut von Florian Wilhelm und der Zusammenarbeit mit mobile.de außerdem Fahrzeug Marktplatz geschrieben hatte und das war insofern der Keim meines riesigen Enthusiasmus für das Thema,
7202: Personalisierung und Recommender Systeme im Speziellen was mich jetzt so schon seit 5 Uhr
7202: 6 Jahren durch meine Karriere als als data scientist begleitet und wo ich auch aktuell dass das Glück und die Chance haben das als im Brecht auch umzusetzen.
6566: Das ist natürlich schon beeindruckend wenn man 56 Jahre Erfahrung in einem Bereich sammeln kann dann ich glaube das ist das ist ein guter Weg um da halt wirklich gut drin zu werden wenn man sich auf eine Sache über so einen langen Zeitraum konzentrieren kann
6566: und wenn man natürlich auch die Motivation die Lust hat dann diesem Thema einfach zu wachsen und da einfach besser zu werden übrigens
6566: der Florian der war auch schon zu Gast und zwar gemeinsam mit dem Robin da haben wir uns über KI vs mathematische Modellierung Unterhalt.
7202: Ja ja und ja also ich stimme dir zu und ich habe da auch immer interessante Diskussionen zu so quasi dieses Spezialisten versus Generalisten Mindset
7202: also es war nicht so dass ich mich in den letzten 5-6 Jahren als data scientist bei Novex ausschließlich mit rekombinant beschäftigt hatte ich habe gerade mit Rico Männern gestartet hatte dann das Glück dass ich
7202: das was ich in meiner
7202: Master-Thesis erarbeitet hatte tatsächlich als mein erstes Projekt auch beim Kunden umsetzen durfte also genau das Gegenteil von dem was man manchmal
7202: so and wavy hört nach dem Motto ja die master thesis Bachelor Thesis wie auch immer ist nur fürs Regal
7202: ann Devine diesem Fall definitiv nicht fürs Regal also ist bei mir die coolste Anerkennung die man hören kann in der Manager in dem Unternehmen dann sagt ja cool dann machen wir das und man sich dann sofort sich denkt
7202: oh shit on aber es war ein positiv geladenes shit weil dann musste man sich natürlich tatsächlich ganz andere Gedanken machen und raus aus der
7202: Modellentwicklung Blase rein in die wie skaliere ich das wie produktive recht das ganze wie,
7202: trainiere ich das noch mal neu und so weiter also ich habe schon ganz von relativ beginnen anders gesehen,
7202: was man heute so gemeinhin ja als ml Ops bezeichnet also hinter ml ob es steckt noch mal mehr als das womit ich mich damals beschäftigt hatte
7202: ja und so hat mich der Dickdarm von dort aus so in den Bereich order forecasting so im Lebensmitteleinzelhandel.
7202: Gebracht dann habe ich mal etwas ml Engineering gemacht zugeguckt isoforce prediction Modelle auf GPUs und CPUs immer gleich skalieren,
7202: dann wieder ein bisschen Personalisierung auch gemacht und ja mich
7202: emotions effect Analysen beschäftigt und jetzt bin ich tatsächlich gerade im Medienbereich Streaming wo ich unterstütze dabei quasi freeCommander verschiedener
7202: Ansätze mit auf die Straße zu bekommen und auch etwas bei der Architektur unterstütze und dort versuche denn den Beitrag zu leisten dass die Nutzer und NutzerInnen dann letztlich relevante Inhalte angezeigt bekommen.
6566: Es war gerade schon mal ein ganz gutes Stichwort finde ich wenn du es da unterschiedliche Ansätze bei Telekom ändern ansprichst
6566: Marcel 1 uns noch mal mit auf die Reise wenn wir uns über recomendo unterhalten ich glaube man kann dies einfach übersetzen und kommt dann irgendwo bei Empfehlung
6566: Schiene Empfehlungssystem oder Empfehlungen raus und
6566: also ich denke das sofort an solche Sachen wie Spotify oder ähnliche Vorschläge bei Amazon oder auch Netflix
6566: bei mir angezeigt wird Hey Wolfgang schau mal dieses Produkt dieser Film dieser song er könnte dir gefallen schaue noch mal kurz rein oder oder kaufst doch bitte direkt,
6566: das ist schon meine erste Assoziation dich damit habe aber nimm uns doch mal mit auf die Reise vor
6566: und dann willkommen daher und wie hat sowas vielleicht angefangen und was habe ich mit interessieren was ist vielleicht zu der einfachste technische Weg um sonrie Kommentar zu bauen und.
6566: Wie hat sich das entwickelt in den letzten Jahren.
7202: Ja sehr gerne also allein darüber zu sprechen wie es sich in den letzten Jahren entwickelt hat das wäre wahrscheinlich schon ein abendfüllendes Programm dann machen wir definitiv weiter euch glaube wir fangen glaube ich erstmal so beim beim beim Ursprung an,
7202: also du hast im Wesentlichen schon die Paradebeispiele genannt mit mit Spotify als guten Repräsentanten im Medienbereich Netflix ist da auch sehr
7202: aktiv und du hast natürlich auch andere große Player im E-Commerce Bereich mit Amazon die zwei Taster sächlich schon
7202: Ende der 90er ein wesentliches paper in dem Bereich zu item-based collaborative filtering publiziert haben was das genau ist dazu kommen wir dann sicherlich gleich noch aber du hast auch andere Bronson wie z.b. social media sites face,
7202: Instagram oder auch Dinge wie LinkedIn und XING.
7202: Und ja so kannst du eigentlich in in vielen Bereichen des digitalen Lebens sagen dass wir dort von Personalisierung umgeben sind.
7202: Und ja quasi einer der der einfachsten Ansätze ist eigentlich
7202: keine Personalisierung also ist quasi ein unpersonalisierte Kommentar
7202: und das wird sich direkt einleuchtend mein viele die irgendein video streaming Dienste nutzen damals mal den populärsten Netflix die werden sehen dass bei Netflix Gras in der Home Ansicht,
7202: auf einer der ersten obersten Reihen so etwas steht die Top Ten in Germany wahrscheinlich für die meisten der Hörer und was man dort halt sehen kann ist
7202: natürlich kenne ich jetzt nicht die genaue berechnungslogik aber es ist sehr naheliegend dass das ein sogenannter,
7202: popularitäts basierter Recommender ist das heißt da wird nach der Popularität der Items wobei Items hier also im TV
7202: Serien oder im Filme oder auch Kombinationen sein können gerankt das heißt
7202: da wird einfach geschaut was also in einem gewissen Zeitraum die meisten das meiste positive Feedback bekommen hat.
7202: Da sind wir auch gerade schon bei einer zweiten sehr wichtigen Komponente von rekom ändern es gibt nur drei Grundkomponenten die kann man sagen die sind mittlerweile auch etwas erweitert worden und das sind quasi die Nutzer.
7202: Das sind die Items und das ist das Feedback also quasi die Personen für die ich,
7202: recommandations generiere und das müssen nicht nur Individuen sein das kommt tatsächlich auch Gruppen sein also es gibt ein ganzes Forschungsfeld das heißt blue based recommendations
7202: aber gehen wir in der Regel davon aus dass wir quasi in die Individuen haben und wir dich personalisierte Empfehlungen erstellen.
6566: Also die Benutzer so wie du oder ich einfach dir.
7202: Genau genauso wie ich so wie du und ich nerve du hast Recht andere Dinge die für dich bei Amazon relevant sind oder die für dich bei Spotify relevant sind als für mich und so vermisst man Daten Personalisierung.
7202: Genau in der richtigen Ecke bei Items das quasi das zweite große bucket das ist quasi was wird vorgeschlagen.
7202: Und da ist es halt auch so dass auch wenn ich eine Plattform habe sie jetzt z.b. sagen wir mal linkedin.
7202: Dass das was was vorgeschlagen wird sehr unterschiedlich sein kann.
7202: Also linkedin ist Jan professionelles Social Network wo man also eben Karriere Kontakte knüpft
7202: aber auch z.b. nach neuen Job sucht sich selbst darstellt um Inhalte zu teilen um an seiner persönlichen Marke zu fallen et cetera gib mir ganz viele verschiedene Use Cases für die man LinkedIn nutzen kann
7202: und insofern sind die Items in Anführungsstrichen auch anlassen wieso sage ich dann Anführungsstrichen na ja weil die Items auch wieder den Rum die Nutzer der Plattform sind
7202: ja weil ich kann jetzt mal besagen ach der Wolfgang ist auf LinkedIn.
7202: Der Wolfgang ist mit 6 Leuten von innovex verknüpft
7202: Bei linkedin also das sind seine direkten Kontakte und jetzt kommt Marcel und schreibt in seinem Profil hey ich arbeite bei einer weg damit es Marcel natürlich schon ein er
7202: relevante ra Kontakt für Wolfgang als irgendeine beliebige Person die bei irgendeinem x-beliebigen Unternehmen arbeitet weil wir etwas gemeinsam haben wir eine Ähnlichkeit zwischen uns besteht und wo Ähnlichkeiten sind das
7202: korreliert immer mit
7202: Relevanz und insofern bin ich wahrscheinlich ein relevanter Kontakt für Wolfgang als eben eine x-beliebige Person und zack
7202: plötzlich traurig wenn der Wolfgang seine linkedin Homepage ausmacht als neuer Kontakt Vorschlag offen.
7202: Aber wie gesagt auch nur eine Kategorie weil dann gibt es natürlich es gibt posts also man kennt die LinkedIn Feed wo dann Dinge drin stehen wie ne was sind die wichtigsten joins in SQL
7202: bisschen zu welche neue hotshit Technologie gibt es
7202: über jemand richtig über ihren Thema bei der Deutschen Bahn auf undsoweiterundsofort dieser Link ist natürlich auch für jeden persönlich zugeschnitten besteht natürlich auch aus Werbung.
7202: Und das ist was ich auch wieder um item also Beiträge Post Ja wird auch bekannt die größten Items und natürlich sind Job Postings auch eine Kategorie von altem soll ich habe eine Plattform aber ich habe ganz unterschiedliche Kategorien von Items aus dem Becher.
7202: Mix aus in welcher Mixer erstelle das ist das zweite wichtige Element also NutzerInnen Nutzer.
7202: Items und last but not least ist es genau die Brücke nämlich das Feedback und das Feedback ist eigentlich immer wer interagiert womit.
7202: Inwiefern kann ja z.b. bei dem linkedin Beispiel zu bleiben ich kann Link im Post liken das ist ein explizites positives Feedback weil ich tue diese Aktion in der Intention,
7202: meine Präferenz damit ausdrücken also sagen ich mag das deswegen handlich.
7202: Ich kann aber auch tatsächlich einen Post nehmen und diesen Post teilen.
7202: Wann ist was implizit vielleicht positives Feedback weil ich kenne Person bei der ich weiß dass das ein relevanter er hat für sie ist und deswegen leite ich diesen Inhalt an andere Person weiter.
7202: Und durch dieses Teilen habe ich wieder eine Admin Interaktion die kann natürlich auch sagen dass dieser Content für mich relevanter war.
7202: Als etwas womit ich nicht installiert habe ein Beispiel wo man dieses implizite und explizite was ich sehr wichtig finde noch ein bisschen besser darstellen kann ist am Beispiel von Netflix Netflix hatte lange Zeit.
7202: Diese Möglichkeit dass man die Items und dazu werden wir auch gleich noch mal kommen mit Sternen bewerten konnte auf einer Skala von 1 bis 5 mit 1 2 3 4 oder 5 Sternen.
7202: Deine Bewertung abgeben wurde.
7202: Und natürlich ne die Bewertung entspricht der persönlichen Präferenz insofern zeige ich halt Erdinger an bei denen nicht dann sehe ok weil die sind ähnlich zu Sachen die halt mit fünf Sternen bewertet wurden.
7202: Und das implizite ist aber habe ich eine Serie die mir angezeigt wurde nur angeklickt.
7202: 15 Sekunden lang angeguckt die erste Episode beispielsweise wenn dann wieder raus oder ob ich die ersten zwei Folgen mir angeschaut das sind zwei völlig unterschiedliche Dinge also in dem zweiten Fall ist das,
7202: starkes Signal dass das ein für mich relevant der Inhalt ist im zweiten Fall kann es sogar negatives Feedback sein,
7202: was natürlich keine Präferenz ist aber genauso ein richtiges Signal weil um herauszufinden was für Menschen relevant ist ist nicht nur sinnvoll darauf zu gucken was sie mögen sondern auch darauf zu gucken was sie nicht mögen.
6566: Aber beides eine starke Gewichtung einfach hat also bei der Serie die jetzt zu 100 Folgen hat wenn ich mit die ersten beiden Folgen anschauen und dann wochenlang nichts passiert dann ist das sicherlich ein guter Indikator dafür dass ich
6566: dass ich die Tarifrecht interessant finde vom Titel her oder verwende description oder Form vom Cover aber danach zwei folgenden wie die Flinte ins Korn werfen weil ich merke Cordes gar nicht mehr ins.
7202: Genau genau also was YouTube da z.b. macht es ist sehr interessant die hatten 2016 paper veröffentlicht wo sie auch über deep learning
7202: angewendet auf den YouTube recommended auf einen YouTube re Kommentar sprechen
7202: also muss da immer unterscheiden in Beckum ändern Modelle freeCommander Systeme also ein System ist schon quasi die Aggregation da sind verschiedene Komponenten da sind z.b. noch businessworld drin und so weiter und so fort und ein einzelnes Modell.
7202: Quasi eher eine Komponente eines gesamten Systems und insofern.
7202: YouTube Bad wahrscheinlich sehr viele re Kommentar Modelle haben von denen auch sehr viele parallele getestet werden unterschiedlichste Konfiguration und so weiter und dann wird ein Modell vorgestellt.
7202: Und haben sie auch gesagt wie sie heißt und diesen Feedback Daten von den Youtuber natürlich massiver hat umgehen und fahren Sie dort gesagt.
7202: Um quasi das clickbait Problem zu vermeiden dass Leute also hier Videos posten und diese Videos Relevanz bekommen wo dann so kriegt dieser eine Trick macht sie reich.
7202: Was würde passieren ja also wenn ich jetzt reich werden will dann kriege ich da vielleicht einmal drauf wenn ich reich sein werde,
7202: möchte und naiv bin dann klicke ich da drauf und dann kriege ich plötzlich so mit ihr da versucht mir das jemand Shampoo zu verkaufen.
7202: Und Krieg relativ schnell mit das ist überhaupt nicht relevant für mich aber ich habe trotzdem draufgeklickt und wenn ich jetzt ein Reh Kommentar Modell.
7202: Auf die daten trainiere wo er nur Klick sind da stehen dann kann man sich halt vorstellen dass die Leute demnächst alle enorm enttäuscht sind dass sie bei YouTube nur noch solche clickbait die Items angezeigt bekommen
7202: und selbstverständlich hat natürlich YouTube darauf auch kein Interesse weil YouTube möchte natürlich er
7202: die Zeit maximieren die Leute auf der Plattform verbringen und das tun sie nicht wenn sie 23.45 mal von irgendwelchen clickbait Videos ab genervt werden,
7202: was insofern dann getan haben ist zu sagen nein,
7202: nicht das Item was geklickt wurde erachten wir als ein positives altern ja so um so ein bisschen binäre Klassifikation zu denken es geht ja auch älter sein
7202: recht also quasi diese Kombination aus Nutzer und item in meinen Daten das Label1 nee kriegt es nicht.
7202: Vielleicht kriegt es sogar ein Label 0 explizit weil die Person noch 15 Sekunden das Video abgebrochen hat.
7202: 15 Sekunden vom Fleischer Spiellänge von 10 Minuten sondern sie hat gesagt wir konzipieren unser gesamtes Modell so dass es quasi die.
7202: Watchtime für eine User item Kombinationen.
7202: Vorhersagt und dass diese Wortstamm bestimmen dass es ihr relativ war natürlich dann darauf trainiert wird.
7202: Diese Kombination zu nutzen wenn sie ebend 100% oder halt einen gewissen Schwellwert überstiegen haben also die haben dort in dem paper geschrieben dass sie quasi nur full video watches also
7202: diejenigen Daten
7202: Punkte genommen haben wir also Leute wirklich ein Video zu Ende geguckt habe und dann kommt natürlich ein Modell was auf solchen Daten trainiert wird zu ganz anderen Schlüssen die natürlich auch
7202: er die Relevanz dessen berücksichtigen was halt Nutzer interessiert.
6566: Ja das ist ich find was ich das interessant finde ist,
6566: dass man vielleicht für diesen ersten Gedanken hat zu hey wenn jemand drauf klickt dann ist es relevant aber wenn man sich das will ich mal Gedanken drüber macht ey wenn sich jemand Video komplett anschauen oder vielleicht zu 80%
6566: dann ist dadurch die Relevanz für für die Personen viel viel höherer somebody Person 300 ist komplett angeschaut war interessiert in dem Inhalt.
6566: War vielleicht nicht nur irgendwie im Titel oder eine Beschreibung interessiert natürlich am Konto und das finde ich jetzt schon ganz interessanten Gedanken dass es
6566: das ist ja schon letztendlich darum geht ihr wie ist eigentlich so das reale Verhalten von einem Menschen wenn der konntet ansprechend ist versus was kann ich vielleicht irgendwie ganz schnell messen.
7202: Exakt exakt also ja also man darf da nicht so ein bisschen dieser schnellen Versuchung verfallen ach wir haben wir hier Klix
7202: ja dann ist halt dieses Motto etwas shit in shit out ja also ein Modell was nur Klicks zum Lernen bekommt das wird natürlich dann auch Dinge vorschlagen die Leuchter zu Anwalt wird zu blicken aber das kann in der kurzen Frist klappen
7202: kann aber langfristig ein ziemlicher Schuss sein der sehr weit nach hinten losgeht und Jan sofern lohnt es sich dort immer
7202: genau zu gucken in dieser dritten Kategorie Feedback.
7202: Wie man verschiedene Anderson bei gerne Kanäle von Feedback als man kann sich vorstellen ich gebe bei Amazon wenn ich dort stoppe verschiedene Signale.
7202: Ich kriege keine Artikelseite das ist eine Art mit dem Artikel zu interagieren ich merke mir einen Artikel ist vielleicht schon ein stärkeres positives Feedback ich kaufe einen Artikel,
7202: aber hey was ist wenn ich den Artikel kaufe und in zwei Wochen später zurück schicke das reicht schon wieder was ganz anderes und das ist quasi alles so das implizite.
7202: Also ich habe eine Aktion die nicht den Zweck verfolgt diesen Artikel zu bewerten.
7202: Aber durch meine Aktion bewerte ich den Artikel natürlich implizit.
7202: Und das zweite ist er diese Kategorie der explizit Bewertung ich kann ja auch zu amazon hingehen sagen hier Kaffeebohnen habe ich gekauft.
7202: Und jetzt gebe ich den fünf Sterne und vielleicht noch eine Rezension da sind natürlich die fünf Sterne weil sie auf einer Skala stattfinden schon irgendwie.
7202: 100 % und ich kann sogar auch die Rezensionen ja nehmen es gibt ja so verfahren zum Thema sentimentanalyse ist und dann.
7202: An meinen.
7202: Und an meine unstrukturierten Daten also an meinen Text quasi in Label dran machen hey 0,88 auf einer Skala von 0 bis 1 also auch starke Präferenz Preis hier quasi ein Artikel an.
7202: Und lassen dann beides wieder explizite explizite Feedback Sorten was heißt charakteristisch in der Praxis ist.
7202: Ist dass man viel viel häufiger implizites Feedback hat als explizites Feedback wie man sich aus dem bisschen denken kann weil
7202: wenige Leute sicher tatsächlich die Zeit nehmen jetzt irgendwas exit zu fett und manchmal existieren diese Mechanismen ja auch gar nicht oder sind so platziert dass sie gar nicht quasi als erste Aktion überhaupt häufig in Frage kommen
7202: und insofern ist das auch ein bisschen dieses echt spannende bei reccom ändern wie interpretiere ich überhaupt implizites Feedback,
7202: also nicht alles was gekauft wurde bedeutet dass es die Leute mögen ja und nicht jeder Song den ich bei Spotify vollständig anhöre ist einer den ich mag,
7202: vielleicht saß ich gerade auf dem Fahrrad und habe sonst bei Spotify gehört und hatte nur keine Zeit keine Hand frei wie auch immer um weiter zu skippen.
7202: Kann ja auch sein ja und plötzlich stehen diese Dinge aber.
7202: Bei Amazon sage ich mal im tobita Notebooks 1 data scientist der da drauf schaut und sagt so okay ja der mag den song
7202: vielleicht nicht aber abgesehen von diesen Feinheiten ist es natürlich so dass quasi in der Gesamtheit diese Rechnung dann schon aufgeht was man ja auch vielleicht daran sieht also
7202: ich persönlich bin immer wieder enorm beeindruckt und mein.
7202: Tatsächlich lieblings re Kommentar Produkt ist tatsächlich auch von Spotify die die discover weekly playlist das ist schon das ist schon sehr sehr cool was die dort auf die Beine stellen.
6566: Das geht mir genauso also bei den ganzen Dingen die ich so Nutzer so ich schaue jetzt nicht so super vielen Netflix oder so aber ich höre viel Musik
6566: und zumindest gefühlt wurden diese Empfehlungen bei Spotify über die letzten Jahre immer besser
6566: hast du noch diese diese weekly playlist dies damit gibt ja das war fast schon auf den song dabei ruhig denkt wow wie kommt er da drauf was ist nur Gott der Götter Gott das sind schon ziemlich oft echt Songs drauf,
6566: die ich entweder seit Jahren seit ich mal gehört habe.
6566: Oder Songs die ich gar nicht kenne aber ich denke ja okay cool hör was mal das album anschauen was mal die Künstlerin an den künstler das ist schon richtig richtig gut.
7202: Ja definitiv und das ist schon quasi würde ich sagen.
7202: Irgendwo so in Richtung cutting-edge Verfahren die es dort gibt also wer mir gerade mal angefangen mit Popularität
7202: also klar wie kann ich Popularität machen wenn ich jetzt mal irgendwie weiß was ich nehme also sagen wir z.b. Netflix ich habe Zugriff auf die.
7202: Verhaltensdaten aller Netflix Nutzerinnen und Nutzer in Deutschland ich weiß was die gucken zu welchem gratis gucken uns weiter
7202: lege ich dann Filter drauf und sagst du ok ich habe mal alles raus was irgendwie unter 90% geguckt wurde dann normalisiere ich das vielleicht noch aggregiert und dann bekomme ich am Ende die Top 10
7202: Serien Filme wie auch immer raus und dieses Verfahren berücksichtigt z.b. alle Daten der gesamten letzten 28 Tage und das lasse ich dann quasi einmal nachts als Batch Job durchrechnen.
7202: Und dann bekomme ich Base jeden Tag aktualisiert die Top
7202: Hänsch Osim Germany also schaust du dann bedeuten dass ich natürlich noch mal auf einen Teil dieses gesamten item corpus ein Schränke also Netflix hat ja so je nach Markt so 5678 tausend verschiedene Items,
7202: das tat ich dann halt eben den TV-Shows und und Movies ein.
7202: Okay was sind da die training TV stoßen kann natürlich genauso Trading TV movies sein so sieht man das heißt also,
7202: da muss man sagen training ist nicht das gleiche wie popularity also bei Trading
7202: interessiere ich mich dann schon eher ein bisschen dafür wo sind die Differenzen in der Popularität gerade am stärksten ausgeprägt.
6566: Also welche welches Item hat am stärksten zugelegt meinst du das damit.
7202: Genau genau also so würde ich also ist es ist immer noch unpersonalisiert aber es ist ein anderer Mechanismus und wie gesagt was man dazu sagen kann ist unpersonalisiert bedeutet nicht,
7202: Irland also diese beiden Begriffe Personalisierung und Relevanz muss man halt immer ein bisschen sauber trennen aber sie haben trotzdem viel miteinander zu tun.
7202: Was ich natürlich jetzt weitermachen kann also wenn man sich das Erzurum.
7202: Auf diesem Level anschaut ich starte mit und personalisierten Empfehlung dann kann ich jetzt quasi diese dieses Rabbithole runterlaufen und der nächste logische Schritt ist quasi
7202: chicken mehr Personalisierung aber noch keine vollständige Personalisierung.
6566: Wie würde das aussehen von dicken mehr Personalisierung.
7202: Ja
7202: also ich nenne das immer semi Personalisierung oder als ein Anspruch auf letztliche Korrektheit zu geben und zwar semi Personalisierung daneben Aspekt
7202: ich betrachte jetzt einige Aspekte quasi meiner Nutzer
7202: das können im Design Altersgruppe Geschlecht das kann auch irgendwie eine über die IP-Adresse zuordnen baderegion sein sodass ich dann z.b. sagen kann.
7202: Teenager aus Bayern mögen aber.
7202: Andere Filme oder bei denen sind andere Filme und TV-Shows beliebt also ich versuche man nennt das dann demographic Base recommenders quasi über,
7202: demografische Merkmale Nutzergruppen zu definieren.
7202: Und dann das gleiche was wir gerade quasi global berechnet haben Nutzer gruppenspezifisch zu berechnen und so komme ich dann halt schon irgendwie zu anderen Schlüssen.
7202: Und kann dann also sehen Arcade er der Wolfgang gehört aber mit seinen demografischen Merkmalen in Wien diese Gruppe und für diese Gruppe habe ich aber eine andere Liste
7202: ja oder zeige ich dir halt diese letzte an ist immer noch nichts personalisiertes aber ist halt schon irgendwie so ein bisschen stärker auf dem Weg weil es schon ein wenig.
7202: Danach ist er n ziert welche Merkmale mitbringst und die Merkmale,
7202: habe natürlich auch einen Einfluss auf deine Präferenzen und das ist quasi die Voraussetzung auf der dann Fuß zu sagen ok dann nutze ich diese Merkmale um dann quasi eine Liste zu generieren und die vor zu starken weil die vielleicht stärker die Präferenzen der Person treffen kann.
6566: Ja ich finde es gut nachvollziehbar wenn man sich irgendwelche so Umfragen anschaut oder solche statistischen Erhebung wo mal geschaut wird was schauen die Leute im Kino an oder
6566: was machen Leute hier oder da da gibt's ja zumeist auch immer diese demografische Unterscheidung zwischen sind Männer sind Frauen und dann hat man ja meistens auch noch so zwei drei vier fünf Altersgruppe
6566: mal so sind jetzt Kinder sind Jugendliche sind schlecht Erwachsene bis 30/35 sind dann Erwachsene bis 55 oder
6566: das ist dann noch älter und also für mich ist es schon nachvollziehbar dass vielleicht jetzt
6566: der Durchschnittsmensch mit 75 sich vielleicht andere Filme anschaut wie jetzt irgendwie in teen mit 15.
7202: Genau was mich aber auch gleich und ich glaube in uns beiden kribbelt schon dazu bringen zu sagen er war so der Wahrheit letzter Schluss kann das ja nicht sein und da habe ich
7202: 2
7202: gute Frage ich mal Anekdoten zu eins ist keine Wittich Anekdote aber es ist leider ein Zitat an dessen Quelle ich mich nicht mehr richtig erinnern kann ich.
7202: Hab das Gefühl es kam mal irgendwo aus dem Netflix innoversal ich habe es nicht mehr wiedergefunden.
7202: Darf jeden Fall eine Art Rechtfertigung wieso denn tatsächlich Personalisierung und war sie individualisierte Empfehlungen sinnvoll sind weil sie nämlich gesagt haben
7202: ja
7202: der auf der Range lebende Großvater in Texas in den USA kann gegebenenfalls das gleiche,
7202: Taste also Geschmacksprofil haben wie die junge Teenager dann in Sydney.
7202: Also zwei Personen für die ist sehr unwahrscheinlich ist dass sie in der gleichen demografischen Gruppe landen aber trotzdem auf Basis ihres Verhaltens.
7202: Sehr sehr ähnliche Dinge konsumieren.
7202: Und deswegen dann auch 44 ähnlicher zueinander sind und da hängt dann auch schon die Idee des collaborative filtering oder ja kollaborativen Filter uns an was quasi eine Möglichkeit ist.
7202: Um tatsächlich,
7202: personalisierte Empfehlungen zu zu generieren und da wirds dann auch so ein bisschen spannend da würde ich tatsächlich Aussagen personalisierte Empfehlung das sind so tatsächlich der,
7202: Punkt wo die Musik spielt denn da fange ich jetzt tatsächlich an zu sagen ich betrachte eben individuell.
7202: Die Nutzerinnen und Nutzer meiner Plattform und versuche eben grundsätzlich individualisierte Empfehlungen auszuspielen und das ist quasi dieses eine Zitat an was ich mich erinnere und um bei dem Film wach zu bleiben.
7202: Ich hatte in meiner letzten Episode die man es nur kommen bei mir im Podcast die an der TU Delft jetzt in ihrem letzten Jahr promoviert und sich mit dem Thema purpose where privacy-preserving data for recommenders Ausländer setzt
7202: gewichtiger Titel also es geht um um privacy in es geht darum
7202: wie praktisch durch unsere Interaktionen mit Filmen mit TV-Shows implizit unser Geschlecht gelegt werden kann.
7202: Und wie ich es schaffe durch Methoden diese Daten zu verarbeiten dass ich die Präferenzen nicht grundsätzlich verändere aber trotzdem die Daten anpassen so dass das nicht mehr Fall ist und sie
7202: war ich fand es sehr witzig wie sie an sich selbst dieses Beispiel ist gezierte und sagte ja,
7202: also es ist nun mal so es gibt diese Stereotypen also nach dem Motto ja Männer gucken Actionfilme Science-Fiction Frauen gucken Dramen und Soaps angesagte Heizung.
7202: Weißt du was Marcel ich bin voll der Horrorfilm Fan und Horrorfilme ist halt auch etwas eher quasi Männer assoziiertes,
7202: und ja insofern liegt würde sich quasi bei so einem Demographie basierten Ansatz quasi würde ihr sage ich mal Bedürfnis nach Horrorfilm überhaupt nicht berücksichtigt ja.
7202: Sobald ich jetzt aber.
7202: Individualisiert mir das Profil von Manuel angucke kann ich Sie mit Verfahren in der Lage sein dieses Problem zu lösen.
7202: Und da sind wir quasi dann tatsächlich bei Sandra personnalisé commendations also personalisierten Empfehlung.
7202: Und wenn ich in dem Bereich bin dann gibt es so drei bis sechs Archetypen also,
7202: es gibt insgesamt so sechs Eiche Typen sagt man aber die greifen eines die prominentesten und das ist halt das collaborativ filtering kollaboratives filtern,
7202: das sind die Content based recommendations und quasi darauf aufbauen Hybride also quasi
7202: Mixturen verschiedener Verfahren die dann aber wiederum ein Modell bilden was dann sowohl Nutzer und item Attribute als auch ebend interaktionsdaten berücksichtigt.
6566: Das kollaborative filtern das hattest Du ja anfangs schon mal erwähnt was hat denn damit auf sich.
7202: Das kollaborative filtern ist an sich so lange mal ja der Großvater der Ansätze die es quasi im Recommender Bereich gibt.
7202: Wir hatten ja gerade schon mal drüber gesprochen ja aber kommt das ganze denn überhaupt her.
7202: Und so ca in den 90er Jahren war es so ich weiß nicht mehr genau wie das Unternehmen ich ließ aber es ging dabei darum das eine
7202: größere Organisationen eben versucht hat e-mail-filter zu bauen also Leute
7202: Mitarbeiter des Unternehmens konnten sich halt in E-Mail-Verteiler registrieren und haben dann halt über diese E-Mail Verteiler E-Mails bekommen als kann sich natürlich denken das wird irgendwann so viel dass die Leute nicht mehr
7202: den Überblick behalten haben und eigentlich auch viel zu vielen E-Mail-Verteiler drauf standen und da hat man mal.
7202: Geschaut anhand der interaktionsdaten wer kriegt der eine mail wer guckt in daran sonstiges ich weiß nicht genau wie die daten zustande kam wer für welche Personen ist dann quasi welcher Verteiler relevant.
7202: Und dadurch kann ich halt sehen beispielsweise lass uns annehmen es gibt zehn E-Mail-Verteiler ich habe mich auf vier davon registriert.
7202: Und du hast dich auf drei registriert und diese drei E-Mail-Verteiler.
7202: Ob die du dich registriert hast sind drei von meinen vier das heißt wir haben da in der Schnittmenge die wiederum vollkommen deine drei Verteiler ausmacht.
7202: Und jetzt ist es sehr naheliegend.
7202: Dass der vierte den ich habe den du nicht hast für dich relevant ist und dadurch würde dann Zimmerstunde Empfehlung Zustandekommen Hey Wolfgang.
7202: Du hast eine sehr hohe Überschneidung mit den E-Mail-Verteiler und von Marcel aber der hat was was du noch nicht gesehen hast guck doch mal in den E-Mail Verteiler rein
7202: und so hat man quasi angefangen das ganze mal für E-Mail-Verteiler zu bauen also am Weg Kommentar quasi für E-Mail Verteiler der Leuten vorgeschlagen sich E-Mail-Verteiler sie sich auf Basis ihrer
7202: bisher angemeldeten E-Mail-Verteiler angemeldet haben also ein bisschen dran denken würde ja gut immer Verteiler es interessiert mich jetzt nicht so sehr.
6566: Bis wann die Neunziger da war das der hotshit einfach E-Mail-Verteiler die hatte wann überall.
7202: Ja und aber interessanterweise 1998 hat dann tatsächlich Amazon eineinhalb Acrylbild publiziert und dem Namen item-based collaborative filtering
7202: wo man also dann gesagt hat okay wer kauft hier eigentlich was und was kann ich auf Basis dessen Leuten vorschlagen weil sie sehr viel Ähnliches gekauft haben
7202: ich würde mal gerne ein anderes Beispiel um kollabierte children zu skizzieren ich meinte könnten jetzt über matrixfaktorisierung über Graphen basierte Verfahren über neighbourhood based knn und so weiter diskutieren ist auch Bescheid alles interessant.
7202: Ich versuche erstmal auf dem anderen Level anzufangen und dann zumindest vielleicht mal matrixfaktorisierung zu skizzieren und damit den Sprung zu Netflix in die Zweitausender zu machen.
6566: Okay ich bin gespannt.
7202: Also es begab sich zu einer Zeit nein collimated filtering.
7202: Find ich immer machen wir alle in der Mittagspause wenn wir und dass ich jetzt wahrscheinlich wieder etwas häufiger als in den letzten 12 Jahren am Küchentisch mit unseren.
7202: Kollegen sitzen und uns darüber unterhalten was wer gerade auf Netflix guckt.
7202: Oder auf einer anderen Streaming-Plattform also ich habe diese Situation persönlich einige Male erlebt und ich könnte mir vorstellen dass wahrscheinlich die ein oder andere höheren der eine andere Hörer wahrscheinlich da in Wien am Stephansplatz zu hat,
7202: das Wecker sie fragen hey ich gucke house of cards ja dann sagt ihr mantor ich gucke gerade stranger things nicht und dass du cool und was wir quasi dann tun wir haben wir stehen einer gewissen Beziehung zu diesen Menschen,
7202: manche können wir leiden manche können ja nicht leiden weil ich muss man gar nicht so hart sagen ich weiß einfach zu der Person habe ich einen größeren Größe Überschneidung mit Geschmäckern und zu einer anderen Person vielleicht weniger.
7202: Das war sie die Gewichte die wir den Bewertung dieser Person zuordnen also ich bekomme eine Bewertung zu einem Item,
7202: das kann dann dieser stranger things sein house of cards ich gucke gerade morgen oder Wochen auf Netflix sehr Tristan dänisches Politdrama.
7202: Und wir bekommen quasi dieses dieses Feedback zu also Items auf Netflix aus na
7202: limitierten Gruppe und ich habe voll die Gewichte dass ich bekomme eine Bewertung von einer anderen Person und ein Gewicht und ich weiß vielleicht sogar noch.
7202: Mit dem Florian habe ich mich.
7202: Zu stranger things unterhalten und er fand stranger things cool und ich fand das auch sehr cool mit Florian habe ich mich auch über Tag unterhalten wir beide fanden doch auch super.
7202: Was heißt wenn der Florian jetzt sagt schau dir mal Serie XY an.
7202: Dann fließt das in meine präferenzbildung mit einem deutlich höheren Gewicht ein.
7202: Oder übersetzt die Wahrscheinlichkeit ist sehr hoch dass ich mir das einmal angucke.
7202: Als wenn eine Person mit Vorschlägen kommt wo ich weiß so nee also das habe ich gesehen was du dachtest das fand ich vollkommen daneben oder das was du sagst das.
7202: Könnte relevant sein aber ich habe in der Vergangenheit noch nicht so sehr gesehen dass wir irgendwie Geschmacks technisch was was gemeinsam haben.
6566: Ich kenne beide Situationen.
7202: Also es geht in beide Richtungen und.
7202: Und so fange ich dann quasi an mich durch andere
7202: von dem von mir noch nicht gesehenen Items inspirieren zu lassen also gibt war sie immer darum so nach dem Motto jemand hat dir was voraus im Bezug auf was sie gesehen haben ja und es gibt eine Überschneidung im Bezug auf die Präferenz und das ist kann man sagen
7202: collaborativ filtering at work das ganze das ist gerade die praktische Einführung kümmerst ganz natürlich formalisieren.
7202: Und das Problem in wärst du das quasi so in der in der in der Datenwelt und in der mathematischen Welt packen ist quasi erstmal eine Matrix.
7202: In dieser Matrix also zweidimensionale Anordnung von zahlentabelle es ist halt so dass wir quasi die Reihen sind unsere Nutzer das ist jeder Nutzer hat eine Reihe.
7202: Und unsere Spalten sind die Items ja das können zum Beispiel alle.
7202: Items auf Netflix sein ja und so ist es so Netflix hat er so ca 200 300 Millionen Nutzer würde ich jetzt mal sagen solange mal die haben 10000 Items was heißt diese Matrix hat bei Netflix mit Dimension von.
7202: 300000000 Kreuz 10000.
7202: 2-Zimmer die Frage was steht in der Matrix drin und jetzt kommt nämlich wieder was ich gerade sagte mit users Items und Feedback die Jonas und die Items damit die Nutzer sind die rein.
7202: Die Items sind die Spalten als etwas Feedback das sind mich genau die Inhalte dieser Matrix ja da
7202: könnte ich jetzt auch die männliche Werte reinschreiben nach dem Motto ja was ist denn so der Grad zu dem die Person das geguckt hat ihrem einfach vom von binären Fall aus ja also,
7202: da steht eine 1 drin wenn das positiv waren,
7202: und da kommt auch schon riesiges Problem oder einfach eine Schwierigkeit im Bereich der recomendo Systeme und das ist nämlich genau dieses Thema das baarcity.
7202: Diese Matrix ist enorm dünn besetzt man kann sich das am Beispiel von von Amazon auch vor Augen führen bei Amazon an den ich ihn nicht Amazon dann kann ich das am Beispiel von Spotify sehr gut vor Augen führen.
7202: Spotify natürlich deutlich mehr Items also die werden wahrscheinlich so 50 bis 60 70 Millionen Songs haben.
7202: Und ich gerade schon sagte songs ist ja nur eine Möglichkeit die Items zu betrachten wir können ja auch Playlist Alben heute ist betrachten Podcast Podcast episodes und soweit aber sage mal songs ja und dann habe ich quasi da plötzlich eine Matrix.
7202: Wo naja ich so 100 million Nutzer habe.
7202: 100000000 Items und jetzt kannst du dir ja vorstellen wie viele unterschiedliche songs hast du in deinem Leben vielleicht bisher gehört 10000 20000.
7202: 1000.
6566: Ich habe ein paar tausend vielleicht keine Ahnung was ich finde es mega schwer zu greifen aber ich habe auf Spotify eine Playlist mit meinen Lieblingssongs und das sind über 4000 die da drin.
7202: Okay okay dann müssen wir auf jeden Fall über den Vortrag sprechen den ich nächsten Monat auf der European halte weil dann könnte das vielleicht auch für dich interessant sein wie du diese 4000 auf deiner neigt songs playlist musst um dir einen eigenen Spotify Recommender zu bauen.
6566: Ihr sehr gerne weil ich mache immer einfach ich höre die zufällig immer an und Ende.
6566: Na wieder neue Songs für die ich schon lange nicht mehr gehört das war super Hey den song hast du ja mal vor vier Jahren im Urlaub so gern gehört deswegen sicher drauf ja cool komme ich gerne auf dich zurück Wasser.
7202: Wie will man die quasi wieder so hoch holen kann ja die man da also bei mir ist es tatsächlich echt eine Halde sind nicht so viel drauf gleich da ich hab sie auch so knapp 2000 aber die schmeiß ich daraus ein bisschen aufhalte naja und jetzt ist halt also sagen wir mal so.
7202: Du hast dir ja weil du echt sehr Musik affiner Mensch bist du hast die 100.000 Songs in deinem Leben bisher auf spotify angehört mal ignorieren dass es spotify jetzt nicht so lange gibt wie du alt bist sorry dafür.
6566: Damals gab es noch Schallplatten und Tonbandgeräte.
7202: Also 100.000 songs von sagen wir mal 100 Millionen verfügbar.
7202: Ist also ein Faktor 1000 er dazwischen liegt,
7202: so gerne mal wagemutig davon aus dass es auf alle Nutzer im Schnitt zutrifft das heißt du hast ein Tausendstel dieser gesamten Matrix über mit Inhalten 999 von 100 Zellen in dieser Matrix sind leer.
7202: Und das zeigt halt auch was für ein Problem Recommender Systeme zu lösen versuchen Sie versuchen auf diesen eigentlich also ist der natürlich enorme Massen ja weil
7202: hunderttausend Mal quasi irgendwie den Progress x der Anzahl der Nutzer
7202: das sind schon massig Daten aber wenn man quasi individuell reinschaut ist es enorm dünn weil dann kann ich quasi sagen naja also beim Wolfgang in der Reihe,
7202: da fehlen 99,9% der Daten könnte man sagen was man halt bei dir komm ändern.
7202: Sehr erfolgreich hinbekommt ist aus diesem 0,1% in diesem Fall und die das muss man nicht sagen immer noch eine Abschätzung nach oben sind also ist ein relativ viel Verdünner versucht.
7202: Ähnlichkeiten herauszufinden wie diese so stark auszunutzen.
7202: Das wird trotzdem oder das Spotify trotzdem in der Lage ist dir sehr sehr gute relevante Dinge anzuhören,
7202: und da kommt quasi jetzt kannst Du quasi von jetzt hast du diese Matrix ja und da steht überall eine Eins und was du dir angehört hast dann also
7202: analysieren ist gerade mal wenig und jetzt hast du jetzt verschieden zu verbannen jetzt kannst Du quasi das was wir gerade so mal.
7202: Praktisch dargestellt haben das kannst du jetzt quasi in Code gießen.
7202: Da gibt es so zwei drei auch wiederum Kategorien die sich dann auch wieder zu zisch Algorithmen ausspannen da gibt es quasi modellbasierte und
7202: neighborhood based Verfahren modellbasiert ist du diese ganze Kategorie von matrixfaktorisierung wo man dann versucht diese Riesen Matrix die ist ja enorm dünn und man geht davon aus diese Informationen lassen sich komprimieren.
7202: Und ihre Komprimierung Leute nichts anderes ich versuche zwei deutlich kleinere Matrizen zu finden.
7202: Durch deren Multiplikation ich die ursprüngliche Matrix rekonstruieren kann.
6566: Ah okay.
7202: Linear lineare Algebra als keine Wiederholung hier Matrizenmultiplikation und das ist dann verfahren da lerne ich dann quasi.
7202: Gering dimensionale Repräsentation für Nutzer und für Items.
7202: Und das tue ich halt indem ich da mit gradientenbasierte Verfahren lerne die man ja auch aus dem deep learning Bereich kennt und einfach versuche diesen rekonstruktions Fehler zu minimieren.
7202: Und indem ich den minimierer finde ich am Ende so.
7202: Green dimensionale Repräsentation also ich kann dich Wolfgang dann als irgendwie Reihe von 10 floats darstellen.
7202: Und das Item der song von XY den stelle ich auch als nerei von 10 flowstar so und jetzt nehme ich aus den beiden das Skalarprodukt und das Produkt ist quasi,
7202: dann ein float und dieser float ist quasi.
7202: Ja wie soll man sagen eine Quantifizierung deiner Präferenz für diese Seite das kann ich jetzt natürlich für alle songs durch multiplizieren und die dann absteigend.
7202: Nach diesen skalarprodukten sortieren und dann kann man dann auch mit Basis arbeiten also umso ein bisschen
7202: zu gucken welche Nutzer haben zu starkes Gewicht auf der Plattform welche Items sind quasi sehr populär und wo bricht diese Popularität ein bisschen dämpfen um zu vermeiden dass seit immer nur der populäre Kram vorgeschlagen wird er über schon sagt relevant sein kann,
7202: aber eben nicht immer und euch auch manchmal nerven kann.
6566: Ja das wäre jetzt aber wenn ich mal ganz kurz einhaken darf du hast vorhin gesagt also mit Netflix angefangen hast dass es freeCommander Systeme und Recommender Modelle gibt und das sind System ne
6566: Kombination ist aus verschiedenen Modellen verschiedenen Ansätze.
6566: Jemand wird zusammen mal steckt und dann wirklich ein gutes Ergebnis am Ende zurückkommen wenn du das jetzt so erzählst würde es aber auch bedeuten ich hätte jetzt hier auch verschiedene Modelle also ich mach diese ganze Matrizen Geschichte und,
6566: benutzt dann aber vielleicht noch Tschüss gesagt und buyers das dass wir in der scheibenwischerblatt Regeln dich irgendwo noch mal definiert habe
6566: den mit den bestimmte Dinge gemacht werden und damit hätte ich dann aber auch jetzt verschiedene solche Modelle die zu einem Recommender System zusammengefasst sind und dieses Volk am Ende System
6566: gib mir ein Schloss dann die Empfehlung Hey Wolfgang schau mal die Saison hör mal rein da könnte was für dich sein habe ich das richtig verstanden.
7202: Ja ja also natürlich immer so du hast verschiedene Use Cases für recomendo also du hast vielleicht den usecase der sogenannten Dritten Unterscheidung in sogenannte User based on item based recommendations.
7202: Du hast den den Fall also das was ich gerade mit der Matrix packe gesehen und das kann ich jetzt halt tun um sowohl nutzerbasierte als auch Elternbeiräte recommandations zu nutzen was passiert dort.
7202: Kanada Wolfgang von bis jetzt von der Plattform stehen jetzt da sein Vektor multiplizieren einer mit den Vektoren alle Items durch und bekommen dann die Top Ten und die schleichen vor das sind quasi
7202: die Nutzer basierten Empfehlungen für dich auf Basis von collarette filtering mit matrixfaktorisierung.
7202: Gesundheit und jetzt kann ich aber auch sagen jetzt klickt der Wolfgang beispielsweise bei einem Mann anderes Beispiel Amazon.
7202: Auf den Artikel Seite drauf und jetzt steckt in dem Artikel wieder auch so ein embedding.
7202: Also so ein so ein Weg dorthin ich trainiert habe.
7202: Und jetzt will ich aber gucken was sind für ein Item also als Ausgangspunkt für andere Items relevant,
7202: oder passend dafür andere
7202: Items relevant für und da kriegt man natürlich ganz schnell so assoziationsanalyse fällt einem da ein Cross-Selling also beispielsweise wenn ich ein Fernseher kaufe ist es meistens sehr sinnvoll wenn ich dem Fernseher in jentner Reihe
7202: Kabelanbieter vielleicht noch ein Soundsystem,
7202: vielleicht noch ein paar Akkus für den Fernbedienung und sonstiges also halt alles was ich in den Daten gesehen habe was oftmals gemeinsam gekauft und hatten auch schon quasi diese Titel Reihe die man oftmals bei Recom ändern dann dabei.
7202: Dem Ergebnis dieser Modelle
7202: bei Amazon findet er wird Orchid zusammen gekauft Leute die das gesehen haben oder Leute die das gekauft haben haben auch sich das angeguckt oder das gekauft und sonstiges ja also nutzt mal wieder diese Ähnlichkeiten aus
7202: beantwortet aber tatsächlich ganz in der Frage.
7202: Weil du jas müssen irgendwas okay wie wir das jetzt so orchestriert so kann ich jetzt natürlich bei mir bei Netflix sind.
7202: Also ich kann ein Reh Kommentar Modell für meine popularitäts Reihe haben
7202: ich kann ein Reh Kommentar Modell was z.b. Nutzer passiert ist z.b. ich weiß nicht wie es bei Netflix heißt ich habe es ihr tatsächlich mal parallel auf und ich versuche es mal zuzuordnen also ganz oben steht trending now dann kommt gerade 7 mile ist also das was wir quasi auf unsere
7202: save this pack and watch it again und danach the top Picks von Marcel und das ist top Picks von Marcel da,
7202: würde ich jetzt mal mit meinem sehr sehr begrenzten Wissen in die Innereien von Netflix mir mal anmaßen zu sagen das könnte was collarette filtering mäßiges sein wo jetzt mein vector genommen wird er wird mit den Items einmal durch x dann werden quasi die.
7202: Top 10 Items genommen die dann dort absteigen von links nach rechts im angezeigt werden.
7202: Das meinst auch wieder sagen ja gut da ist doch Modell gleich System du hast aber wenn es ein bisschen komplizierter wird und das gemeint war ich gut an dem Beispiel von YouTube sagen.
7202: Du hast irgendwann das Problem und das ist Ansicht bei Netflix und es haben ja auch noch auf der Konferenz mal so ein bisschen gesagt er einfacher als Esszimmer schon bei YouTube ist also bei YouTube hast du ich habe heute noch mal nachgeschaut,
7202: mittlerweile über eine Milliarde Videos.
7202: So mein der Wolfgang jetzt zur Plattform kommt mit seinem Vektor und der will jetzt recommandations haben.
6566: Ja jetzt sofort bitte.
7202: Jetzt sofort bitte und ich will auch dass deine Interaktion das dein Feedback von
7202: deiner letzten Session die heute morgen war darin Einfluss hält also ich kann auch nur begrenzt gerade Dinge vor berechnen also will ich online ich will nie realtime will ich recommandations haben die möglichst an meinen zuletzt halt noch angepasst sind
7202: kann ich ja nicht deinen Vektor nehmen der wahrscheinlich um halt auch mehr Informationen zu tragen nicht die Dimension zählen sondern irgendwie 100 200 500 hat
7202: kann den ja nicht mit allen
7202: 1 Milliarde Items selbst wenn Spotify selbst wenn YouTube mit Google ja wahrscheinlich schon so ein paar Rechenmaschinen stehen hat
7202: durchrechnen und erwarten dass das ganze dann in 10 20 30 Sekunden Latenz die angezeigt wird.
7202: Was dort gemacht wird ist es gibt dort immanent dass die sogenannte in information retrieval,
7202: Tyco Timmy es gibt immer zwei Spaltung und so eine Aufeinanderfolge verschiedener Modelle und so sagt man bei reccom ändern gibt es quasi die sogenannte Kandidaten Generierung als ersten Schritt und das Ranking als zweiten Schritt,
7202: und beide.
7202: Beides sind Modelle die können gemeinsam die können getrennt voneinander trainiert werden und die haben unterschiedliche Aufgaben was die Kandidaten Generierung.
7202: Versucht es sehr effizient sehr schnell eine Approximation der für dich relevanten Items anhand deiner Merkmale Vergangenes Sessions deren Items deine Attribute blablabla.
7202: Zu bekommen also mal diesen Riesen Korpus von einer Milliarde Videos auf ein paar hundert zusammen zu dampfen und das in Millisekunde.
7202: Ja und das kann man sich denken das kann kein komplett das kann kein komplexes Modell sein weil es einfach zu rechnen sind sie es wäre das also eher ein einfaches Modell was im wie approximiert.
7202: Also es kann sowas sein wie approximate nearest neighbor search,
7202: wo ich also diese embeddings nehme und dann trainiere ich den Index auf die mich sehr sehr schnell über diesen embeddings suchen kann da gibt es also verschiedene Implementierungen neu von Spotify,
7202: weiß von Facebook und so weiter oder viele mögen vielleicht auch asianet doubleyou gehört haben Heraklion e-recruitment so verfahren dort.
7202: Und so versucht das erstmal ein erster Schritt schnell zu reduzieren und dann habe ich heute noch so hunderte Items und die laufen halt angereichert mit mehr Attributen.
7202: Zusammen mit deinen nutzerinformation in ein zweites Modell rein das sogenannte Ranking Modell und dann Ranking Modell bedankt war sie versucht personalisierte diesen Videos.
7202: Scores zuzuordnen.
7202: Und dann habe ich am Ende und das ist dann schon komplexes Modell aber das komplexere Mutter hat weniger Arbeit und insofern kann es ruhig durchaus komplex und immer noch schnell funktionieren weil ich muss es nicht oft zu viele Daten drauf schmeißen.
6566: Wir sind das.
7202: Am Ende quasi kommen dann die Videos raus mit ihren scores und dann kann ich davon die Top-20 nehmen und die schlage ich dir vor und das ist dann immer noch nicht dass es Themen.
7202: War jetzt kannst du natürlich sagen was ist mit Business kurz was ist mit filtern.
7202: Was ist wenn Wolfgang z.b. bei YouTube bei dir was möglich ist aber dass man im Kids Profil hat.
7202: Und sag ja aber bitte schmeiß den Kram raus der der der over eighteen oder oversexed Dienst dann muss ich natürlich diesen Space Ambient vorfiltern.
7202: Und dann sind wir quasi bei verschiedenen Komponenten die verschiedene Aufgaben haben,
7202: aber am Ende quasi ein Reh Kommentarsystem bilden was mir quasi um es einfach runter zu dampfen eine Liste an relevanten Items gibt aber sehr.
7202: Viele aufeinanderfolgende oder zusammenwirkende Einzelkomponenten hat die halt unterschiedliche Modelle sein können.
6566: Also nicht erinnert das brutal an die klassisches Hochtechnologie ich habe mich ja mal ja paar Jahre lang mit Suchtechnologie beschäftigt und da hatten wir ja auch immer die Herausforderung dass wir sehr sehr viele Daten hatte,
6566: also auch viele Millionen oder auch noch mehr Datensätze und dass wir eine sehr sehr kurzen Zeit Millisekunden Bereich die richtigen Datensätze finden wollte.
6566: Und auch da sind wir so mehrstufig immer rangegangen also man hat auch als erstes immer geschaut wie kannst du den ganzen Zug am verkleinern
6566: weil wenn du es eine Milliarde Datensätze hast okay wenn du halt Zeit wirklich Hardware für vielleicht Milliarden von Dollar hast dann geht es auch schnell aber beim klassischen Kunden,
6566: Setup funktioniert sowas nicht und haben wir das auch so gemacht dass wir halt zunächst überlegt haben welche Datensätze kannst du jetzt halt
6566: ganz binea ausschließen oder auch nicht durch durch Filter wo man würde
6566: im klassischen Kriterium sagen kann okay Farbe vom Artikel blau oder nicht blau und wir haben das dann einfach über.
6566: Bitmaps im Speicher gemacht oder den für jeden Datensatz halt jedes Attribut halten bit hat dass du das konntest im Speicher halten und relativ schnell abklären
6566: den eigentlichen score,
6566: den man dann auch für ein Ranking benötigt und das ist ja ganz analog zu Uhr zum reformanda den haben wir dann halt auch auf den kleinen auf der kleinen Datenmenge berechnet und dadurch hat dann auch schnell funktioniert
6566: und autobusiness Ruhe sind dann sehr sehr vertraut dass du so Dinge wie okay keine Ahnung,
6566: wir haben es der Eigenproduktion bei App bei Netflix beispielsweise und wir möchten die pushen und das heißt wenn diese Eigenproduktion vielleicht hier so indem in dem kleinen Suchraum von dem Kunden
6566: drin ist dann tauschen wir die einfach mit dem Faktor von von drei oder so damit viele Leute das Sehen und.
6566: Dadurch dann vielleicht auch in den Top Ten ist oder viel drüber berichtet wird weil es als alle Leute sehen also bin ich jetzt gerade fällt mir gerade Verein und das ist der ganz interessante Analogie finde ich jetzt zu zum Recommender.
7202: Ja ja genau also und es ist ja auch so dass also
7202: um dabei gewesen Schritt zurück zu machen also recomendo Systeme gehören halt quasi in den Bereich des information retrieval und das ist so quasi diese theoretischer Überbau indem wir beide uns dann quasi treffen.
7202: Also search Recommender Systems und das Thema über dass wir noch gar nicht gesprochen haben aber das soll nicht Focus ist quasi das Thema advertising aber da hast du auch wieder sehr sehr schnell ihrem Wien Getriebeprobleme
7202: lass dir da hat natürlich versuchst auch verschiedene Ziele zu lösen aber du kannst auch verschiedene Ziele in raccomandare lösen weil da ist ja dann wieder um die Möglichkeit weil ich habe das immer so.
7202: Ich meine schon mit mit Leuten reden und denken die ach okay also du bist einer von den Leuten die dafür verantwortlich sind dass mir jetzt nur noch die Waschmaschine auf XY angezeigt,
7202: wir arbeiten mit ähnlichen Technologien aber die Ziele sind etwas andere weil bei dir kann halt noch irgendein Advertiser darauf bieten dass dir das angezeigt wird ja
7202: natürlich nur so wie du auch schon gerade sagtest haben auch Plattform gewisses Eigeninteresse also wie schon sagte ist Netflix möchte vielleicht auch eigenen Content stärker pushen weil da die Lizenzgebühren geringer sind oder war das halt auch schöne gute und stärkere Bindung an der Frontseite
7202: aber das kannst du halt auch alles nur mal bis zu einem gewissen Grad machen ja.
7202: Irgendwann dann auch Nutzer das merken und merken okay sie stehen quasi nicht im Fokus und Relevanz ist hier nicht der Fokus und Relevanz ist natürlich was was auch enorm quasi Kundenloyalität treibt.
7202: Und da quasi diesen diesen Sprung mal zu machen.
7202: Also wären gerade mit den 90ern angefangen mit Netflix mit Netflix den 90ern quasi mit mit E-Mail Filter Amazon an das Paper zu eitern Baseball arbeitet filtering.
7202: Er publiziert wo es Phase darum ging dieses Verfahren was ich gerade mit der Matrix mal versucht habe zu formalisieren.
7202: Zu nutzen um diese embeddings wiederum zu nutzen und dann für ein Item also ein Artikel bei Amazon Produkt.
7202: Als Ausgangspunkt war die andere Items und Produkte vorzuschlagen und.
7202: Dann gab es so ein riesen Aufschrei wo das fällt halt sehr sehr viel Aufmerksamkeit bekommen hat war tatsächlich die Netflix Challenge die war so ende der.
7202: Nullerjahre am Hut von 2006 bis 2009 stattgefunden also der Netflix Preis Luisa.
7202: Und was netflix.dew hat praktisch gemacht hat ist ja mein für diese Zeit
7202: riesiges Gartenset publiziert müssten ob ich 500000000 ratings gewesen sein also damals Wahrheit Netflix noch sowieso gerade an der Schwelle zwischen was ist denn ja vielleicht auch nicht mehr die meisten Netflix mal DVD-Verleih gemacht.
6566: Ja dass ich erinnere mich noch.
7202: Netflix ist quasi eine der Videotheken die nicht ausgestorben sind ja sie hat die Idee kam okay läuft nicht mehr so wir machen jetzt jetzt streaming.
7202: Tabak weiß ich glaube ich auch in diese Zeit des Umbruchs Leute konnten quasi Sterne vergeben ja 1 bis 5 Sterne für ein video.
7202: Oder Neiße und haben die gerade diese Daten genommen die sind heute nicht mehr so so so super publik weil tatsächlich ein Forscherteam den ist es da gelungen teilweise diese Informationen zu.
7202: Die anonymisieren weil das war nämlich tatsächlich Rating Daten von einem dB.
7202: Also kann man tatsächlich an mit der Profile dann das da quasi wiederum Nutzern von einem Bibi zuordnen die ganz witzig.
7202: Adam heute Netflix Daten eingibt das Ding dass das klickt irgendwo auf Kegelrobben und so ist es ja meistens wenn das einmal Internet ist dann kriegt man sich mal weg.
7202: Aber man sieht tatsächlich auch aktuelle Netflix PayPal soweit ich mich für die ganze in der wo sehe ich diese Daten die sie eigentlich wär so scheinbar nicht wollen dass sie andere nutzen der trotzdem weiter nutzen sofern scheint so akzeptiert zu sein aber.
7202: Dass ein anderer Strang Oma hat quasi einen Preis ausgerufen.
7202: Für das Team dem es zuerst gelingt den Netflix eigenen recommander dessen Güte als offline Evaluierung auf den Daten.
7202: Um mindestens 10% zu verbessern so jetzt ist die 14 % was denn jetzt überhaupt.
6566: Was ist die Güte.
7202: Jana genau was ist die Goethe und dann machen wir jetzt ein riesen fällt auf weil das Ding ist ja.
7202: Aber gar nicht drüber gesprochen wieso machen wir überhaupt freeCommander naja wenn machen re Kommentar weil wir so ein bisschen noch meine persönliche Meinung in einer na ja.
7202: Durch digitalisierten Welt leben in Deutschland vielleicht manchmal noch nicht so ganz durch digitalisiert ich bin heute tatsächlich beim Supermarkt Einkauf wieder an so einer Europalette mit gelben seiten und Telefonbüchern vorbeigelaufen.
7202: Ich habe mich schon wieder ein wenig irritiert.
6566: Ja das ist die Retrowelle Marcel das ist ein für die Retrowelle.
7202: Zum Glück habe ich keine Person gefunden die sich so ganz selbst und was so ein Ding da mitgenommen hat wobei ich weiß es gibt ja auch Leute die nicht mit Smartphones ausgestattet aber trotzdem bin ich immer ein bisschen schräg.
7202: Nee genau und ja dann dann,
7202: diese durch digitalisierte Welt in der wir leben wird natürlich durch durch Information getrieben
7202: Ja und ihr als Menschen was tun wir zu einem gewissen Teil mit dem Ding was da auf unseren Schultern sitzt ihr verarbeiten Information wir verarbeiten Information und Entscheidung zu treffen.
7202: Und umso mehr Informationen da sind umso schwieriger kann das manchen dann tatsächlich fallen,
7202: und viele bezeichnen dieses Problem halt als Information Overload erhöhen uns quasi überfahren überlastet von Informationen die wir verarbeiten wollen müssen können dürfen wie auch immer
7202: und es gab da mal ein Professor und dann York University Clay Shirky türkis der oder heißt er hat gesagt.
7202: Jetzt not Information Overload it's Filter failure.
7202: Schwarze sagt ja na also die Information sind gewachsen aber damit nicht irgendwie die Systeme die diese Information irgendwie aufbereiten Filtern wie auch immer und dann hat's gucken was ist für uns eigentlich relevant.
7202: Ich weiß das stinkt immer so ein gewisser Unterton mit und der ist sicherlich auch in manchen.
7202: Bereichen empfindlich also denken wir an Social-Media und denken wir halt an dem Punkt das.
7202: Nutzer und Plattform Interessen nicht immer vollkommen in die gleiche Richtung zeigen.
7202: Aber ohne es quasi alle vielleicht haben wir gleich dafür noch mal noch allzeit das ist so krass Isa. Und was was tun Recommender quasi letztlich sie aggregieren quasi Informationen um dann personalisierte filtern zu können und.
7202: Demeven corpus den es gibt zusammen zu dampfen und wenn das ist im Fall von Spotify oder gar nicht so verwerflich weil ich kann mir die ganzen 50 Millionen Songs nicht alle einmal durch Hören und dann zu gucken welche ich davon Mark und welche ich nicht also ich find das Dach das weiß ich ganz hilfreich na ja und.
7202: Was Netflix quasi wieder gemacht oder was damals Netflix gemacht hat ist die haben diese ratings genommen und die hatten ein rekommandeur.
7202: Und die haben gesagt Matrix also aufgemalt sagen wir mal so also Nutzer mal Items und da standen quasi diese Zahlen drin also 1 2 3 4 oder 5 für die Bewertung.
7202: Die Leute auf einem Gebiet diesen Items vergeben haben.
7202: Und ja mal passieren recommended aufgeworfen die haben dann davon also ein Teil dieses Datensatz haben sie quasi als als Testdatensatz beiseite genommen um dann zu gucken wie gut die Modelle entsprechend generalisieren.
7202: Und man hat dann quasi den eigenen recomendo drauf geworfen und was du dann quasi versuchst das was ich schon satt sagte.
7202: Du versuchst diese Matrix zu rekonstruieren oder versuchst diese Zahlen vorherzusagen ja also gegeben Nutzer und item Kombination sagt mir ob es eine 4 mit 3 in 1 oder sonst was.
7202: Ja und was meins machen kann das ist ja regressionsproblem ich kann hingehen und kann wenn ich das jetzt quasi auf.
7202: Unbekannten Daten Tour kann ich diese Punkte,
7202: vorhersagen und kann dann die Abstände berechnen und eine klassische Metrik die wir dann dort berechnen ist der sogenannte OMSI der root mean squared error 2.
7202: Berechnung und nicht zu Berechnung zur Bemessung der Güte eines Modells aus eben
7202: Regression durchführt oder eines regressionsmodells und die hatten dann gesagt okay hier unsere Kommentar der hat in OMSI von 0,89 43.
7202: Nagel mittig auf die Zahl fest aber ungefähr taxware 10 % besser ist nicht zehn Prozentpunkte 10% besser der kriegt ne Million Dollar.
7202: Und dann habe ich das halt gemacht und das ging gar nicht so schnell es hat tatsächlich drei Jahre gedauert.
7202: Gab dann einmal im Jahr den Sonaten progress Papa Preis also für das Team was den größten Fortschritt hatte.
7202: Der Vulkan ausgelobt aber es hat drei Jahre gedauert bis das erst Team kam Batterie hat machst und dieses Team hatte letztlich ein Verfahren was ein.
7202: Ein Ensemble von stoppe circa 120 Recommender Modellen war dabei Modell und System der Output des Systems ist für Benutzer item Kombination eine doofe Zahl.
7202: Aber dir ist das Themen steht halt aus 120 verschiedenen Komponenten Modellen die dann miteinander gewichtet aufeinander gelagert und so weiter letztlich zu einem.
7202: Sage ich mal einem float kommen einer einer kontinuierlichen Zahl die da hat dieses Ding bemisst und das war der Netflix Preis und
7202: das hat gerade diesen Verhältnissen auch schon kommt bei da nämlich dann auch so verfahren raus die selten als als Teilnehmer wie halt diese matrixfaktorisierung von echt versprach.
6566: Alles gut vorstellen dass Sohn ist so eine Veranstaltung halt einfach wenn es wenn es halt viel Geld gibt mir zu gewinnen also eine ganze Millionen dass das super viele Leute durch dann motiviert da dran zu forschen und sich daran zu versuchen
6566: das hat man ja oft in der Forschung das auf dem Weg zu einem großen Ziel links und rechts so viele andere Gebiete gestreift werden oder andere Entdeckung gemacht werden wo man dann später merkt okay das ist aber auch ganz cool was man hier was man sich
6566: tja ausgedacht hat oder was man hier gestoßen ist zu dass da so eine ganz breite Sparte entfer profitiert alles ziemlich cool.
7202: Genau genau und ja so war das fällt dann halt mehr Zulauf bekommen.
7202: Und so um den Nullerjahre hat auch dann zum ersten Mal die ACM conference on recommender systems stattgefunden ist also so die führende
7202: Konferenz auf dem Bereich ist es eine akademische Konferenz wird also von der Association for computing machinery quasi so die Dachorganisation darüber aber.
7202: Also ich besuche diese Konferenz jetzt seit fünf Jahren damals die Gelegenheit bekommen nach meiner Master Thesis zusammen meinem Mentor Florian
7202: doch damals nach Como in Italien zu geben und sagt dieses Flair dieser Community diese Mix aus
7202: Akademia und Industrie der hat mich halt echt gefesselt weil darin dann halt die Cracks von.
7202: Google Facebook Netflix Spotify ezr-home aber auch von von Alvarez aber auch von Zalando Zalando ist im deutschen echt ein großer Player auch auf dem Feld und Spinat international deine Liga mit
7202: es hat einfach echt cool weil da siehst du halt so ok was passiert denn hier überhaupt unterm womit arbeitet man das war damals noch so,
7202: gerade wo das Thema deep learning mehr und mehr.
7202: Recommender Systeme durchdringt hat und das war halt einfach eine spannende Zeit heutzutage ist es mehr eine Selbstverständlichkeit.
7202: Dass man hier und da die burning basierte Verfahren einnimmt und man arbeitet halt auch in reinforcement learning am Kausalität und so weiter das ist immer das macht dieses Feld für mich einfach auch sehr sehr spannend,
7202: weil es ist für mich nicht wie Computer wischen oder NLP die sicherlich auch wiederum sehr facettenreich sind.
7202: Ich habe eine von außen Angst dass diese Bereiche vielleicht ein bisschen enger sind aber gesagt das ist jetzt meine Anmaßung als jemand der dann nicht zuviel ist also gut natürlich weiß ich irgendwie was wird Weg in NRW ist unter
7202: Andy schon mal an wie Gigi oder sowas gesehen in Computer wischen Bereich aber das ist das spannende beim verikom ändern,
7202: Items können ja sehr sehr vielfältig sein.
7202: Also ich gehe wieder zurück zu beispielsweise einem Amazon Produkten Amazon Produkt hat viele,
7202: unstrukturierte semistrukturierte strukturierte Daten ja dann wird zum einen die Bilder,
7202: ich habe vielleicht sogar noch ein Produktvideo wir haben da Artikelbeschreibung alles unstrukturierte Informationen und da helfen mir natürlich die ganzen geilen Sachen aus dem NLP und Computer wischen Bereich mir super embeddings word embedding
7202: Image embeddings zu generieren die dann wiederum aber ein Input für ein recomendo System
7202: sein können was das alles versucht zu aggregieren und dann habe ich natürlich gleich ganzen Stuttgart Information Produktkategorie Preis vielleicht auch in Wien in den Ranking Information wo das eine Popularität gerade hängt und so weiter und so fort.
7202: Und ja was wir da quasi haben ist.
7202: Ja ne enorme Vielfalt einfach auch ein ansetzen und so hat man quasi gesehen dass vieles aus anderen Bereichen quasi immer nach einer gewissen Zeit im rexus Bereich irgendwie ein pondon der korrespondierende Antwort oder Verwendung gefunden hat z.b.
7202: Eine.
7202: Kategorie von Ansätzen mein Interesse im Bereich sequence aware Recommender Systems ist wo man sich also anguckt ich habe eine Session z.b. geht.
7202: Der Wolfgang jetzt auf YouTube und klickt 2345 Videos an und guckt sich die nachfolgend an dass er so eine Session und so eine Session.
7202: Kann ich als Wort betrachten nehme ich als Wort als Satz Betrag.
7202: Und sowie ein Satz aus Wörtern besteht besteht eine Session aus Items jetzt macht vielleicht schon Klick dann haben wir dort gesagt lass uns mal Vertu wegnehmen also dieser sehr bekannte Ansatz eben aus dem NLP Bereich der so Mitte der
7202: Zehner Jahre ich bin das mal ganz komisch dass für das 21 Jahrhundert zu machen.
7202: Irgendeiner muss ja immer damit anfangen.
6566: Ja stimmt müsste Mitte der Zehner Jahre gewesen.
7202: Mitte der Zähler jaria mikolov das Paper oder die paper und Hanna den Ansatz genommen was war Yahoo nämlich.
7202: Und haben den auf Kommentar geworfen dann mal weg of recommendations also aus
7202: User Sessions geboren ja wenn das jetzt proud to beg also product to back und haben das dann quasi genutzt um Leuten also,
7202: in ihrer e-mail inbox bei Yahoo Produktvorschläge zu machen die berücksichtigt haben was der Inhalt von E-Mails bar.
7202: Und welche Items quasi hat sie haben sich dann z.b. E-Mails als Bestellbestätigung genommen hat nachgeguckt ok welche Produkte wurden im zusammen einer Sequenz gekauft und das kannst jetzt auch wieder durchdeklinieren für Medienbereich als wie sich gerade geguckt und so kann ich quasi embeddings,
7202: erstellen ich Word embeddings im NLP Bereich habe kann ich so Produkt Artikel embeddings erstellen mit der
7202: gleichen Logik aber halt ein bisschen auf eine andere Sichtweise
7202: anbelangt und bekommt dann halt quasi solche embeddings jetzt kann ich so ein embedding nehmen und das wiederum nehmen okay ich habe jetzt hier das embedding deines Videos.
7202: Und nutze das jetzt halt um mittels der Couch sein similarität der Cosinus Ähnlichkeiten andere Metrik die halt also Ähnlichkeit bemisst ähnliche Items zu finden dann kommt wieder approximate nearest neighbor search und sowas im Spiel und dann sage ich dir hält diese Videos könnten für dich relevant sein.
6566: Das ist auf jeden Fall das ist auf jeden Fall echt cool und woran ich es gerade zwar die ganze Zeit parallel gedacht habe ist folgende Frage Marcel.
6566: Wenn ich mir so Bereiche anschaue jetzt machine learning computer wischen die ganzen Sachen da habe ich den Eindruck und,
6566: da haben auch schon einige Kollegen mir zugestimmt dass im selben Eindruck haben dass dann den letzten Jahren viele,
6566: Produkte entstanden sind oder wenn man über ml spricht welche Bibliotheken die man einfach so verwenden kann,
6566: 20 jetzt nicht mehr das such hundertprozentig reinfuchsen muss in den welche Algorithmen sondern wenn wir heute einfach weiß ok der use case
6566: da ist vielleicht der Algorithmus ein ganz guter Ansatz zu Daoismus jetzt hier irgendwie Computerwissen
6566: musst du in das in Bildern erkennen oder gibt es ein ganz guten Ansatz sehr gute Bibliothek und dann verwende ich das einfach
6566: und dann ich habe vielleicht irgendwelche Methoden mit denen ich verschiedene Algorithmen evaluieren kann und auch das beste herauszupicken und da haben wir immer so ein bisschen drüber gesprochen dass vielleicht der Trend dahin geht das
6566: die klassische dass das Tische MLD klassische Computer wischen vielleicht auch in ein zwei drei Jahren ein Punkt ist.
6566: Wo ist ähnlich wie im software engineering nur noch darum geht was fertig ist anzuwenden und ein bisschen fein zu tunen und
6566: es daneben sicherlich noch kleine Spaten gibt
6566: oh mann dann wirklich mal eine Expertin braucht da braucht man jemanden keine Ahnung Promotion in einem ganz speziellen Fachgebiet oder nimm Mathematikerin muss ich vielleicht den einen GKS noch mal richtig rein wurschtelt muss auch keine Ahnung
6566: Leitung ganz krasse Performance Anforderung geht aber der Großteil Anja wird wird wohl eher so in die Richtung gehen dass man Dinge benutzt ich mein
6566: im Bereich Software Engineering bekomme ich eher her dass es ja auch so,
6566: wenn ich heute irgendwie Softwareentwickler da muss ich mir nicht mehr irgendwie drum kümmern Hey wie funktionieren ziemliche low-level Sachen oder datenbankmigration
6566: letzterer gibt es einfach 34 Fertigprodukte 34 fertige Bibliotheken und die nutze ich einfach und.
6566: Manchmal habe ich vielleicht einen Spezialfall wo es nicht funktioniert und mein Framework nicht funktioniert und dann muss ich mich da rein arbeiten oder ich schaue mich irgendwie im Team oder in der Firma jemanden habe der sich damit auskennt
6566: okay wie gequatscht aber jetzt zu meiner Frage,
6566: wie verhält man sich das als bei diesen Recommender Systeme du erzählst mir dass du es seit fünf Jahren hier auf dieser großen VI Kommentar Konferenz bist das ist eher ein akademischer Charakter
6566: da ist aber trotzdem viele Leute aus der Industrie da sind
6566: dass das da steht viel Entwicklung noch dabei ist wie würdest du jetzt den Bereich bekommen dass Systeme einschätzen ist es ein Bereich wo heute noch sehr viel Forschung gemacht wird oder auch sehr viel Forschung im Alltag.
6566: Vorhanden ist wo man also jetzt nicht von der Stange hat sondern wirklich keine Ahnung abgesehen vielleicht von wegen Trivialitäten,
6566: Bier bei uns auf der Webseite immenkuhlen Block und ich glaube ich kann verraten dass da kein fancy recomanda dahintersteckt sondern wahrscheinlich irgendwas relativ einfaches Vorschau Türkiye das Blogpost in Bereiche
6566: kubernetes
6566: und er wird ihn anschaut der bekommt gleich noch ein paar andere Blogpost vorgeschlagen im gleichen Text also ich hoffe ich hoffe verrat kein Firmengeheimnis aber vermutlich ist es so gelöst aber wissen dass man bei solchen realgirls ja Anwendung in den du auch tätig bist
6566: gibt es Dinge von der Stange oder ist man dann wirklich erstmal noch so am planungstisch und überlegt sich ok welche Modelle sind hier vielleicht spannend sie können wir hier sonst System ja wirklich individuell bauen.
7202: Sehr interessant und auch sehr sehr relevante Frage zum einen ich kann spoilern bearbeiten gerade auch intern da dran dass für unsere eigene Website besser zu machen weil
7202: eat your own dog food ich glaube das auch ganz hinfallen ist auch tatsächlich sehr sehr spannend er haben ja.
7202: Inhouse Lösung gebaut für personalisierungs Zwecke ein Produkt Track TV.
7202: Und wenn dieses Produkt tatsächlich auch bei uns an und guck mal was er damit auch auf unserer eigenen Website an Relevanz Steigerung von Inhalten rausholen können und ich glaube da ist noch Luft und das zeigt auch glaube ich so dieser.
7202: Lisa. Also viele in der Industrie machen ihr Geschäft glaube ich schon gut.
7202: Aber es ist noch sehr viel Luft nach oben.
7202: Und ich glaube und das ist das damit versuche ich das versuche ich damit auszudrücken.
7202: Ist das diese dieser Begriff mir gerade so über über oder durch den durch den Kopf geisterte.
7202: Personalisierungs Lösungen von der Stange.
7202: Also ja es gibt, die Lösungen die machen so Dinge wie collerette filtering was ich gerade erklärt hatte die machen dir das du musst natürlich und das ist immer so wo wir alle immer den Aufwand unterschätzen
7202: die daten massieren du musst das ganze natürlich mal irgendwie in der Pipeline einbinden danach noch irgendwelche Jobs die regelmäßig laufen müssen dann geht natürlich immer schief dann wird es Monitor und dann wird zu gucken wie häufig muss ich meinen Modell neu trainieren weil ich ein Model oder weil ich ein Date hat dürft habe sonstiges
7202: also auch schon bei Lösungen von der Stange gibt es viele vor und nachgelagerte.
7202: Problemstellungen die auch adressiert gehören weil am Ende interessiert mich ja die entrance Performance und nicht ob das Modell isolierten guten Job macht oder nicht.
7202: Was die enorm Bestrebung in dem Bereich zeigen und auch wie ihr dieses Publikum der Access gewachsen ist.
7202: Auch die Unternehmen die sich daran beteiligen ist dass wir noch lange meiner Meinung nach da nicht an irgendwie einer finalen Lösung für das Relevanz Problem der Menschheit stehen glaub aus es aus mehreren Gründen
7202: erstens weil sich natürlich so sage ich mal die Basis permanent weiterentwickelt.
7202: Wie feingranular wird Zugriff auf Daten haben Daten bereitstehen auch in Norm dynamic die sich Dinge verändern und da sind wir halt beim beim. Also wir reden hier nicht davon,
7202: ein bild zu klassifizieren ob es ein Hund oder eine Katze anzeigt,
7202: und auch da wissen wir wenn ich das richtig richtig gut machen will dann kann ich in den Norden tiefes CNN dafür trainieren das gibt mir dann halt eine wunderbare accurist hier aus wie auch immer wir reden hier tatsächlich davon Menschen.
7202: Dinge anzuzeigen die für Sie relevant sind und Menschen haben dynamische Präferenzen.
7202: Kontextsensitive Präferenzen ich verhalte mich anders in der Gruppe als als Individuum ich verhalte mich morgens anders als am Abend ich.
7202: Sind heute Dinge spannt die ich vielleicht in einem Jahr langweilig finde.
7202: Das heißt also also Spotify tut das z.b. wenn es dir anzeigt Hey good morning dann geht der andere Dinge als am Abend weil die das wissen und weiß ich trotzdem sind im Bereich der context-sensitive Empfehlungen.
6566: Das ist ein richtig guter. Das hatte ich nicht auf dem Schirm aber ja mein Geschmack ist nicht jeden Tag gleich also bei Musik ist es bei mir persönlich halt total unterschiedlich das hat sehr viel mit dem Wetter zu tun also ich hören
6566: geiles Wetter draußen ist für ich andere Musik wie jetzt im November
6566: am alten Einfluss auf meine Stimmung hat das Wetter und ja klar meine Stimmung ist und sich sehr sehr ausschlaggebend für für mein Musikgeschmack ja ist super super interessanter. Marcel.
7202: Und das zeigt halt wie wahnsinnig schwierig es ist dieses das gutzumachen und das ist einige.
7202: Tun wir das jetzt sage aber also
7202: nur die discover weekly ist gut dann sonst ist bedeutet nicht dass Spotify bei Netflix, sie am Ende anbelangt sind auch wenn sie vielleicht cutting-edge machen und das bedeutet für die all die anderen die quasi nicht in der Liga von Spotify und Netflix stehen dass die noch einen langen Weg vor sich haben,
7202: und das dann noch sehr sehr viel Bedürfnis ist und mal was ich von dieser nicht stationär ität von Präferenzen abgesehen was ist mit Leuten.
7202: Die gar nicht wissen was sie mögen also wo wir diesen Charakter der Discovery haben und dann haben wir ja in den vergangen und dann kannst du halt sagen okay.
7202: Ich habe jetzt verschiedene Verfahren ich kann deep learning ich kann reinforcement learning Kausalität auch enorm wichtig Herr darauf anwenden darauf transferieren dann will ich erstmal gucken wie gut gelingt das überhaupt und dann.
7202: Kann es halt auch immer sein zu merken der Ansatz hat nicht funktioniert dann muss ich was eine Rolle rückwärts machen und einen anderen Ansatz Gewinn das kann ich natürlich bedingt parallelisieren.
7202: Aber auch diese Probleme zu lösen wie das Problem dass oder diese Probleme zu lösen
7202: Discovery zu betreiben also Navidi messe ich das überhaupt und was wir z.b. im Fall der der Glück oder Battlefield Wings oder was da dein Hauptproblem von konservativ Vischering haben ist was los Kolster Problem,
7202: meine Problem ist seit 25 Jahren bekannt also jemand der nichts hat.
7202: Womit er interagiert hat da habe ich auch nichts von dem ausgehend ich eine Ähnlichkeit zu anderen berechnen kann weiß ich habe keine Grundlage überhaupt.
7202: Für dich oder Bridge Ephedrin recommendation zu machen wenn doch nie night in the club like Jochim hast ja deswegen gibt's ja quasi content-based Lösung sonstiges aber ist natürlich dann auch wieder eine gewisse.
7202: Sage ich mal so.
7202: Zusätzlicher Komplexität und dann was womit ich zuletzt gearbeitet hatte oder auch tatsächlich arbeite ist gerade dieses Feld der sogenannten cross-domain recommendations wir haben ganz am Anfang mal drüber gesprochen,
7202: das ist quasi Items gibt die in einer Plattform sind aber die einfach unterschiedliche Typen sind das hat mir beim linkedin gesagt also Jobs.
7202: People am Posten sonstiges und jetzt ist halt die Frage.
7202: Wie z.b. auch übergreifend das ausnutzen kann also wie kann ich z.b. die Informationen drei über dein Netzwerk nutzen um zu destillieren welche Jobs für dich relevant sind.
7202: Das mache ich gleich nicht nur indem ich gucke welchen Job du mal gekriegt hast sondern mehr die deine Umgebung mit der du interagierst kann vielleicht auch eine Bewandtnis dafür haben welche Jobs für dich relevant sind oder besseres Beispiel.
7202: Man hat ja in den vergangenen Jahren den Muff von Spotify eben in den Podcast Bereich,
7202: enorm gut verfolgen können also sei es jetzt die Diskussionen um Joe Rogan aber,
7202: Spotify hat Jan im Bereich Podcast in Norm investiert oder mit der eigenen Plattform Enkel,
7202: und jetzt hast du halt das interessante Problem Spotify Weissager mal grob auf immer darüber diskutieren können sehr gut welche Musik welchen Leuten gefällt die haben irgendeine Möglichkeit deine Musik Präferenzen.
7202: Mathematisch auszudrücken und jetzt kommen plötzlich Episoden und Podcast shows an Bord also Millionen zusätzliche items.
7202: Und ich will natürlich dass die Spotify Nutzer hat die bisher Musik bei mir war natürlich jetzt auch die Podcast bei mir hören wie krieg ich das am besten hin ja dämlich ihn über.
7202: Das gleiche Interface die gleiche App Podcast Vorschlag naja und wie kriege ich hin dass sie Podcast gut sind naja wenn Sie relevant sind.
7202: Und du hast die Frage wie kann ich musikpräferenzen ausnutzen um vorherzusagen welche Podcast für dich relevant wird man vielleicht auf Anhieb sagen ja was hat denn mein Musikgeschmack mit meinem Podcast Geschmack zu tun.
6566: Also ich würde auf Anhieb sagen hey was hat denn dein Musikgeschmack eigentlich beim Podcast Geschmack zu tun.
7202: Exakter und es zeigt sich.
7202: Sehr viel also es papers ist von von 20/20 was was Spotify auf der auf der secure es ist die führende information retrieval Konferenz probiert hat,
7202: darnsee also das für schon eine signifikante Menge an Nutzern die aber irgendwie.
7202: Angesicht der gesamt Nutzerschaft von Spotify natürlich trotzdem noch kleines aber schon ausreichen groß.
7202: Gezeigt wie Sie die Musikgeschmäcker mittels eines die burning basierten Modells ausnutzen können um quasi relevante Podcast zu destillieren und haben dann gezeigt dass sie.
7202: Man kann aber da verschiedene Möglichkeiten es auszuwerten offline und online.
7202: Offline hast du meistens zur Information Richard bei mir treten die precision-recall emera Rentier CD und so weiter und konnten dann offline und online zeigen,
7202: dass sie 50% besser als popularitäts basierter recommandations waren und in der Praxis sind.
7202: Ist es populäre Items anzuzeigen oftmals schon gar nicht so verkehrt das ist schon,
7202: teilweise eine auch wenn es ein einfaches Verfahren ist trotzdem ne teilweise kompetitive baseline und die waren 50% besser spricht das was die Leute über diese.
7202: Das Modell der personalisierten Podcast Empfehlung auf Basis von Musik Geschmäckern vorgeschlagen haben Wahrheit deutlich relevanter als Zeit die nur populären Dinger.
7202: Und das zeichnet auch übersetze durchdekliniert auf das was.ist
7202: hat dann vielleicht irgendwann meinen Musikgeschmack eine Bewandtnis darauf was ich mir bei Netflix angucken will
7202: ja also music to video video to music ja oder video to Podcast Podcast zu Video und so weiter oder welche outputs
7202: welche AudioBox ich mir irgendwo anhöre haben die vielleicht eine Bewandtnis dafür welche Podcast welche Musik ich gerne höre und sonstiges das sind halt enorm interessante Fragestellung also
7202: ausbrechen aus quasi zum single-domain denken und quasi in die in die Breite crossdomain zu geht es z.b. auch noch so ein riesen Fan deswegen glaube ich.
7202: Lass da einfach noch soviel drin steckt und klassischerweise dauert ja auch immer alles länger als man denkt.
7202: Das wird auch noch eine ganze Weile mit beschäftigt sein können und werden.
6566: Marcel ich ich wollte dich jetzt eine schon verabschieden gerade aber jetzt bringst du noch dazu ein zwei Sätze die mich zum Nachdenken bringen bringe diese ganze crossdomain Geschichte.
6566: Am
6566: Das eine Herz in meiner Brust sagt ey cool dann höre ich halt Podcast die ich cool finde und dann kann ich mir vielleicht auch Netflix endlich mal in was anschauen was ich
6566: gut finde und bei Amazon wird mir ganz tolle Produkte anzeigen lassen und so weiter und so fort und,
6566: Google Maps zeig mir an wo ich hier in Karlsruhe vielleicht das coolste Restaurant für mich ist basierend auf mein Musikgeschmack und,
6566: das eine Herz in meiner Brust zeigt ja cool hey das spare ich viel Zeit und ich investiere mein Geld richtig weil ich kaufe mir keinen Quatsch den ich brauche.
6566: Das andere Herz in meiner Brust sagt ok aber kann ich die Daten da nicht vielleicht auch nutzen um es vielleicht bei der nächsten Wahl wieder nur Wahlwerbung anzuzeigen die ist so auf mich gekonnt ist dass ich sag hey ich finde die Partei eigentlich richtig blöd.
6566: Diese Werbung hat nicht überzeugt das trotzdem zu wählen also.
6566: Also die Frage die ich jetzt im Kopf habe ist die sind dann wenn man über re Kommentar spricht im Wissenden das für diese ethischen.
6566: Bitte ich habe mich immer mal gerne im Bereich von ml und KI drüber unterhalten dass gerade der ethische Aspekt sehr sehr wichtig ist,
6566: ich habe mich da auch eben Interview mit der Anna-Lena drüber unterhalten darüber KI macht Schule als Hyper
6566: Sprüche KI Workshops für Schüler gesprochen und sie meinte da auch dass das diese Workshops für 3 geteilt sind wirst du wie ein Teil Theorien Teil Praxis und einen Teil also ein Drittel hast du auch ethische ab
6566: bitte von Kay
6566: was ich sehr sehr cool finde aber ich glaube dass wir uns auf die nachfolgende Generation die mit ihrer Technologie Arbeit oder mit diesen Technologien dass sie eine sehr große Verantwortung haben also,
6566: nicht nur dass man verhindern muss das wars mit Absicht missbraucht wird halt vor allem außer dieses unbewusste missbrauchen dann Anführungszeichen da im in buyer's drin ist oder so und ähm.
6566: Long story.
6566: Bislash order wie bezieht sich das jetzt auf solche Recommender wenn ich jetzt will ich sage ich habe dieses cross-domain Ding hier am Start und das ist ziemlich cool aber
6566: wie sind da vielleicht aktuell in der Industrie oder in der Forschung oder in der Community zu diese ganzen ethischen Ansichten oder Aspekte.
7202: Ja ja es ist ein sehr sehr guter. Und das ist tatsächlich so wo ich die Wahrnehmung habe
7202: dass sich auch die Industrie damit selbstkritisch beschäftigt zumindest dieses Konglomerat aus Industrie und Akademiker was was sehr eng verflochten ist,
7202: ich war die Frage hat sich auch immer also insofern kein ethische recsys Talk ohne die Erwähnung von Cambridge analytica.
7202: Ja ist definitiv ein Problem und bei all dem Enthusiasmus der nicht für dieses Feld verstreuen sehe ich auch die Gefahr also ich teile die Bedenken.
7202: Manchmal zu kurz gegriffen dass man sagt okay muss quasi alles einhegen verbieten und sonstiges sondern man muss es anders machen und wahrscheinlich auch regulieren.
7202: Aber hier finde tatsächlich auch viele meiner Meinung nach in der Community start also ein Gedanke der meckert kam.
7202: Wir haben uns jetzt bisher so immer mal wieder am Beispiel der Beispiele auch Netflix am Rand in der Beispiele wie zum Beispiel Netflix unterhalten die man das ganze berechnen oftmals ist eine Metrik.
7202: Wer dominiert und das ist die Relevanz oder die accuracy the recommendations ja ich zeig dir was an und wenn das ist kommt mit ins Glück wird dann war es gut.
7202: Die Bandbreite wie ich Empfehlungen bewerte ist aber deutlich größer.
7202: Auch wenn diese Relevanz dominiert und auch wenn sie nicht unrelevant ist sollte es nicht die einzige sein es gibt also Aspekte wie Fairness.
7202: Es gibt natürlich wie in anderen machine learning Problem enorm viele Basis Amberg.
7202: Und auch die gut funktionierende popularity hat quasi ihre downside das wenn ich immer nur den populärsten kam Anzeige.
7202: Na ja dann werden nie die Filme von.
7202: Leuten angezeigt die versuchen gerade Fuß in der Filmindustrie zu fassen die noch so kleine independent wie auch immer Leute sind weil die nie quasi auf die Toplisten bekommen Toplisten kommen aber und da greift so ein bisschen.
7202: Dieses Creator und das consumer Interesse ineinander weil wenn ich immer noch im populären es gibt die Leute die wollen sich populär berieseln lassen das ist fein aber das trifft auch natürlich nicht jeden insofern kann man daraus
7202: ableiten das natürlich auch eine Plattform Interesse daran hat dass du eine gewisse Content Discovery gegeben ist und es gibt z.b. so 2-3 Dinge dazu sagen.
7202: Ein Workshop im ramgraben der Access der heißt Fairness accountability and transparency in recommender systems.
7202: Wo man also schon sieht okay da denkt man über solche Themen drüber nach und versucht sowas auch genau zu adressieren diversity and recommendations also wie ich einfach auch Listen
7202: deutlich diverse 30. mit diversity in der General Diskussion zu tun aber einfach wie ich verschiedenartige recommandations machen kann.
7202: Um auch Nutzer zu inspirieren aber auch quasi um damit Items quasi aus dem Longtail die deutlich weniger konsumiert werden die Möglichkeit zugeben konsumiert zu werden.
7202: Ein konkretes Beispiel die Recommender Systems Konferenz veranstaltet jährlich korrespondierend zur Konferenz auch die sogenannte recsys Challenge.
7202: Die rexis Challenge ist eine Art Kegelverein Kommentar systems.
7202: Und wurde in den letzten beiden Jahren zusammen mit twitter ausgetragen falls Twitter hat einen anonymisierten Datensatz bereitgestellt eine Aufgabe dazu und so war
7202: die Aufgabe vor zwei Jahren so einer Tiptree tengame ins Feuer zu sagen kannst du dir vorstellen wenn ich für eine Kombination aus Nutzerinnen und Twitch,
7202: vorhersagen kann mit welcher Wahrscheinlichkeit diese Nutzerinnen treat kriegt like liked shared commented und sonstiges
7202: dann kann ich das wiederum nehmen dieses Modell was das gelernt hat um dann zu ranken.
7202: Das haben die im ersten Jahr gewann das erlaube ich 20 20 und 20 21 letztes Jahr und da machen wir bei innovex auch an allen Fronten viel also wir machen.
7202: Viele Projekte im Recommender Bereich durch verschiedene Bronson.
7202: Medien Unterhaltung E-Commerce man sieht unsere mobile.de Studie aber wir machen tatsächlich auch Forschung in den Bereich und das auch erfolgreich.
7202: Am Florian Wilhelma z.b. letztes Jahr und dieses Jahr dann auch noch eine Folge paper auf der rexis letztes Jahr untergebracht oder so zeigen wir als innovex spielen da auch in dieser Topliga mit
7202: also das war so Marko Referenzen zwischen LDA,
7202: und Kohle Batterie drin gesehen haben und was also umgerechnet wächst zu 8 nicht auf Netflix auf Twitter zurückzukommen Täter gemacht hat die haben dieses Daten Zeit für dies und die Aufgabe war nicht.
7202: Derjenige gewinnt oder dasjenige Team was hier.
7202: Die möglichst beste und akkurate Station Smart sondern das Team was quasi gemittelt über verschiedene.
7202: Gruppen von Autoren Tweet Autoren und Autorinnen gute Performance erzielt.
7202: Weil ansonsten hast du halt du hast die sehr sehr dominanten Accounts Modell würde sich dann quasi darauf konzentrieren implizit die Tweets dieser sehr dominanten Accounts erfolgreich vorherzusagen und du hast damit quasi eine Baez
7202: gegenüber den populären was quasi unfair gegenüber den unpopulären ist unpopulär quasi einfach statistisch gemeint,
7202: Oma Tag war gesagt ok ich nehme meine.
7202: Gesamten Autoren von Twitter die als nächsten Datensatz Datenzentren warm und teile die also in 20 % Quantile 1.
7202: Nach der Anzahl ihrer Follower als quasi Proxy für Popularität.
7202: Und dann ging es gerade darum in all diesen fünf Gruppen.
7202: Möglichst gut zu sein weil am Ende das Gesamtergebnis quasi gemittelt wurde aus wie gut ich in allen fünf Gruppen war und über die Lösung dessen.
7202: Kommst du dann dahin dass Du letztlich es schaffst für unpopuläre Accounts,
7202: bessere Vorhersagen zu treffen was wiederum dazu führt mittelbar dass diese Tipps auch teilweise eher vorgeschlagen werden können
7202: dabei ging es quasi darum also ich hatte da bei uns eine Bachelorarbeit auch zu zu zu
7202: betreut von der Eva Engel und da hatte auch Blockbuster uns zugeschrieben über das Thema E-Werk quasi Fairness in recommender systems mathematisch
7202: in einem Modell umgesetzt haben also es gibt man kennt den den PageRank von Google aus gibt einen Fernseher PageRank und Birne Adaption davon
7202: genommen oder gemacht.
7202: Die wir dann quasi auf diese Twitter Daten angesetzt haben also sofern uns ein bisschen bisschen aufzubauen wir beschäftigen uns das sächlich bei innovex sogar mit dem Thema die Community beschäftigt sich mit dem Thema aber beides heißt natürlich nicht dass das Ganze.
7202: Unproblematisch ist hier ist leichter Weise der Zeit an manchen Stellen auch ist aber diese Probleme ich würde sagen,
7202: sie werden adressiert also es gibt wieder Dingen diese Mannschaft die Hockey vernis von recommandations
7202: Mit dem vielen verschiedenen bei ist es dir am Berg sind die diversity von recommendations weil du hast einfach manchmal genau diesen.
7202: Wenn ich etwas tue was nicht direkt im Wiener Relevanz ist kann das trotzdem auf die sogenannte User satisfaction einzahlen und um Corsa den Kreis wieder zu schließen.
7202: Dann wäre es ein bisschen mit mit Cambridge analytica und dem Skandal eröffnet hatten also ich bezweifle,
7202: dass das Ganze letztlich so wie es ausgegangen war ganz im Sinne von Facebook selbst war denn wenn eine Plattform quasi Vertrauen von Nutzerinnen und Nutzern verliert dann kann das auch nicht langfristig im wird vom sein.
6566: Ja da bin ich ganz bei dir also ich glaube was man halt irgendwie so ein bisschen bisschen hinbekommen muss es auf der einen Seite des wirtschaftlich Interesse von diesen ganzen Plattform dann was wir nicht vergessen dürfen ist auch wenn du bist sowas wie Twitter oder Facebook,
6566: ist sehr breit in der Gesellschaft genutzt wird es ist ein Wirtschaftsunternehmen und das ist Unternehmen
6566: möchte einfach unglaublich viel Geld verdienen und das machen sie wenn die Leute lange auf der Plattform sind ich glaube wenn wir aber es schaffen
6566: jetzt in solchen Fach Community ist über solche Themen zu diskutieren und
6566: ich sehe es auch als Aufgabe von solchen Communitys an solche Informationen der Gesellschaft raus zu tragen weil da draußen kann sich nicht jeder Mensch auskennen mit drei Kommentar mit data science und so weiter und ich finde so ein bisschen Öffentlichkeitsarbeit finde ich säße wichtiger Aspekt und das solltest du ein Aspekt auch wie jetzt fernes oder einfach Ethik auch auf der wichtige wichtige Rolle spielen
6566: wenn wir schaffen die Gesellschaft zu sensibilisieren für so Themen wie Ethik Transparenz und so weiter,
6566: dann kann ich ja auch entscheiden Hey ich gucke mir gerne in die lustige Videos an und ich nutze gerne YouTube.
6566: Aber wenn die jetzt bei YouTube weiterhin vielleicht manche Dinge so tun wie sie es tun dann überlege ich mir bescheid.
6566: Alternativ der andere Plattform Lutz weil ich da keine Lust drauf habe weil ich meine jeder kenne die Geschichten dass man bei YouTube schnell und Sorbitol ist,
6566: mir ging es bei sowas ich mich vor zwei Jahren auf eine große Wandertour vorbereitet habe und
6566: du weißt ja wenn man sich auf großes Projekt vorbereitet muss man erstmal googlen und danach schaut man sich Videos an und ich habe echt lange Zeit gebraucht bis ich auf YouTube mal wieder was anderes als irgendwelche Hardcore wander Videos angeschaut habe Vergleich,
6566: die nur mit Taschenmesser bewaffnet wohne der lange in der Wildnis unterwegs waren.
6566: Aber ich kenne auch die Geschichten von Leuten die einmal in YouTube falsch abgebogen sind und dann nur noch ultra krasse verschwörungs Videos bekommen haben und dann behauptet haben die die Erde ist eine Scheibe.
6566: Da wenn du vielleicht davon ausgehst dass das Recht ist zu stark vielleicht anzweifelt was ihr da gezeigt wird,
6566: und du siehst ein Video nach dem anderen wo irgendwelche Leute die vielleicht auch also ich meine manche manche sind heute komplett irre aus aber da gibt's ja auch ganz seriöse Menschen die das Wetter ganz klar.
7202: Unseriösen kam erzählen.
6566: Das ist ja die schlimmste Kombination.
6566: Also auch passierte er so unter UCI Leute Geschlecht was seriöses hat sich aber ist ja jedem Menschen die Quatsch erzählt hätten dann glaubst du vielleicht dran mit deinem
6566: bitte deine Peergroup sonst jemanden aus der der mit dir drüber spricht.
6566: Deswegen finde ich es einfach unglaublich wichtig dass man diesen ethischen Aspekt mit rein packt vor allem freeCommander die Schränken ja einfach auch unsere Sicht auf die Dinge ein.
6566: Durch den Recommender schaue ich mir halt nicht diese 350 Millionen Songs auf Spotify an oder die 4000 videos auf Netflix die könnte ich vielleicht sogar noch schaffen wenn die Männer viel Zeit nehme.
6566: Bei mir freeCommander oder auch auf eine Suche verlasse ist heißt das wie es bei bei Amazon auch bei Google dann ist es ja mein Fenster in in diese Daten Welt und
6566: da muss ich schon gutes Gefühl und fahrenbruch Vertrauen haben dass du es auch soweit passt.
7202: Deine Aufmerksamkeit wird praktisch gelenkt.
6566: Ja und das ist auch gut so weil also ich glaube es gibt auf der Welt einfach riesengroße Datensätze.
6566: Und die große Kunst und für mich auch ehrlich gesagt die Schlüsseltechnologie ist eben ist es information retrieval sei Sitzung
6566: klassisches Buch Ansätze oder ich komme in das System ist ja auch so eine Arztsuche gesucht wird die Information für mich jetzt richtig senden
6566: ich finde das ist einfach für mich die Schlüsseltechnologie fürs 21 Jahrhundert weil wenn wir sagen wir leben in der datengesellschaft dann können wir dann nur vernünftig leben wenn wir halt einen Kompass haben der uns den Weg zeigt.
6566: In einem Menschen leben kannst du nicht alles anschauen und bewerten es ist einfach zu viel.
6566: Marcel jetzt habe ich lange lange lange geredet und ich glaube das ist ein heißer Anwärter auf die längste Folge hier in dieser kleinen Podcast Serie.
6566: Aber ich fand es sehr interessant und du hast so toll erzählt da konnte und wollte ich dich nicht unterbrechen weil ich etwas ja neugierig war
6566: vielleicht zum Schluss hin wie sieht's denn aus du bist ja bei uns hier direkt an der Front was sowie Kommentar und so angeht wenn jetzt jemand sich dieses Gespräch anhört und
6566: das ist ein cooler Recommender
6566: da hätte ich Lust vielleicht und wie mehr zu tun also klar wenn ihr da draußen Unternehmen habt und ihr braucht ein Kommentarsystem dann dann meldet euch gern per E-Mail bei mir ich vermittle euch da jemanden aber wenn ihr Lust habt vielleicht in den Beruf bei dem Bereich mal reinzuschnuppern oder mal beruflich was zu machen
6566: Marcel wie sieht's denn aus brauchen wir aktuell Leute die uns da unterstützen.
7202: Also definitiv ich glaube noch sogar insbesondere leuchtet die uns dabei helfen das ganze dann auch immer auf die Straße zu bringen das glaube ich auch gerade ist wohl gerade im data Engineering sehr sehr viel Arbeit ansteht und das ist ja auch mal eine sehr interessante Schnittstelle
7202: also wir bringen die Dinge schon auf die Straße aber in glaube ich manchen fricken können wir definitiv noch weitere Unterstützung benötigen
7202: aber seis bei uns oder woanders wer sich mit dem Thema beschäftigen will
7202: für den gibt es und jetzt versuche ich der RE Kommentar zu sein also quasi human based Information filtering zu betreiben.
6566: Das Beta.
7202: Ja genau gibt es natürlich auch einen einen einen riesen Fundus an an Personen oder an Dingen wo ich mich dran wenden schauen kann es natürlich auch wieder die Frage ich weiß natürlich nicht,
7202: was die individuellen Präferenzen der Leute sind die das Herz hören aber sag mal es gibt ja Leute oder lernen durch unterschiedliche Kanäle gut manche lesen
7202: manche machen Kurs manche hören sonstiges also ich glaube ich habe vielleicht für jeden für jede etwas dabei am 7.
7202: Ganz nettes Buch zu dem Thema dass ein Freund von mir geschrieben hattest heißt practical Recommender Systems es gibt einen exzellenten Kurs das war tatsächlich auch mein erster Einstiegspunkt zureck anwendersystem der von der.
7202: Forschungsgruppe der grouplens Krupp gemacht mit dir auch verantwortlich für die movieland Datensatz sind
7202: an der University of Minnesota nämlich Afonso consten und Michael die Extremisten wirklich echt 2 Gurus und mal auf einer Konferenz zu dem rüber zu gehen und auf die Schulter zu sagen dann danke das war schon für mich so ein riesen Moment er war ein bisschen verwirrt aber.
7202: Einen genialen Kurs gemacht der heißt Recommender Systems specializations of coursera aber die Schau Links bitte dann dazu auch noch geben wie gesagt das Buch.
7202: Für alle die vielleicht schon ein bisschen stärker im Thema drin sind oder eben vielleicht auch ein Einstieg bekommen wollen kann ich in das kommt die Selbstwerbung natürlich auch meinen Podcast empfehlen ich hoffe dass er empfehlenswert ist ansonsten.
6566: Das ist auf jeden Fall das ist auf jeden Fall also ich verstehe ich verstehe vielleicht nicht alle Details darin aber das liegt natürlich an mir ich bin noch nicht so tief in dem Thema drin.
7202: Dann bist auch du herzlich eingeladen aber ich habe letztes Jahr mein Projekt Rex birds Recommender Systems Expert begonnen wo ich also Leute aus der Industrie
7202: aber auch aus dem akademischen Bereich Interview ich hatte Interviews mit Leuten von
7202: Amazon von Nvidia von Zalando soweit ich habe mich auch wie gesagt mit der man l über das Thema privacy unterhalten also es geht jetzt hier nicht auch nur immer um Dollars und Euros also um die geht's gar nicht so direkt auch immer es geht schon das fachliche und um den
7202: heißt die technischen modellhaften scheiß aber es geht tatsächlich auch genau um diese was willst du mit meinem Leuchten haben wichtigen
7202: Tim wie z.b. privacy und den gibt's also überall wo es Podcast gibt soweit sonst 7 Episoden und in der.
7202: Alle ersten oder zweiten Episode zum Essen beim ersten Interview unterhalte ich mich auch mit Kim Falk über practical Recommender Systems mal über so ein paar einfachere Einstiegs Dinge da kann man also mal reinschauen und ansonsten haben wir auch ne
7202: Landing Page beim Rex zu dem Thema ich unterhalte mich doch gerne tue gerne türlich auch zahlreiche Blogpost zum Thema oder schon viele arbeiten dort betreut haben
7202: also von dem Online mokes über Podcast über Bücher sollte man da auf jeden Fall
7202: finde ich werden und dann gibt es noch die Bibel freeCommander Systems das recommender systems handbook ich weiß gar nicht wieso es handbook heißt weil das über 1000 Seiten dick.
7202: Das ist jetzt gerade auch in seiner.
6566: Der praktische kurzleitfaden.
7202: Ja das ist so bei meinen gefühlt 20 Chrome Instanzen die ich auch habe ist das quasi die PDF Instanz die hier immer auf ist also irgendwo bei mir wird mit sich immer so dass Weg Kommentar systems handbook im Hintergrund wenn ich was nachlesen will oder sonst was also.
6566: Okay.
7202: Da gibt es eine Menge an Material.
6566: Okay und die ganzen Sachen die schickst du mir es gleich zu und dann verlinken wir die alle den schon Ausfluss bei der ganz bequem drauf klicken kann ja da bleibt bis gar nicht so viel zu sagen
6566: Marcel vielen vielen Dank für deine Zeit das war super interessant und
6566: ich glaube wir müssen auf jeden Fall mal irgendwann mal noch mal drüber sprechen ich glaube da gibt's doch vielleicht die eine oder andere Nische wo man sich noch ein bisschen vertiefen könnte.
7202: Problemraum ist noch groß und die Zeit ist noch da und das Thema finde ich nach wie vor super spannend also auf jeden Fall gerne.
6566: Ja also dann schreibe ich dich direkt mal hier aus paclog für eine zweite Folge Marcel vielen vielen Dank für deine Zeit schön dass du da warst.
7202: Danke dir mach's gut.
6566: Danke Ja und euch vielen Dank fürs zuhören wenn Ihr Feedback habt dann schreibt doch gerne mal eine E-Mail an Podcast innovex de oder besucht uns auf unseren ja
6566: Präsenzen in den sozialen Medien beispielsweise auf Instagram oder auf LinkedIn die Links dazu die findet ja auch nicht schauen aus ja und ich sage dir Stelle tschüss und bis zum nächsten Mal.
01:46:52: Intro
Neuer Kommentar