Artwork

Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald에서 제공하는 콘텐츠입니다. 에피소드, 그래픽, 팟캐스트 설명을 포함한 모든 팟캐스트 콘텐츠는 Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald 또는 해당 팟캐스트 플랫폼 파트너가 직접 업로드하고 제공합니다. 누군가가 귀하의 허락 없이 귀하의 저작물을 사용하고 있다고 생각되는 경우 여기에 설명된 절차를 따르실 수 있습니다 https://ko.player.fm/legal.
Player FM -팟 캐스트 앱
Player FM 앱으로 오프라인으로 전환하세요!

#118 Wie funktioniert eine moderne Suche? Von Indexierung bis Ranking

1:12:20
 
공유
 

Manage episode 411436878 series 3432292
Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald에서 제공하는 콘텐츠입니다. 에피소드, 그래픽, 팟캐스트 설명을 포함한 모든 팟캐스트 콘텐츠는 Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald 또는 해당 팟캐스트 플랫폼 파트너가 직접 업로드하고 제공합니다. 누군가가 귀하의 허락 없이 귀하의 저작물을 사용하고 있다고 생각되는 경우 여기에 설명된 절차를 따르실 수 있습니다 https://ko.player.fm/legal.

Explain my like i am five: Die Grundlagen moderner Suchen

Wir, als User, erwarten heutzutage ziemlich viel von einer Suchmaschine. Es soll “magisch” verstehen, was wir eigentlich finden möchten. Egal ob wir das richtige Wort dafür nutzen (aka Synonym-Suche) oder ob der Begriff einen Tippfehler hat (aka “Meinten Sie …?”).

Oft werden Tools wie Elastic- oder OpenSearch, Solr, Algolia und Co. für sowas eingesetzt, denn eine einfache Volltext-Suche mittels eines Wildcard-SQL-SELECT Statement reicht dafür nicht mehr aus. Doch was steckt eigentlich dahinter? Wie funktionieren all diese modernen Suchen eigentlich im Inneren? In dieser Episode geht es um die Grundlagen moderner Suchmaschinen. Wir schmeißen mit Begriffen wie Stemming, Homonyme, BERT, Stopwords, Inverted Index, Suffixbäume, N-Grams, Term Frequency-Inverse Document Frequency, Vector Space Model und Co um uns und erklären das ganze im “Explain me Like I am five”-Stil.

Bonus: Wie Konzepte des Information Retrieval mit Bälle-Bädern erklärt werden.

**** Diese Episode wird von der HANDELSBLATT MEDIA GROUP gesponsert.

Wirtschaft ist nicht immer einfach. Deswegen lautet die Mission der HANDELSBLATT MEDIA GROUP: „Wir möchten Menschen befähigen, die Wirtschaft zu verstehen.“ Mit ihren Kernprodukten, dem Handelsblatt und der WirtschaftsWoche, sowie 160.000 Abonnements, 15 Millionen Besuchern und 3 Milliarden Anfragen in einem Monat leisten sie einen wichtigen Beitrag zur Orientierung und Meinungsbildung in den Bereichen Wirtschaft und Politik und machen damit einen ausgezeichneten Job.

Wenn du Teil dieser Mission sein möchtest, schau auf https://engineeringkiosk.dev/handelsblatt vorbei und werde ein Teil der HANDELSBLATT MEDIA GROUP.

********

Das schnelle Feedback zur Episode:

👍 (top) 👎 (geht so)

Feedback

Gerne behandeln wir auch euer Audio Feedback in einer der nächsten Episoden, einfach die Audiodatei per Email an stehtisch@engineeringkiosk.dev.

Links

Sprungmarken

(00:00:00) Buzzword-Bingo bei modernen Suchen

(00:04:40) Die Komplexität moderner Such-Systeme

(00:05:55) Die Handelsblatt Media Group (Werbung)

(00:07:00) Die Komplexität moderner Such-Systeme

(00:09:58) Wie funktioniert High-Level eine Suchmaschine?

(00:11:04) Verarbeitung der Such-Daten durch Tokens: Sprache, Stop-Words, Lemmatisierung, Stemming

(00:20:53) Zahlen als Such-Wörter, Embeddings und Bidirektionale Encoder-Repräsentationen von Transformers (BERT)

(00:29:34) Speichern der Daten mit einem Index: Invertierter Index und Suffixbäume

(00:43:07) Daten wirklich finden durchs Ranking: N-Grams, TF/IDFrequency und Vector Space Model

(00:59:54) Wie wählt man ein gutes Such-System aus?

(01:04:20) Wie beeinflusst Generative AI die aktuellen Suchsysteme und Sucht-Grundlagen?

Hosts

Feedback

  continue reading

126 에피소드

Artwork
icon공유
 
Manage episode 411436878 series 3432292
Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald에서 제공하는 콘텐츠입니다. 에피소드, 그래픽, 팟캐스트 설명을 포함한 모든 팟캐스트 콘텐츠는 Wolfgang Gassler, Andy Grunwald, Wolfgang Gassler, and Andy Grunwald 또는 해당 팟캐스트 플랫폼 파트너가 직접 업로드하고 제공합니다. 누군가가 귀하의 허락 없이 귀하의 저작물을 사용하고 있다고 생각되는 경우 여기에 설명된 절차를 따르실 수 있습니다 https://ko.player.fm/legal.

Explain my like i am five: Die Grundlagen moderner Suchen

Wir, als User, erwarten heutzutage ziemlich viel von einer Suchmaschine. Es soll “magisch” verstehen, was wir eigentlich finden möchten. Egal ob wir das richtige Wort dafür nutzen (aka Synonym-Suche) oder ob der Begriff einen Tippfehler hat (aka “Meinten Sie …?”).

Oft werden Tools wie Elastic- oder OpenSearch, Solr, Algolia und Co. für sowas eingesetzt, denn eine einfache Volltext-Suche mittels eines Wildcard-SQL-SELECT Statement reicht dafür nicht mehr aus. Doch was steckt eigentlich dahinter? Wie funktionieren all diese modernen Suchen eigentlich im Inneren? In dieser Episode geht es um die Grundlagen moderner Suchmaschinen. Wir schmeißen mit Begriffen wie Stemming, Homonyme, BERT, Stopwords, Inverted Index, Suffixbäume, N-Grams, Term Frequency-Inverse Document Frequency, Vector Space Model und Co um uns und erklären das ganze im “Explain me Like I am five”-Stil.

Bonus: Wie Konzepte des Information Retrieval mit Bälle-Bädern erklärt werden.

**** Diese Episode wird von der HANDELSBLATT MEDIA GROUP gesponsert.

Wirtschaft ist nicht immer einfach. Deswegen lautet die Mission der HANDELSBLATT MEDIA GROUP: „Wir möchten Menschen befähigen, die Wirtschaft zu verstehen.“ Mit ihren Kernprodukten, dem Handelsblatt und der WirtschaftsWoche, sowie 160.000 Abonnements, 15 Millionen Besuchern und 3 Milliarden Anfragen in einem Monat leisten sie einen wichtigen Beitrag zur Orientierung und Meinungsbildung in den Bereichen Wirtschaft und Politik und machen damit einen ausgezeichneten Job.

Wenn du Teil dieser Mission sein möchtest, schau auf https://engineeringkiosk.dev/handelsblatt vorbei und werde ein Teil der HANDELSBLATT MEDIA GROUP.

********

Das schnelle Feedback zur Episode:

👍 (top) 👎 (geht so)

Feedback

Gerne behandeln wir auch euer Audio Feedback in einer der nächsten Episoden, einfach die Audiodatei per Email an stehtisch@engineeringkiosk.dev.

Links

Sprungmarken

(00:00:00) Buzzword-Bingo bei modernen Suchen

(00:04:40) Die Komplexität moderner Such-Systeme

(00:05:55) Die Handelsblatt Media Group (Werbung)

(00:07:00) Die Komplexität moderner Such-Systeme

(00:09:58) Wie funktioniert High-Level eine Suchmaschine?

(00:11:04) Verarbeitung der Such-Daten durch Tokens: Sprache, Stop-Words, Lemmatisierung, Stemming

(00:20:53) Zahlen als Such-Wörter, Embeddings und Bidirektionale Encoder-Repräsentationen von Transformers (BERT)

(00:29:34) Speichern der Daten mit einem Index: Invertierter Index und Suffixbäume

(00:43:07) Daten wirklich finden durchs Ranking: N-Grams, TF/IDFrequency und Vector Space Model

(00:59:54) Wie wählt man ein gutes Such-System aus?

(01:04:20) Wie beeinflusst Generative AI die aktuellen Suchsysteme und Sucht-Grundlagen?

Hosts

Feedback

  continue reading

126 에피소드

All episodes

×
 
Loading …

플레이어 FM에 오신것을 환영합니다!

플레이어 FM은 웹에서 고품질 팟캐스트를 검색하여 지금 바로 즐길 수 있도록 합니다. 최고의 팟캐스트 앱이며 Android, iPhone 및 웹에서도 작동합니다. 장치 간 구독 동기화를 위해 가입하세요.

 

빠른 참조 가이드