Event Meetup News

London Information Retrieval Meetup [September 2022]

We are delighted to announce the fourteenth edition of the London Information Retrieval Meetup with great news… the event will be in presence!

As usual, the meetup will be a free evening meetup aimed at Information Retrieval passionates and professionals who are curious to explore and discuss the latest trends in the field.

The meeting will be structured with 2 technical talks, with a Q&A session after each talk.

Another peculiarity is that the meetup will be only in presence and will be carried out completely in Italian.

IN PRESENCE MEETUP

Registration required

Date: 19th September 2022 | 7.00 – 9.00 PM (GMT +2)

Location: Via Marsala 29H, Rome, Italy

// LONDON INFORMATION RETRIEVAL MEETUP

PROGRAM

[starting at 7:00]
After a short welcome & latest news speech from our Founder Alessandro Benedetti, we will proceed to the talk.

FIRST TALK (English)

Neural Search Comes to Apache Solr: Approximate Nearest Neighbor, BERT and More!

The first integrations of machine learning techniques with search allowed to improve the ranking of your search results (Learning To Rank) – but one limitation has always been that documents had to contain the keywords that the user typed in the search box in order to be retrieved. For example, the query “tiger” won’t retrieve documents containing only the terms “Panthera tigris”. This is called the vocabulary mismatch problem and over the years it has been mitigated through query and document expansion approaches.

Neural search is an Artificial Intelligence technique that allows a search engine to reach those documents that are semantically similar to the user’s query without necessarily containing those terms; it avoids the need for long lists of synonyms by automatically learning the similarity of terms and sentences in your collection through the utilisation of deep neural networks and numerical vector representation.

This talk explores the first Apache Solr official contribution about this topic, available from Apache Solr 9.0.

During the talk we will give an overview of neural search: we will describe vector representations for queries and documents, and how Approximate K-Nearest Neighbor (KNN) vector search works.

We will show how neural search can be used along with deep learning techniques (e.g, BERT) or directly on vector data, and how we implemented this feature in Apache Solr.

PRIMO TALK (Italiano)

La Ricerca Neurale arriva in Apache Solr: Approximate Nearest Neighbor, BERT e altro ancora!

Le prime integrazioni di tecniche di Machine Learning con la ricerca hanno permesso di migliorare il posizionamento dei risultati di ricerca (Learning to Rank), ma una delle limitazioni è sempre stata che i documenti dovevano contenere le parole chiave che l’utente digitava nella casella di ricerca per essere trovati. Ad esempio, la query “tigre” non recuperava documenti contenenti il termine latino “panthera tigris”. 

Questo problema è chiamato “vocabulary mismatch” e nel corso degli anni è stato mitigato attraverso diversi approcci, come l'espansione delle query e dei documenti.

La Ricerca Neurale (Neural Search) è una tecnica di inteligenza artificiale che consente a un motore di ricerca di raggiungere i documenti semanticamente simili a ciò che ha ricercato l’utente, senza necessariamente contenere l’esatto termine ricercato. Ciò evita la necessità di lunghi elenchi di sinonimi, apprendendo automaticamente la somiglianza tra i termini e le frasi della collezione, attraverso l’utilizzo di reti neurali profonde (deep neural networks) e la rappresentazione vettoriale.

Questo talk esplora il primo contributo ufficiale di Apache Solr su questo argomento, disponibile a partire da Apache Solr 9.0.

Nel corso dell’intervento verrà fornita una panoramica della Ricerca Neurale: verranno descritte le rappresentazioni vettoriali per le query e i documenti, e il funzionamento della ricerca vettoriale Approximate K-Nearest Neighbor (KNN).

Mostreremo quindi come la ricerca neurale possa essere utilizzata insieme a tecniche di Deep Learning (ad esempio, BERT) o direttamente su dati vettoriali, e come abbiamo implementato questa funzionalità in Apache Solr.

// slides
// speaker

Alessandro Benedetti

Founder @ Sease
APACHE LUCENE/SOLR COMMITTER
APACHE SOLR PMC MEMBER
// video
SECOND TALK (English)
The Share-VDE project: indexing at scale

SHARE Virtual Discovery Environment (Share-VDE) is a library-driven initiative that brings together the bibliographic catalogs and authority files of a community of libraries in a shared discovery environment based on linked data.
One of the main challenges is the massive amount of data the system is supposed to manage in terms of
  • Search
  • Manipulation
  • Presentation
In this talk, we will introduce the project through a brief overview. A closer look at the domain model will follow, and then we will focus on the approach taken on the indexing design, which allowed us to build a flexible and scalable architecture.
svde.org
SECONDO TALK (Italiano)
Share-VDE: indicizzazione su vasta scala

Il progetto SHARE Virtual Discovery Environment (Share-VDE) è un’iniziativa che coinvolge una comunità internazionale di biblioteche/università e ne aggrega i cataloghi bibliografici e i file di autorità in un ambiente di discovery condiviso e basato sui linked data.
Una delle principali sfide del progetto è rappresentata dalla enorme quantità di dati che il sistema deve gestire in termini di
  • ricerca
  • manipolazione
  • presentazione
Il talk fornirà una panoramica del progetto con una necessaria introduzione al domain model, per poi esplorare nello specifico l’infrastruttura di indicizzazione, dettagliando strumenti e metodologie utilizzate per realizzare una struttura flessibile e scalabile.
svde.org
// slides
// speaker

Andrea Gazzarini

Partner @ Sease
// video

Author

Lisa Biella

Lisa Biella is a creative digital marketer, geek at heart who is enthusiastic about technology and how it affects people’s lives.

Leave a comment

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.