Kapitel 26. Zend_Search

Inhaltsverzeichnis

26.1. Überblick
26.1.1. Einführung
26.1.2. Dokumenten- und Feldobjekte
26.1.3. Verstehen der Feldtypen
26.1.4. HTML documents
26.2. Indexerstellung
26.2.1. Einen neuen Index erstellen
26.2.2. Indexaktualisierung
26.2.3. Dokumente aktualisieren
26.2.4. Retrieving Index size
26.2.5. Indexoptimierung
26.2.6. Einschränkungen
26.3. Einen Index durchsuchen
26.3.1. Abfrage erstellen
26.3.2. Suchergebnisse
26.3.3. Ergebnisgewichtung
26.3.4. Sortierung der Suchergebnisse
26.3.5. Search Results Highlighting
26.4. Query Language
26.4.1. Terms
26.4.2. Fields
26.4.3. Term Modifiers
26.4.4. Proximity Searches
26.4.5. Boosting a Term
26.4.6. Boolean Operators
26.4.7. Grouping
26.4.8. Field Grouping
26.4.9. Escaping Special Characters
26.5. Query Construction API
26.5.1. Query Parser Exceptions
26.5.2. Begriffsabfrage
26.5.3. Mehrfache Begriffsabfrage
26.5.4. Phrasenabfrage
26.6. Character set.
26.6.1. UTF-8 and single-byte character sets support.
26.6.2. Default text analyzer.
26.6.3. UTF-8 compatible text analyzer.
26.7. Erweiterbarkeit
26.7.1. Textanalyse
26.7.2. Filtern von Tokens
26.7.3. Algorithmen für Punktwertermittlung
26.7.4. Storage Container
26.8. Zusammenarbeit Mit Java Lucene
26.8.1. Dateiformate
26.8.2. Indexverzeichnis
26.8.3. Java Quellcode
26.9. Advanced
26.9.1. Using index as static property

26.1. Überblick

26.1.1. Einführung

Zend_Search_Lucene ist eine komplett in PHP 5 geschriebene Textsuchmaschine für viele Zwecke. Da es seinen Index im Dateisystem ablegt und keinen Datenbankserver erfordert, kann es eine Suchfunktion für nahezu jede auf PHP basierende Website bereitstellen. Zend_Search_Lucene unterstützt die folgenden Funktionalitäten:

  • Klassifizierte Suche - die besten Ergebnisse werden zuerst zurückgegeben

  • Viele mächtige Abfragearten: Phrasensuche, Platzhaltersuche, Näherungssuche, Bereichssuche und mehr [8]

  • Suche anhand eines bestimmten Feldes (z.B. Titel, Autor, Inhalt)

Zend_Search_Lucene wurde abgeleitet vom Apache Lucene Projekt. Für weitere Informationen über Lucene, besuche http://lucene.apache.org/java/docs/.

26.1.2. Dokumenten- und Feldobjekte

Für die Indizierung verarbeitet Zend_Search_Lucene Dokumente als atomare Einheiten. Ein Dokument wird in benannte Felder unterteilt und diese Felder enthalten Inhalte, die durchsucht werden können.

Ein Dokument wird durch ein Zend_Search_Lucene_Document Objekt abgebildet und dieses Objekt enthält Zend_Search_Lucene_Field Objekte, welche die Felder abbilden.

Es ist wichtig zu beachten, dass dem Index jegliche Informationen hinzugefügt werden können. Anwendungsspezifische Informationen oder Metadaten können in den Dokumentfeldern gespeichert und später bei der Suche aus dem Dokument zurückgeholt werden.

Es liegt in der Verantwortung deiner Anwendung, den Indexer zu kontrollieren. Das bedeutet, dass die Daten aus jeder Quelle indiziert werden können, die von deiner Anwendung aus ansprechbar ist. Zum Beispiel könnten dies das Dateisystem, eine Datenbank, ein HTML Formular, usw. sein.

Die Zend_Search_Lucene_Field Klasse stellt verschiedene statische Methoden zum Erstellen mit unterschiedlichen Charakteristika bereit:

<?php
$doc = new Zend_Search_Lucene_Document();

// Feld wird nicht in Token aufgeteilt, aber indiziert und im Index
// gespeichert. Die gespeichertern Felder können aus dem Index 
// abgerufen werden.
$doc->addField(Zend_Search_Lucene_Field::Keyword('doctype', 
                                                 'autogenerated'));

// Feld wird weder in Token aufgeteilt noch indiziert, aber im Index
// gespeichert. 
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created', 
                                                   time()));

// Feld mit einer binären Zeichenkette, die weder in Token aufgeteilt 
// noch indiziert, aber im Index gespeichert wird.
$doc->addField(Zend_Search_Lucene_Field::Binary('icon', 
                                                $iconData));

// Feld wird in Token aufgeteilt und indiziert und im Index gespeichert.
$doc->addField(Zend_Search_Lucene_Field::Text('annotation', 
                                              'Document annotation text'));

// Feld wird in Token aufgeteilt und indiziert, aber nicht im Index 
// gespeichert.
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', 
                                                  'My document content'));

?>

Each of these methods (excluding Zend_Search_Lucene_Field::Binary() method) has optional $encoding parameter. It specifies input data encoding.

Encoding may differ for different documents as well as for different fields within one document:

<?php
$doc = new Zend_Search_Lucene_Document();
$doc->addField(Zend_Search_Lucene_Field::Text('title', $title, 'iso-8859-1'));
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents, 'utf-8'));
?>

If encoding parameter is omitted, then current locale is used at processing time. For example:

<?php
setlocale(LC_ALL, 'de_DE.iso-8859-1');
...
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents));
?>

Fields are always stored and returned from index in UTF-8 encoding. Conversion to UTF-8 proceeds automatically.

Text analyzers (see below) may also convert text to some other encodings. Actually, default analyzer converts text to 'ASCII//TRANSLIT' encoding. Be care with this, such translation may depend on current locale.

Fields' names are defined only by your own choice.

Java Lucene verwendet das "contents" Feld für die Suche als Standardfeld. Zend_Search_Lucene durchsucht standardmäßig alle Felder, aber dieses Verhalten kann auch verändert werden. Für Details siehe das "Standradsuchfeld" Kapitel.

26.1.3. Verstehen der Feldtypen

  • Keyword (Stichwort) Felder werden gespeichert und indiziert, was bedeutet, dass sie sowohl durchsucht als auch in Suchergebnissen angezeigt werden können. Sie werden nicht in einzelne Worte (Tokens) zerteilt. Datenbankfelder für Aufzählungen lassen sich normalerweise leicht in Keyword Felder für Zend_Search_Lucene überführen.

  • UnIndexed (unindizierte) Felder sind nicht durchsuchbar, werden aber bei Suchtreffern zurückgegeben. Datenbank Zeitstempel, Primärschlüssel, Pfade des Dateisystems und andere externe Identifikatoren sind gute Kandidaten für UnIndexed Felder.

  • Binary (binäre) Felder werden nicht in Token aufgeteilt und indiziert, aber für die Rückgabe bei Suchtreffern gespeichert. Sie können für die Speicherung aller Daten, die als binäre Zeichenkette kodiert sind, verwendet werden, wie z.B. eine Grafiksymbol.

  • Text Felder werden gespeichert, indiziert und in Token aufgeteilt. Text Felder sind geeignet für die Speicherung von Informationen wie Themen und Überschriften, die sowohl durchsuchbar sein müssen, als auch in Suchergebnissen zurückgegeben werden müssen.

  • UnStored (nicht gespeicherte) Felder werden in Token aufgeteilt und indiziert, aber nicht im Index gespeichert. Umfangreiche Texte werden am besten durch diesen Feldtyp indiziert. Gespeicherte Daten benötigen einen größeren Index auf der Festplatte, wenn du also Daten nur durchsuchbar aber nicht wieder ausgegeben haben musst, verwende ein UnStored Feld. UnStored Felder sind geeignet, wenn ein Zend_Search_Lucene Index in Kombination mit einer relationalen Datenbank verwendet wird. Du kannst große Datenfelder mit UnStored Feldern für die Suche indizieren und sie aus der relationalen Datenbank durch die Verwendung eines seperaten Feldes mithilfe eines Identifikatoren zurückholen.

    Tabelle 26.1. Zend_Search_Lucene_Field Typen

    Feldtyp Gespeichert Indiziert In Token aufgeteilt Binär
    Keyword Ja Ja Nein Nein
    UnIndexed Ja Nein Nein Nein
    Binary Ja Nein Nein Ja
    Text Ja Ja Ja Nein
    UnStored Nein Ja Ja Nein

26.1.4. HTML documents

Zend_Search_Lucene offers HTML parsing feature. Documents can be created directly from HTML file or string:

<?php
$doc = Zend_Search_Lucene_Document_Html::loadHTMLFile($filename);
$index->addDocument($doc);
...
$doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
$index->addDocument($doc);
?>

Zend_Search_Lucene_Document_Html class uses DOMDocument::loadHTML() and DOMDocument::loadHTMLFile() methods to parse source HTML, so it doesn't need HTML to be well formed or to be XHTML. From the other side it's sensitive to encoding mentioned in "meta http-equiv" header tag.

Zend_Search_Lucene_Document_Html class recognizes document title, body and document header meta tags.

'title' field is actually /html/head/title value. It's stored within index, tokenized and available for search through.

'body' field is actually body content. It doesn't include scripts, comments and tags' attributes.

loadHTML() and loadHTMLFile() methods of Zend_Search_Lucene_Document_Html class also have second optional argument. If it's set to true, then body content is also stored within index and can be retrieved from index. Body is only tokenized and indexed, but not stored by default.

Document header meta tags produce additional document fields. Field name is taken from 'name' attribute, 'content' attribute gives field value, which is tokenized, indexed and stored, so documents may be searched by their meta tags (for example, by keywords).

Parsed documents may be extended by user with any other field:

<?php
$doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
                                                   time()));
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
                                                   time()));
$doc->addField(Zend_Search_Lucene_Field::Text('annotation',
                                              'Document annotation text'));
$index->addDocument($doc);
?>

Document links are not included into generated document, but may be retrieved with Zend_Search_Lucene_Document_Html::getLinks() and Zend_Search_Lucene_Document_Html::getHeaderLinks() methods:

<?php
$doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
$linksArray = $doc->getLinks();
$headerLinksArray = $doc->getHeaderLinks();
?>



[8] Derzeit werden Abfragen für einzelne und mehrere Begriffe, für Phrasen, für boolesche Ausdrücke und Unterabfragen unterstützt.