著者
C. Faloutsos, S. Christodoulakis
タイトル
Description and performance analysis of signature file methods for office filing
ページ
237-257
日時
July 1987
概要
Signature files have attracted a lot of interest as an access method for text and specifically for messages in the office environment. Messages are stored sequentially in the message file, whereas their hash-coded abstractions (signatures) are stored sequentially in the signature file. To answer a query, the signature file is examined first, and many nonqualifying messages are immediately rejected. In this paper we examine the problem of designing signature extraction methods and studying their performance. We describe two old methods, generalize another one, and propose a new method and its variation. We provide exact and approximate formulas for the dependency between the false drop probability and the signature size for all the methods, and we show that the proposed method (VBC) achieves approximately ten times smaller false drop probability than the old methods, whereas it is well suited for collections of documents with variable document sizes.
コメント
シグナチャのコーディング方法の比較解説。Variable Bit-block Compressonという方法でシグナチャのビットベ クトルを圧縮するのがよいとしている。(比較になってい るのはWord Signature(語のシグナチャを並べたもの)、 Superimposed Coding(語のシグナチャのORをとったもの)、 Run Length、Bit-block Compression(シグナチャをブロッ クに分割して0の連続を圧縮するもの) 、VBC(BCの変型)で ある。) シグナチャのサイズを大きくすればFalse Dropを 小さくすることができるから、圧縮効率をあげることがで きれば同じサイズのシグナチャでFalse Dropを小さくする ことができるというわけである。
概要
要するに0の多い画像の圧縮と同じことだと思うが...01列 の効率的圧縮法としてVBCが最適であるとも思えない。(シ グナチャデータの特性によるだろう。) ちょっと信用でき ない。
カテゴリ
Signature
Category: Signature
Journal: ACM Transactions on Office Information Systems
Comment: シグナチャのコーディング方法の比較解説。Variable
        Bit-block Compressonという方法でシグナチャのビットベ
        クトルを圧縮するのがよいとしている。(比較になってい
        るのはWord Signature(語のシグナチャを並べたもの)、
        Superimposed Coding(語のシグナチャのORをとったもの)、
        Run Length、Bit-block Compression(シグナチャをブロッ
        クに分割して0の連続を圧縮するもの) 、VBC(BCの変型)で
        ある。) シグナチャのサイズを大きくすればFalse Dropを
        小さくすることができるから、圧縮効率をあげることがで
        きれば同じサイズのシグナチャでFalse Dropを小さくする
        ことができるというわけである。
Abstract: Signature files have attracted a lot of interest as
        an access method for text and specifically for
        messages in the office environment. Messages are
        stored sequentially in the message file, whereas
        their hash-coded abstractions (signatures) are
        stored sequentially in the signature file. To answer
        a query, the signature file is examined first, and
        many nonqualifying messages are immediately
        rejected. In this paper we examine the problem of
        designing signature extraction methods and studying
        their performance. We describe two old methods,
        generalize another one, and propose a new method and
        its variation. We provide exact and approximate
        formulas for the dependency between the false drop
        probability and the signature size for all the
        methods, and we show that the proposed method (VBC)
        achieves approximately ten times smaller false drop
        probability than the old methods, whereas it is well
        suited for collections of documents with variable
        document sizes.
Number: 3
Bibtype: Article
Keywords: Document retrieval, information retrieval, office
        automation, signature files, superimposed coding,
        text retrieval
Author: C. Faloutsos
        S. Christodoulakis
Pages: 237-257
Month: jul
Title: Description and performance analysis of signature
        file methods for office filing
Comment1: 要するに0の多い画像の圧縮と同じことだと思うが...01列
        の効率的圧縮法としてVBCが最適であるとも思えない。(シ
        グナチャデータの特性によるだろう。) ちょっと信用でき
        ない。
Year: 1987
Volume: 5