General

СЛОВНИКОВИЙ ЗАПАС ЯК ЦЕНТРАЛЬНА КОНЦЕПЦІЯ В БІБЛІОТЕЧНІЙ ТА ІНФОРМАЦІЙНІЙ НАУЦІ

Primary Image of the Page
Worried about writing a unique paper?
Illustration

Use our free
Readability checker

Оригінал: https://people.ischool.berkeley.edu/~buckland/colisvoc.htm

Майкл Бакленд,

Школа управління інформацією та систем,

Каліфорнійський університет,

Берклі, Каліфорнія 94720-4600, США

Анотація

Розглядаємо важливість та роль лексики в інформаційних системах. Під "словниковим запасом" зазвичай мають на увазі адаптовану версію природної мови, що використовується для створення індексів та тезаурусів. Більшість дій, пов'язаних з бібліографічним доступом, фільтруванням та пошуком інформації, фактично є порівнянням або "перекладом" між різними словниками. При цьому зазвичай ми маємо справу з декількома словниками одночасно. Наприклад, проста пошукова заявка в електронному каталозі може залучати не менше п'яти різних словників: слова авторів; каталогізатор; синдетична структура; шукач і сформульований запит.

Словник можна визначити як діапазон (або репертуар) значень у конкретному бібліографічному полі. А якщо розглядати його у більш загальному контексті, то це діапазон типів у наборі на будь-якому рівні (слово, поле, колекція та бібліотека). Електронні бібліотеки можна представити простою рекурсивною моделлю, що складається з наборів («колекцій») і двох видів операцій над наборами.

Словниковий запас відіграє ключову роль у функціонуванні цифрових бібліотек. Якщо користувач не знайомий з вживаним словниковим запасом, це може ускладнити та уповільнити пошуковий процес. Питання ідентичності є центральними для бібліотечної та інформаційної науки через індексну роль лексики. Словниковий запас є центральним компонентом цифрових бібліотек. Вивчення особливостей та проблем лексики допомагає нам краще розуміти основні концепції та історію розвитку бібліотечної та інформаційної науки.

Вступ

Словниковий запас зазвичай не вважається центральною особливістю бібліотек, цифрових чи інших. Бібліотечний дискурс частіше стосується колекцій, бюджетів, персоналу, будівель, користувачів, менеджменту та інших практичних тем. Але в цій статті ми детальніше розглянемо те, що можна сказати про «лексику» в бібліотеках, особливо електронних бібліотеках.

Лексика є звичним терміном у нашому повсякденному житті, проте її роль в бібліотечній та інформаційній науці часто сприймається невизначено. У цій сфері слово "лексика" іноді здається чужорідним, наче екзотичний переселенець, який опинився в незнайомому оточенні. Він корисний, але сприймається з певною настороженістю. У контексті бібліотечної та інформаційної науки, коли ми говоримо про "словниковий запас", ми часто додаємо уточнення, такі як "словниковий запас природної мови" чи "контрольований словниковий запас". Ці формулювання ніби натякають на існування "неприродних" або "неконтрольованих" словників, ніби поняття лексики в сфері бібліотечної науки є чимось не цілком прийнятним. Можливо, саме час більш активно включити його у наш професійний діалог, прийнявши його повною мірою.

Я зроблю три великі заяви щодо лексики. Ви можете вважати мої висновки очевидними, тривіальними або помилковими. Можливо, ви погодитеся з моїми висновками, але вважайте, що я надто розширюю значення слова «лексика». Якщо так, то нам слід відокремити обговорення розглянутого явища від зовсім іншої дискусії щодо правильного використання слова «словниковий запас».

1. Економічне твердження. Словниковий запас має центральне значення для економічної ефективності цифрових бібліотек, а отже, і для повернення інвестицій. У всьому світі здійснюються величезні інвестиції в забезпечення доступу до сховищ через мережі, а також великі інвестиції в індексування, категоризацію та інші метадані. Для користувачів репозиторіїв виникає все більш складна ситуація, оскільки кількість і частка доступних у мережі сховищ із незнайомими словниками метаданих зростає. Зменшення ефективності селекції – передбачуваний результат. (Ми використовуємо «вибір» як загальний термін, що включає пошук, фільтрацію та пошук.) Таким чином, будь-яка техніка, яка може допомогти у використанні незнайомих метаданих, або зробивши ці незнайомі метадані більш знайомими, або пом’якшивши наслідки їх незнайомості , може забезпечити величезний вплив на підвищення рівня прибутку від величезних інвестицій, зроблених у створення сховищ та їхніх метаданих. (Це економічне обґрунтування нашого проекту «Підтримка пошуку незнайомих словників метаданих». www.sims.berkeley.edu/research/metadata/ )

2. Питання ідентичності є центральними для інформаційної науки . У світі, де політика ідентичності є центральною, питання ідентичності також є центральними для інформаційної науки, і вони є такими з причин, пов’язаних із роллю лексики.

3. Словниковий запас є центральним компонентом цифрових бібліотек . Твердження тут полягає, по-перше, в тому, що всі системи фільтрації та пошуку можна моделювати в термінах серії перетворень наборів (або «колекцій») з одного стану в інший і, по-друге, що «словниковий запас» є відповідним терміном для різноманітність або діапазон значень у будь-якому наборі (або колекції).

Розглянемо наступний предметний заголовок Бібліотеки Конгресу «Бог – Пізнаність – Історія доктрин – Рання церква, приблизно 30-600 рр.» ("God - Knowableness - History of doctrines - Early church, ca. 30-600"), присвоєний LCCN 8005064. Навряд чи це природна англійська мова. При прочитанні звучить як телеграма. Він має синтаксичну структуру, яка є зворотною до звичайної англійської мови, де кваліфікуючі прикметники та фрази зазвичай передують тому, що вони кваліфікують. Звучить більше як звичайна англійська, якщо читати слова у зворотному порядку. Заголовок сформований правильно, але, можна сказати, досить неприродно. Хтось, хто цікавиться історією розуміння Всемогутнього, навряд чи, на мій погляд, думатиме про «Бога – Пізнаність» ("God - Knowableness").

Іншим прикладом є інформаційна система, яка використовує спеціалізований словник для класифікації та пошуку. Числові дані Бюро перепису населення США щодо імпорту та експорту, видані на компакт-диску та доступні за адресою http://govinfo.kerr.orst.edu/impexp.html. Ці дані мають широке значення для прийняття стратегічних політичних рішень в уряді та промисловості. Проте, якщо хтось, хто цікавиться автомобільною промисловістю, здійснив пошук товарів за терміном «автомобіль», нічого не знайде. Пошук за «автомобілі» (cars) приведе до «Залізничний або трамвайний склад» ("Railway or Tramway Stock"). Дані є, але в розділі "Пасажирські транспортні засоби, двигун з іскровим запалюванням" ("Passenger Motor Vehicles, Spark Ignition Engine").

У військових діях все частіше використовують ракети. Скільки США експортує щороку? Пошук у даних експорту за словом «Ракети» ("Rockets") дає товарну категорію «Підшипники, трансмісія, прокладки, інше» ("Bearings, Transmission, Gaskets, Misc") Обмеження пошуку формою однини "ракета" ("rocket") дає додаткові три категорії:

Фотографічні або кінематографічні товари

Двигуни, запчастини тощо

Зброя та боєприпаси, їх частини та приладдя

(Photographic or Cinematographic Goods

Engines, Parts, Etc.

Arms and Ammunition, Parts and Accessories Thereof)

Останнє з них конкретно стосується експорту військової зброї зі Сполучених Штатів. Слово «ракета» зустрічається лише в категорії «РАКЕТНІ ПУСКОВІ УСТАНОВКИ» ТА ПОДІБНІ ПРОЕКТОРИ (9301009050) (MISSILE & ROCKET LAUNCHERS AND SIMILAR PROJECTORS (9301009050)), а не в більшій експортній категорії «КЕРОВАНІ РАКЕТИ» (9306900020) (GUIDED MISSILES (9306900020)). Загальна категорія заголовка для цього розділу: БОМБИ, ГРАНАТИ ТОЩО (9306) (BOMBS, GRENADES, ETC (9306)). Очевидно, що дослідникам, які бажають використовувати цю базу даних, потрібен інструмент, який би подолав розрив між загальною термінологією та високоспеціалізованою схемою класифікації, яка була розроблена для категоризації цих даних.

Іноді наслідки ледь помітні, а також несподівані, як у цих двох точних предметних пошуках у MELVYL, каталозі онлайн-бібліотеки Каліфорнійського університету:

FIND XSU VIETNAM WAR

Результат пошуку: 0 записів

FIND XSU VIETNAMESE CONFLICT

Результат пошуку: 4190 записів

Проблеми зі словниковим запасом збільшуються при спілкуванні з іноземними мовами. Прикладом є пошук щодо аерофотозйомки німецької армії під час Першої світової війни, зокрема "Drachenphotographie". «Drachen» — це німецьке слово для повітряного змія, і пошук привів до технічної літератури того періоду про військову аерофотозйомку з використанням повітряних зміїв. Однак те, що було знайдено, не мало значення, тому що в 1892 році німці розробили прив’язану спостережну кулю, яка була аеродинамічною. Будучи аеродинамічним, він у певному сенсі був схожий на повітряного змія і був відомий як повітряний змій-повітряна куля, «Drachenfesselballon» або скорочено «Drachen». Отже, «Drachenphotographie» у цьому спеціальному контексті стосувалося фотографії не з повітряного змія, а з повітряної кулі для спостереження. Навіть знаючи це,

Очевидно, що різні мови, наприклад англійська, китайська та німецька, використовують різні слова. Крім того, у межах будь-якої мови різні домени використовують різні словники. Ці відмінності часто очікуються значно ширше. Розглянемо предметні рубрики, призначені документам, пов’язаним із «забрудненням узбережжя» в предметних рубриках Бібліотеки Конгресу та в медичних предметних рубриках (MeSH) . «Прибережний» ("Coastal") та «Забруднення» ("Pollution") як тематичні ключові слова не дали результатів, але записи були знайдені за допомогою пошуку цих двох слів у заголовках. Предметні рубрики, які були призначені, були в порядку ранжування:

LCSH: забруднення моря; управління прибережною зоною; Забруднення води; Нафтова промисловість і торгівля; Ерозія пляжу; узбережжя; Бар'єрні острови; Зміни узбережжя; тощо

MeSH: морська вода; Забруднення води; бактерії; Мікробіологія води; Забруднення повітря; Екологічний моніторинг; Пляжі для купання; Забруднення навколишнього середовища; тощо

Зверніть увагу на різноманітність і те, як мало спільного між двома списками. Використані предметні заголовки є правдоподібними, але хто міг би очікувати, що зможе уявити більше ніж кілька з них? Легше розпізнати відповідні терміни, ніж передбачити, якими вони будуть. У цьому випадку принаймні три різні словники були в грі одночасно: LCSH , MeSH і mine.

Використання лексики під час предметного індексування є не лише мовною діяльністю, але використання мови неминуче залежить від культури. Використання лексики для позначення чогось є соціально обумовленим.

Надання деяких засобів правового захисту

Позначення Десяткової класифікації Дьюї "330", що позначає економіку, є різновидом слова з дивним виглядом. Визнання того, що індексування та класифікація є мовною діяльністю, не є новим. Раніше системи метаданих називали «документальними мовами» або «метамовами». Числа Дьюї мають значення, якщо ви знайомі з числами. Але значення більш-менш непрозорі, доки знайомство не розвинеться через використання. Що потрібно, так це переклад наших власних термінів на терміни Десяткової класифікації Дьюї, словник англійської мови на "Dewey".

Мелвіл Дьюї надав це у формі свого Relativ Index, який ми зазвичай сприймаємо як належне як додаток до класифікації. Сам Дьюї вважав найважливішою частиною своєї системи (Olding 1996, p. 82-83).

«Цей алфавітний покажчик, найважливіша особливість системи, складається із заголовків, зібраних із великої різноманітності джерел, оскільки користувачі системи вважали їх бажаними.... Індекс дає подібні або синоніми,... тому будь-які Розумна людина обов’язково отримає номер ryt... Relativ Index, з його ключовими словами... гарантує, що книги на тій самій фазі будь-якої теми, що закінчуються перед класифікаторами, будуть додані до того самого місця, і що будь-який читач, який шукає ці книги, повинен бути миттєво звернувся до цього місця». (Olding 1966, 89-91).

«Предметний покажчик цієї системи є каркасним словниковим каталогом, який охоплює все, що не охоплено «каталогом імен». Замість того, щоб наводити назви книг під кожним заголовком, номер відноситься до всіх цих назв просто та безпосередньо... Тому ми об’єднуємо переваги словника та класових каталогів, не змішуючи їх і таким чином втрачаючи значну частину простоти одного і стільки ж досконалість іншого, але дійсно використовуючи обидва, кожен зі своїми достоїнствами. Потрібен лише один набір назв, оскільки номери наших класів роблять це доступним для обох каталогів." (Olding 1966, 104).

Використання Дьюї реформованого правопису нагадує нам, що «природна» мова заснована на конвенціях і буде протистояти пошуку на основі «повнотекстового» пошуку, який залежить від конвенцій у слововживанні.

Кілька словників

Усі системи вибору містять кілька словників. Навіть у найпримітивнішому випадку, коли нередаговані тексти шукають за допомогою нередагованих запитів, є принаймні два словники:

1. Словниковий запас (або словники) автора (авторів) документів, у яких здійснюється пошук; і

2. Словниковий запас шукача.

В оперативних системах відбору кількість словників, імовірно, буде набагато більшою. Інтернет-каталог бібліотеки, наприклад, зазвичай включатиме додаткові три: два вже зазначені плюс:

3. Словниковий запас каталогізатора, який використовується для створення репрезентацій документів, змінює, замінює та/або доповнює лексику автора;

4. «Див.», «Див. також» та інші синдетичні структури змінюють, замінюють або доповнюють словниковий запас каталогізатора; і

5. Словниковий запас шукача, сформульований у вигляді пошукового запиту.

Саме тому, що існує множинність словників, завжди існує ймовірність неузгодженості в будь-якому переході між словниками, дисонанс у значеннях. Якщо шукач запитує A, а автор написав B, вони можуть виражати те саме значення різними способами (синоніми), або обидва можуть написати A і мати на увазі різні речі (омографи).

Проміжні словники (каталогазатора, синдетичної структури, сформульованого запиту) можна розглядати як призначені для нормалізації вживання термінів, щоб виправити будь-які розбіжності. Предметний заголовок каталогізатора виправляє назву автора, представляючи тему документа стандартизованим словником. Досвідчений шукач знає, як змінити свою власну або чужу заяву про потребу в термінах, на які система відреагує з користю.

Повторних репрезентацій у лексиці стільки ж, скільки й переходів між словниками. Кожне повторне представлення дає можливість виправити дисонанс між селектором і документом, але воно також може створити дисонанс. У прикладі «В’єтнамського конфлікту» словниковий запас каталогізатора розходиться з словником як авторів, так і пошуковців, створюючи тим самим дисонанс і проблему, яка потребує додаткового перехідного словника, якщо її потрібно виправити. У цьому випадку перехресне посилання: В’ЄТНАМСЬКА ВІЙНА (VIETNAM WAR) використання В’ЄТНАМСЬКИЙ КОНФЛІКТ (VIETNAMESE CONFLICT) виправить невідповідність. Як альтернатива, хороший пошуковий посередник (людина чи комп’ютеризований) може знати достатньо, щоб спонукати змінити термінологію, щоб адаптувати її до словника системи.

Проте так само, як кожен перехід між словниками дає можливість виправити або створити дисонанси, двозначність, яка розсіює значення, представляючи одне значення як два чи більше, також є ймовірним результатом. Можливості для введення двозначності можуть бути багатозначними, оскільки кожен додатковий перехід до нового словника збільшує можливості для двозначності та помилок.

Ми говорили про кілька словників так, ніби кожен з них є простим і однорідним, але будь-який словник, імовірно, буде внутрішньо неузгодженим, чи то через варіації у використанні окремими особами, чи через те, що задіяно безліч акторів, кожен зі своїм особистим використанням (синхронне варіація). Ми також не повинні припускати, що будь-яка особа чи група постійно використовує свій словниковий запас у мінливому світі (діахронна варіація) або що зміни з часом є послідовними для всіх сторін. Лексика використовується для позначення значення, але мова нестійка, динамічна. Слова розширені в тому сенсі, що можуть набувати нових значень. Розпізнані відмінності, двозначності та невизначеності значення можуть бути вирішені шляхом дослідження значення іншого. Діалог виявляє відмінності. Відмінності породжують зміни. У цьому сенсі слова живуть самі по собі, набуваючи нових значень незалежно від того, що писали лексикографи. Крім того, значення є складними: існує як позначення, те, до чого відноситься слово, так і конотація, непрямі нюанси та асоціації, які забарвлюють сприйняте значення.

Форма і значення

Вище ми говорили про невизначений «дисонанс» між словниками. Використання цифрових технологій спонукає нас думати про словниковий запас у термінах рядків символів, якими можна маніпулювати, але значення слів створюються суб’єктивно та ситуативно, а використання словникового запасу є соціальним.

Між формою та значенням слів існує подвійність: одна і та сама форма слова може мати різні значення в різних словниках, і те саме значення може виражатися різними формами слів. Форма має значення в інформаційних системах, оскільки технологія оперує фізичними характеристиками, а не значенням слів. Програмне забезпечення оперує рядками символів, лексичними одиницями, а не поняттями. Коли слово «концепція» використовується стосовно комп’ютерного пошуку, його вживання є метафоричним, зазвичай посилаючись на певний зв’язок алгоритму між лексичними одиницями.

Мінімально зв’язок між будь-якою парою термінів лише у двох словниках передбачає чотири випадки:

Та сама форма, те саме значення: Те саме слово.
Та сама форма, інше значення: Омограф.
Інша форма, однакове значення: Синонім.
Інша форма, інше значення: Різне слово.

Тут «однаковий» на практиці означає однаково прийнятний для поставленої мети, а не ідентичність у строгому сенсі. Досконалі синоніми рідко зустрічаються в англійській мові. Зазвичай є деякі відмінності в значенні.

Обмін значеннями та питання ідентичності

Перехід від одного словника до іншого без втрати значення залежить від жорстких обмежень. Формальною умовою для перетворення без втрати сенсу є наявність однозначної та оборотної еквівалентності в кожному перетворенні. Це малоймовірно, за винятком випадків, коли існує цілком закрита система, в якій усі форми вираження однозначно визначені апріорі. Ця умова не буде досягнута кожного разу, коли задіяні люди, тому наявність багатьох словників у системах вибору відображає безліч можливих значень, які існують у будь-якому обміні значеннями. Системи відбору функціонують як діалогічна взаємодія між словниками, які діють принаймні в двох напрямках: словниковий запас шукача зазнає обмежень, за обмеженнями в словниковому запасі системи відбору; і лексика документів також видозмінюється, «контролюється». Обидва пристосовані до конвергенції з метою досягнення відповідності значення. Але також відбувається розширення словникових запасів, оскільки пошуковик, каталогізатор і виробник перехресних посилань постійно адаптуються до нових викликів, мінливих обставин і нової лексики. (Prejudices and Antipathies Бермана містять численні пропозиції щодо змін предметних заголовків Library of Congress Subject Headings (Berman 1971)).

Питання ідентичності займають центральне місце в суспільному житті. У класичному визначенні Едварда Тайлора: «Культура або цивілізація, взята в її широкому етнографічному розумінні, — це складне ціле, що включає знання, віру, мистецтво, мораль, закон, звичаї та будь-які інші здібності та звички, набуті людиною як членом суспільство». (Tylor 1871).

Ідентичність визначається відмінністю. Ніщо не може бути задовільно визначено в термінах самого себе. «Я — це я» означає, що я — не ти. Я більше схожий на нього, ніж на неї. Я радше з цією людиною, ніж з тією людиною. Я віддаю перевагу віруванням, мистецтву, моралі, правовим звичаям і звичкам цієї групи, а не тієї групи.

Категоризація та словниковий запас для представлення категорій є важливими для такого роду диференціації. Цей процес диференціації та категоризації є сутністю соціального світу та суттю систем відбору. Відіграти певну роль, як це роблять бібліотекарі, вчителі та інші залучені до передачі культури, у формуванні індексних зв’язків, включаючи розрізнення та характеристику між тим і тим, між нами та ними, означає зробити бібліотечну та інформаційну науку частиною процеси та проблеми, які є центральними для суспільства. Це додаткова причина, чому переходи («відображення») між словниками є або мають бути центральною проблемою бібліотечної та інформаційної науки.

Визначення лексики в LIS

Якщо ми вважаємо, що поняття лексики має будь-яке значення в бібліотечній та інформаційній науці, як я стверджував, тоді, можливо, нам слід розглядати «лексику» як щось більше, ніж запозичене слово з вивчення мови. Якщо ми хочемо включити концепцію лексики в бібліотечну та інформаційну науку, то нам слід шукати визначення або принаймні розуміння того, що ми маємо на увазі під «словниковим запасом», яке відповідало б галузі бібліотечної та інформаційної науки в інтелектуально задовільний спосіб. Ця конференція присвячена цифровим бібліотекам. Яким би було ефективне визначення «словникового запасу» в контексті цифрових бібліотек? Щоб відповісти на це питання, ми спочатку розглянемо звичайне значення слова, а потім природу цифрових бібліотек.

Оксфордський словник англійської мовиOxford English Dictionary (1989, том 19, 721) містить чотири визначення «словникового запасу».

1. Збірка або перелік слів із короткими поясненнями їх значень.
2. Діапазон мови певної особи, класу, професії тощо.
3. Сума або сукупність слів, що складають мову.

4. У переносному значенні сукупність художніх або стилістичних форм, прийомів, рухів тощо, доступних конкретній людині тощо.

Основне поняття полягає в тому, що «лексика» означає перелік різних виражень значення, репертуар репрезентативних форм. У лінгвістиці використовуються слова «тип» і «лексема», де кожен екземпляр слова є «лексемою», а кожен інший тип слова є «типом». Діапазон або репертуар різних типів можна назвати лексикою. Таким чином, використання «словникового запасу» для діапазону або репертуару термінів покажчика або предметних заголовків було б доречним.

Але в бібліотечній та інформаційній науці терміни, які використовуються для вираження значення, часто є або досить неприродними адаптаціями природної мови (наприклад, Бог -- Пізнаність… (God -- Knowableness…)), або використовують штучне позначення, наприклад 330 для позначення економіки. Дійсно, такі системи для представлення значення є спеціальністю галузі. Використання таких описових систем є різновидом мовної діяльності, і їх давно називають «документальними мовами» або «метамовами», маючи на увазі, якщо хочете, мови метаданих. Тому в бібліотечній та інформаційній науці було б дуже доцільно розширити використання «лексики» для позначення діапазону чи репертуару дозволених термінів у тезаурусі, чисел, що використовуються в класифікаційній схемі, і кодів у будь-якій категоризації. У спеціалізованому контексті цифрових бібліотек,

Вважаючи «лексику» технічним терміном у бібліотечній та інформаційній науці для позначення діапазону будь-якого поля метаданих, відкриваються додаткові можливості, оскільки всю структуру цифрових бібліотечних систем можна представити в наборах термінів (або колекціях) і переходах від набору до похідний набір. Здається, існує лише два види переходу:

1. Трансформація, наприклад, коли набір каталожних карток походить з набору книг або коли набір векторів походить з цифрових текстів.

2. Поділ (або (пере)впорядкування), наприклад, коли картки впорядковуються в алфавітному порядку або підмножина записів вибирається як отриманий набір.

Наскільки ми з Крістіаном Плаунтом змогли визначити, усі структури цифрових бібліотек, фактично всі системи фільтрації та пошуку, можна моделювати таким чином за допомогою послідовностей наборів і переходів до (похідних) наборів. Структури цифрових бібліотек — це ієрархії наборів: існують мережі сховищ, кожне з яких містить колекції документів, які зазвичай містять абзаци, що складаються зі слів, складених із букв. Метадані складаються з полів, які часто містять підполя тощо. Подробиці цієї моделі та наслідки такої структури цифрових бібліотек обговорюються в іншому місці (Buckland & Plaunt 1994; також Plaunt 1997, Buckland & Plaunt 1997). Що стосується тут, так це те, що якщо цифрові бібліотеки можна корисно розглядати в термінах наборів і якщо, у визначенні наших термінів у бібліотечній та інформаційній науці, «словниковий запас» цілком можна визначити як діапазон будь-якої множини. Якщо так, то «лексика» одразу стає центральним технічним терміном у цій галузі.

Підсумки та висновки

У інформаційному пошуку "лексика" зазвичай відноситься до стилізованої адаптації природної мови для формування термінів індексування. Уважніше вивчення розкриває словниковий запас як потужне та поширене поняття, оскільки цифрові бібліотеки включають безліч мов і, отже, словників. Кожна транзакція у знайомому бібліотечному каталозі включає принаймні п’ять різних словників: авторів, індексаторів, синдетичної структури, пошуковиків і сформульованих запитів. Індексування, чи то з «природною» чи штучною нотацією, є описовою діяльністю і, отже, мовною діяльністю. Традиційно і доречно називати системи метаданих «документальними мовами».

Якщо ми візьмемо термін «словниковий запас» у його звичайному розумінні для позначення діапазону чи репертуару різних використовуваних слів, тоді також здається доцільним використовувати його для діапазону будь-яких метаданих, наприклад, будь-якого поля MARC. Якщо слово буде використовуватися як технічний термін у будь-якій галузі, наприклад, у бібліотечній та інформаційній науці, краще мати узгоджене значення в цій галузі. Було б доцільно та корисно використовувати «словниковий запас» для позначення діапазону, знайденого в будь-якому наборі (або колекції) слів, включаючи всі метадані, і це забезпечує велику загальність при використанні по відношенню до запропонованої нами функціональної моделі.

Відображення між словниками, від терміна в одному словнику до відповідного терміна або термінів в іншому, стає все більш потрібним, оскільки зручний доступ розширюється до все більшої кількості сховищ і додаткових, менш знайомих метаданих.

Словниковий запас є центральним для економіки цифрових бібліотек, оскільки незнайома термінологія перешкоджає ефективному пошуку. Словниковий запас також важливий, оскільки він є центральним у питаннях ідентичності, які, у свою чергу, є центральними для суспільства. Словниковий запас, якщо дати йому технічне визначення в бібліотечній та інформаційній науці як різноманітність або діапазон значень у наборі, є центральною ознакою в структурі та використанні цифрових бібліотек.

Є ще одна міркування. Це спрощення, але я припускаю, що історичний розвиток концепцій бібліотечної та інформаційної науки можна краще зрозуміти, якщо ми думатимемо про дві різні традиції, які я називаю «традицією документів» і «формальною традицією».

До «формальної традиції» я включаю всі методи й технології, засновані на логіці та алгоритмах: перфокарти, цифрові комп’ютери, обробка даних, обчислення, штучний інтелект та історичні традиції пошуку інформації, як це відображено на засіданнях ACM SIGIR. Саме ця формальна традиція зробила так багато, щоб тема нашої конференції — цифрові бібліотеки — стала можливою. Але ця традиція залежить від визначень і надійних процедур і суперечить мінливості людської мови та поведінки.

До «документної традиції» я б відніс історичну практику документообігу, як-от бібліографія, бібліотечна справа, архівісти та діловоди. У цій традиції занепокоєння було з документами в сенсі позначення об’єктів та їх використання для досягнення багатьох цілей: практичної користі, освіти, відпочинку, грамотності та різноманітних соціальних послуг. Ця традиція має певну логіку: вона передбачає, що професійна практика поширюється на будь-який вид позначаючого об’єкта в будь-якому форматі, що вона включає (потенційно) все, що допомагає знанням, і розуміння того, що документи мають відношення до знань, значення, навчання, опису , мова та двозначність (Buckland 1997). З цього випливає, що будь-яка концепція бібліотечної та інформаційної науки не може бути повною, якщо вона не включає культурологічні дослідження, і що,

Дві традиції, зрештою, виявляються несумісними, оскільки виходять із принципово різних основ. Тим не менш, ми не можемо вибрати жодного виключно, якщо ми хочемо бути ефективними та практичними. Однак лексика є центральною для обох традицій. Обидва повинні по-різному вирішувати проблеми словникового запасу, який забезпечує свого роду місце зустрічі. Я приходжу до висновку, що тема лексики є важливою для цієї конференції, оскільки природа та роль лексики є центральними для будь-якої надійної концепції бібліотечної та інформаційної науки.

Подяка

Ідеї ​​в цьому документі значною мірою спираються на співпрацю автора з Роном Деєм (Ron Day), Крістіаном Плаунтом (Christian Plaunt) і колегами в проекті Search Support for Unfamiliar Metadata Vocabularies project (DARPA Contract N66001-97-C-8541; AO# F477.

Список літератури

Berman, S. (1993). Prejudices and Antipathies: A Tract on the LC Subject Headings Concerning People. Jefferson, NC: McFarland. First published 1971 by Scarecrow Press.

Buckland, M. K. (1997). What is a "document"? Journal of the American Society for Information Science48, 804-809. Reprinted in T. B. Hahn & M. K. Buckland, eds. (1998). Historical Studies in Information Science. Medford, NJ: Information Today, 215-220.

Buckland, M. K. and C. Plaunt. (1994). On the construction of selection systems. Library Hi Tech, 48, 15-28.

Buckland, M. K. and C. Plaunt. (1997). Selecting Libraries, Selecting Documents, Selecting Data. In: Proceedings of the International Symposium on Research, Development & Practice in Digital Libraries 1997, ISDL 97, Nov. 18-21, 1997, Tsukuba, Japan, pp. 85-91. Tsukuba, Japan: University of Library and Information Science, 1997, Japan. [HTML].

Norgard, B. A., M.G. Berger, M. K. Buckland, & C. Plaunt. (1993). The online catalog: From technical services to access service. Advances in Librarianship17, 111-148.

Olding, R. K., ed. 1996. Readings in Library Cataloguing. Hamden, CT: Archon Press.

The Oxford English Dictionary. (1989). 2nd ed. Oxford: Clarendon Press.

Plaunt, C. (1997). A Functional Model of Information Retrieval Systems. Doctoral dissertation, University of California, Berkeley.

Article posted on:Sep 21, 2023
Article updated on:Sep 21, 2023