General

WEBVIEW: Інтернет-Програма з Використанням TAIGA

webview
Worried about writing a unique paper?
Illustration

Use our free
Readability checker

Оригінал доступний за адресою https://cs.brown.edu/~spr/research/webview.html

Огляд

WebView є візуалізацією того, як сьогодні використовується Інтернет. Ця програма призначена для моніторингу сайтів, які зараз переглядаються, а також для накопичення зазначеної інформації з розбивкою на категорії для змістовного (і цікавого) відображення. У той же час вона є демонстрацією потенціалу системи програмування TAIGA.

Щоб зробити цю візуалізацію цікавою та ефективною, нам необхідно, щоб люди нею користувалися. Тому ми пропонуємо завантажити, встановити та запустити це програмне забезпечення.

Відображення Даних

З точки зору користувачів, webview – це простий скрипт, що надає категоризоване відображення того, що люди переглядають зараз. Приклад відображення даних показаний нижче:

webview

Відображення даних складається з концентричних кілець, кожне з яких зображує період від однієї хвилини до декількох днів. Кожне кільце ділиться на ділянки, що відображають окремо взяту категорію веб-сторінок (нині ми використовуємо класифікацію Open Directory, але підійде будь-яка категоризація). Категорії розташовані в алфавітному порядку та у напрямку проти годинникової стрілки, починаючи з позиції, що вказує на 3-тю годину (що логічно, принаймні для математиків). Кольори є довільними, але обираються для максимального збільшення різниці між можливими суміжними категоріями. Всередині ділянки кожної категорії знаходиться хвиляста лінія, де зашифрована інформацію про сторінки, які були переглянуті у зазначеній категорії. Відображення даних оновлюється приблизно щохвилини.

Відображення даних надає користувачеві кілька видів інформації. Інтервал дуги кожної категорії пропорційний кількості переглядів (запитів браузером) сторінок зазначеної категорії за проміжок часу. Відтінок ділянки означає категорію; насиченість кольору відображає відносну кількість переглядів. Таким чином, якщо інтервал містить відносно невелику кількість переглядів (де показник спирається на кількість часу, що охоплюється інтервалом по відношенню до всієї історії), то ділянка буде світлішою; якщо інтервал містить безліч переглядів, то він буде темнішим. Сама хвиляста лінія може нести інформацію про відносну кількість різних URL-адрес за період часу у частоті повторюваності згину лінії. Так, наприклад, якби всі сторінки, що переглядаються в рамках однієї категорії, належали до одного URL, то лінія була б рівною, а якби всі вони належали до різних, то лінія була б досить хвилястою. Товщина лінії використовується для відображення відносної кількості користувачів, які переглядають сторінки цієї категорії. Якби всі перегляди були зроблені одним користувачем, лінія була б досить тонкою; якщо вони відповідають безлічі різних користувачів, то лінія буде товстою.

Відображення даних також може нести інформацію за допомогою яскравості ділянок (темніша) і амплітуди ліній. Користувач має можливість змінювати різні властивості відображення даних за допомогою відповідних діалогових вікон. Це включає: зміну статистики, пов'язану з усіма графічними властивостями; зміну кольорів, пов'язаних із різними категоріями; меппінг категорій; зміну різних інтервалів.

Збір Інформації

Щоб відобразити інформацію про те, що відбувається в Інтернеті, необхідно її спочатку зібрати. Отже, ця програма є шпигунським програмним забезпеченням. Вона відстежує історію ваших відвідувань і повідомляє про сторінки, що проглядаються вами, центральному серверу, де вони класифікуються і де фіксуються категорії. Однак, програма не записує ідентифікаційну або особисту інформацію. Користувачі представлені унікальним випадковим ID, який використовується виключно для підрахунку користувачів. ID є довільними і не можуть бути відстежені до джерела (наскільки мені відомо). Шпигунське програмне забезпечення працює тільки під час запуску програми перегляду і лише для користувача, який запускає програму. Якщо ви не переконані, що це так, надається повне джерело.

Зверніть увагу, що наше ПЗ підходить для Windows, Linux і Mac OS/X для Safari, Mozilla, IE та Opera в різних комбінаціях. Якщо ви бажаєте зробити свій внесок у дані проекту, але не хочете запускати візуалізатор, то ми надаємо скрипт, який запускає виключно відстеження історії.

Класифікація

Система ніколи не зберігає URL-адресу або ID користувачів. Натомість, коли вона дізнається про сторінку, вона знаходить відповідну категорію та періодично зберігає інформацію про кількість сторінок, користувачів та URL-адрес для кожної категорії. Система не завантажує сторінку і не звертається до неї, щоб знайти її категорію. Натомість вона намагається знайти категорію виключно за URL.

Використовуючи платформу TAIGA, ми надаємо різноманітну реалізацію класифікаторів. Наразі ми надаємо три різні варіанти. Наш перший категоризатор використовував інтернет-сервіс Google, запитуючи у Google пошук конкретну сторінку та вивчаючи класифікацію Open Directory, яку Google видає як частину результату. Такий підхід обмежений як тим, що Google не хоче, щоб ми зверталися до веб-служби більше 1 000 разів на день, так і тим, що вони не завжди дають звіт про класифікацію навіть для поширених сторінок. Альтернативою є проект MeURLin. У нас є класифікатор, який звертається до їхньої демонстраційної веб-сторінки (у них поки що не налаштований веб-сервіс) і отримує результат. Це досить ефективно (з різним ступенем точності), але для наших намірів все ж таки занадто повільно. Наш третій класифікатор зчитує базу даних відкритих каталогів під час запуску та створює дерево класифікації для URL. Як тільки дерево побудоване (що займає 15 хвилин та 2 ГБ пам'яті), пошук виконується досить швидко. При тому, що всі три класифікатори доступні і TAIGA може вільно обирати, який з них є найбільш відповідним та зручним у необхідний момент.

Якщо у когось є класифікатор кращий або такий, який хотілося б спробувати, то я був би радий швидко інтегрувати його в систему. Taiga дозволяє бути бібліотекою, сервісом типу «клієнт-сервер» або веб-сервісом.

Сховище Даних

Ми використовуємо всесвітні параметри файлової системи TAIGA для надання вихідного сховища інформації. Накопичені результати збору інформації періодично додаються до масиву даних. Оскільки цей масив потенційно може бути досить великим, нині ми підтримуємо систему файлів із даними, де файли пов'язані один з одним. Передбачено окремий сервер для ідентифікації поточного файлу на певний час запуску, створення нових файлів (якщо файли даних стають занадто великими), і навіть зв'язок файлів між собою. Ця служба буде запущена автоматично (якщо вона ще не запущена) на апаратній платформі Brown.

Мережа

В основі цього проекту лежить система TAIGA. При запуску візуалізатора на апаратній платформі також запустіть ядро TAIGA. Для забезпечення зв'язку між різними ядрами та сервісами Taiga використовує одноранговий пакет JXTA. При першому запуску Ви, ймовірно, побачите (принаймні, на сьогодні це так) діалогове вікно з налаштуваннями JXTA. Якщо все добре, достатньо натиснути на «ОК». Якщо jxta Вам знайомі – не соромтеся змінювати різні налаштування. Використовуючи JXTA, webview може працювати всередині брандмауерів та на випадкових апаратних платформах. Якщо Ви хочете отримати звіт ядра TAIGA під час його роботи на вашому комп'ютері, то або встановіть змінне середовище TAIGASHOW (для Windows), або задайте змінному середовищу TAIGALOG повний шлях до відповідного файлу звіту.

Статті

Про цей проект ще нічого не написано. Ми цінуємо будь-яке ознайомлення з ним і приймаємо кожен відгук на наш звіт.

Зворотній Зв'язок

Це програмне забезпечення є (дуже) експериментальним. Ми спробували виконати безліч різних установок, але ми маємо лише обмежений діапазон доступних систем. Багато що може піти не за планом: як у ядрі і додатку, так і в мережі, яка все це склеює в купу. Ми хочемо усунути помилки, але для цього нам потрібно знати, що не працює (і, ймовірно, що працює). Ми приймаємо всі відгуки, повідомлення про баги, пропозиції, коментарі, питання тощо. Електронні листи надсилайте за адресою spr@cs.brown.edu.

Програмне Забезпечення

Якщо ви перебуваєте в Brown Computer Science, то останній випуск програмного забезпечення можна отримати за адресою /home/spr/tryview (Y:\home\spr\tryview для Windows).

Якщо ви не знаходитесь у мережі Brown Computer Science, то програмне забезпечення можна отримати з нашого ftp-сервера у (tar.gz) або (zip) форматі.

Установка проста: завантажте та розширте програмне забезпечення. Його запуск також простий: просте виконання скрипту runview (або runview.bat для Windows) для того, щоб отримати візуалізатор (а для запуску програмного забезпечення, призначеного виключно для моніторингу, використовуйте скрипти runspy).

Нагадуємо, щоб скачати програму:

СКАЧАТИ webview.distrib.tar.gz

СКАЧАТИ webview.distrib.zip

Article posted on:Aug 4, 2023
Article updated on:Aug 4, 2023