Download pdf - 37 ИНфОРмАЦИОННАя тЕхНОлОГИя ... · Google Chrome, Mozilla Firefox и Internet Explorer. Статистика представлена на рис. 2. Сайты

Transcript

Page 1: 37 ИНфОРмАЦИОННАя тЕхНОлОГИя ... · Google Chrome, Mozilla Firefox и Internet Explorer. Статистика представлена на рис. 2. Сайты

СТАРТ В НАУКЕ № 4, 2017

37 ИНФОРМАТИКА ИНфОРмАЦИОННАя тЕхНОлОГИя ПОИСкА, ОтбОРА

И клАССИфИкАЦИИ бОльшИх мАССИвОв ИНфОРмАЦИИкулюлина Н.л.г. Москва, 10 класс

Научный руководитель: Хачатурьян Л.П., г. Москва, ЦОМТМП

Во время выполнения исследователь-ской работы по химии встала проблема поиска информации в сети Интернет. Ин-формация эта относится к предметной об-ласти – видео-опыты по школьной неорга-нической химии. Было ясно, что предстоит анализ большого массива малосвязанной и слабоструктурированной информации. В связи с этим понадобилась алгоритмиза-ция механизмов поиска, отбора и классифи-кации информации.

цель работы:Разработка системы взаимосвязанных

алгоритмов поиска, отбора и классифи-кации больших массивов малосвязанной и слабоструктурированной информации в сети Интернет. По сути система взаимос-вязанных алгоритмов является информаци-онной технологией.

Суть данной информационной техно-логии в том, что большая часть действий пользователя максимально формализова-ны и выполняются по стандартным схемам с минимальными затратами интеллектуаль-ных ресурсов. Основные решения принима-ются пользователем на завершающем этапе работы.

Требуется решить следующие задачи:1. Разработка плана поиска информации.2. Выбор программных средств (брау-

зер, поисковая машина).3. Разработка алгоритма отбора и клас-

сификации информации среди результатов поиска.

В результате применения данной инфор-мационной технологии будет сформирована первичная база информационных объектов, готовая к дальнейшему использованию.Этапы работы. Подготовительный этап

Разработка и последующее использова-ние информационной технологии состоит из следующих этапов:

1) Подготовительный этап.2) Выделение и классификация инфор-

мационных объектов (2 этап).Подготовительный этап состоит из сле-

дующих частей:● Разработка плана поиска информации.● Выбор программных средств.● Выбор поискового запроса.● Фиксация результатов поиска.

Разработка плана поиска информации. Изначальный план поиска: последователь-но просмотреть несколько сотен ссылок – результатов работы поисковой машины, ин-тересующие по тематике ссылки сохранять в закладках браузера. Поисковики периоди-чески обновляют результаты поиска по од-ному и тому же поисковому запросу. Чтобы гарантированно не просматривать одни и те же ссылки несколько раз, требуется зафик-сировать текущее состояние результатов поиска. Для этого нужно сохранить резуль-таты поиска в виде html-файла на жестком диске компьютера, и просматривать резуль-таты поиска уже не из интернета, а из этого файла.

В дальнейшем потребуется классифи-кация найденной информации. Отсюда сле-дуют требования к браузеру и поисковой машине. Браузер должен быть удобен для работы с папками и закладками. Поисковик должен показывать как можно больше (50+) результатов на одной странице для удобства сохранения в виде html-файлов.

Браузеры выбирались из наиболее попу-лярных в России и в мире. В расчет также взяты браузеры, рекомендуемые на интер-нет-сайтах с соответствующей тематикой. Самыми популярными браузерами в Рос-сии на октябрь 2016 года являются Google Chrome, Яндекс.Браузер и Mozilla Firefox. Статистика представлена на рис. 1.

Самыми популярными браузерами в мире на декабрь 2016 года являются Google Chrome, Mozilla Firefox и Internet Explorer. Статистика представлена на рис. 2.

Сайты с подобной тематикой [3, 4] так-же рекомендуют сравнительно новые бра-узеры российского производства Амиго и Orbitum. В результате кандидатами слу-жили следующие браузер: Google Chrome, Яндекс.Браузер, Mozilla Firefox, Microsoft Edge (вместо устаревшего Internet Explorer), Амиго, Orbitum.

В результате исследования данных бра-узеров выяснилось, что Google Chrome, Ян-декс.Браузер, Амиго и Orbitum созданы на одной и той же платформе Chromium. Из-за этого средства работы с закладками у них аналогичные. Результаты анализа представ-лены в таблице. По итогам анализа в каче-стве браузера был выбран Mozilla Firefox.

Page 2: 37 ИНфОРмАЦИОННАя тЕхНОлОГИя ... · Google Chrome, Mozilla Firefox и Internet Explorer. Статистика представлена на рис. 2. Сайты

СТАРТ В НАУКЕ № 4, 2017

38 ИНФОРМАТИКА

Рис. 1. Статистика популярности браузеров в России [1]

Рис. 2. Статистика популярности браузеров в мире [2]

Анализ функциональности браузеров

Page 3: 37 ИНфОРмАЦИОННАя тЕхНОлОГИя ... · Google Chrome, Mozilla Firefox и Internet Explorer. Статистика представлена на рис. 2. Сайты

СТАРТ В НАУКЕ № 4, 2017

39 ИНФОРМАТИКА Поисковые машины выбирались из наи-

более используемых в России. Такими по-исковиками являются Google.com и Yandex.ru. Статистика представлена на рис. 3.

С точки зрения удобства сохранения ин-формации нам подходят оба поисковика: Ян-декс отображает максимум 50 результатов на странице, Google – 100. Было решено прове-рить качество поиска Google и Яндекса. Оце-нив результаты по нескольким поисковым за-просам, нами был сделан вывод, что качество поиска Google выше. На этом основании в ка-честве поисковика был выбран Google.

Выбрав поисковик и браузер, мы на-чинаем осуществлять поиск Google по вы-бранному поисковому запросу «Химиче-ские опыты видео» с помощью браузера Mozilla Firefox. Результаты сохраняются в виде нескольких html-страниц.

выделение и классификация информационных объектов (2 этап)Второй этап состоит из нескольких ча-

стей – последовательных просмотров ин-формации, результат предыдущего просмо-

тра является исходным для последующего просмотра. Структура второго этапа пред-ставлена на рис. 4.

Первые два просмотра – быстрые и мак-симально формализованные, выполняются с минимальными затратами интеллектуаль-ных ресурсов пользователя. Они не касают-ся предметного содержания информации.

На разных этапах работы информация представляется в виде гиперссылок, источ-ников (веб-страниц и сайтов) и 3-х типов ин-формационных объектов. Простой информа-ционный объект – это объект, который нельзя поделить на более мелкие доступными тех-ническими средствами, причем без наруше-ния интересов правообладателей. Составной информационный объект – объект, не являю-щиеся простыми и обладающие смысловой предметной цельностью. Отложенный ин-формационный объект – это объект, который требует дополнительных сложных техниче-ских процедур и/или урегулирования с пра-вообладателями. Формирование информа-ционных объектов является конечной целью данной информационной технологии.

Рис. 3. Статистика использования поисковиков в России [5]

Рис. 4. Структура второго этапа

Page 4: 37 ИНфОРмАЦИОННАя тЕхНОлОГИя ... · Google Chrome, Mozilla Firefox и Internet Explorer. Статистика представлена на рис. 2. Сайты

СТАРТ В НАУКЕ № 4, 2017

40 ИНФОРМАТИКА Отбраковка бесполезной

и ранжирование полезной информации (1 просмотр)

Выполняется первый просмотр. При первом просмотре результат работы поис-ковика – «куча» гиперссылок – классифици-руется на полезные и бесполезные гиперс-сылки (к последним относится, например, реклама). Полезные гиперссылки сохраня-ются в закладках браузера. Сохранение идет в три папки в зависимости от актуальности и полезности информации:

1. «Основное» – полезная информация, соответствующая школьной программе

2. «Дополнительное» – полезная инфор-мация, близкая к школьной программе

3. «Эффектное» – полезная, но не име-ющая отношения к школьной программе информация, в т.ч. эффектные опыты – де-монстрации, шоу и т.п.

Алгоритм выполнения первого просмо-тра представлен на рис. 5.

классификация источников информации (2 просмотр)

Выполняется второй просмотр; этот просмотр имеет служебный характер. В нем рассматривается содержимое папки «Основное» (результат первого просмотра). Осуществляется классификация источни-ков по следующим типам:

1. Сайт. Является собранием веб-страниц (имеются гиперссылки, которые ведут на другие сложные веб-объекты, ко-торые могут быть полезны)

2-3. Простая веб-страница. Не является собранием веб-страниц. Содержит мате-риалы из одного информационного интер-

нет-источника. Простая веб-страница 1-го типа содержит в себе один интересующий нас объект (видеоопыт), 2-го типа – более одного.

4-5. Сложная веб-страница 1-го и 2-го типов. Не является собранием веб-страниц. Содержит материалы из разных информа-ционных интернет-источников. Сложная веб-страница 1-го типа содержит в себе один интересующий нас объект (видеоо-пыт), 2-го типа – более одного.

6. Сложная веб-страница 3-го типа. Не является собранием веб-страниц. Содержит в себе ссылки на другие простые веб-объекты. Собственное информационное содержание соответствует пунктам 2, 3, 4 или 5.

Алгоритм выполнения второго просмо-тра представлен на рис. 6. В дальнейшем к каждому из типов источников применят-ся свой алгоритм дальнейшего анализа при третьем просмотре.

После второго просмотра некоторые ис-точники могут дублироваться. Для исклю-чения повторов выполняется автоматиче-ская процедура.

выделение информационных объектов разных типов (3 просмотр)

Выполняется третий просмотр. Из каждого типа источников по специальным полностью формальным алгоритмам вы-делялись простые, составные и отложен-ные информационные объекты для даль-нейшего формирования информационной базы. Ненужная и бесполезная инфор-мация отбрасывалась. Алгоритм выпол-нения третьего просмотра представлен на рис. 7.

Рис. 5. Алгоритм выполнения первого просмотра

Page 5: 37 ИНфОРмАЦИОННАя тЕхНОлОГИя ... · Google Chrome, Mozilla Firefox и Internet Explorer. Статистика представлена на рис. 2. Сайты

СТАРТ В НАУКЕ № 4, 2017

41 ИНФОРМАТИКА

Алгоритмы выделения информацион-ных объектов из сайтов и сложных веб-страниц третьего типа являются более сложными, могут зависеть от конкретного вида анализируемых ресурсов, включают в себя процедуры обхода дерева, использо-вание стека и другие.

Таким образом нами создается первич-ная база классифицированных информаци-онных объектов, пригодная для дальнейших структурирования, индексации и использо-вания.

Практические результаты работыС помощью данной информационной

технологии проанализирован большой

массив текстовой и видео-информации из сети Интернет по тематике лабораторных и практических работ по неорганической химии за курсы 8-9 классов (с сохранением интересной сопутствующей информации).

Полностью завершены подготовитель-ный этап (объем «кучи» гиперссылок – около 400), 1-й просмотр (объем папки «Основное» – 123 гиперссылки) и 2-й про-смотр. Продолжается 3-й просмотр, на дан-ный момент проанализировано 53 простых и сложных веб-страницы и сайта, выделено и классифицировано 64 простых и состав-ных информационных объектов.

Применение данной информацион-ной технологии существенно упорядочило

Рис. 6. Алгоритм выполнения второго просмотра

Рис. 7. Алгоритм выполнения третьего просмотра

Page 6: 37 ИНфОРмАЦИОННАя тЕхНОлОГИя ... · Google Chrome, Mozilla Firefox и Internet Explorer. Статистика представлена на рис. 2. Сайты

СТАРТ В НАУКЕ № 4, 2017

42 ИНФОРМАТИКА и упростило обработку информации, уско-рило работу пользователя и значительно уменьшило вероятность ошибочных дей-ствий. Таким образом, информационная технология показала высокую эффектив-ность в поиске, отборе и классификации больших массивов информации в сети Интернет.

выводыРазработана и апробирована информа-

ционная технология – система взаимосвя-занных алгоритмов, позволяющая упорядо-чить, упростить и существенно ускорить:

1. Первичную отбраковку ненужной ин-формации.

2. Сортировку и классификацию полез-ной информации.

3. Формирование первичной базы класси-фицированных информационных объектов.

4. Дальнейшую работу с полученными информационными объектами.

5. Значительно уменьшить вероятность ошибочных действий пользователя.

Данная информационная технология применима к поиску, отбору и классифи-кации больших массивов малосвязанной и слабоструктурированной информации в сети Интернет для любой предметной об-ласти. Полученная база информационных объектов может быть в дальнейшем струк-турирована и проиндексирована. Для даль-нейшего облегчения рутинной работы целе-сообразно использовать плагин к браузеру.

Список литературы

1. URL: https://my-chrome.ru/statistika-brauzerov/2. URL: http://www.itrew.ru/brauzery/statistika-ispolzovani-

ya-brauzerov-2016.html3. URL: http://softcatalog.info/ru/obzor/vybiraem-luchshiy-

brauzer4. URL: http://pcpro100.info/luchshie-brauzeryi-2016/ 5. URL: http://www.liveinternet.ru/stat/ru/searches.html?

period=month;total=yes

Recommended

ZXDSL 831CII Руководство пользователя · modem phone rj-11 line Розеткалинии Сплиттер adsl ~ Телефон Телефон 12v Рис. 3.2-1 Documents

РЕЙТИНГ ЗАКОНОТВОРЦЕВ › wp-content › uploads › 2018 › 01 › Рейтинг...Статистика показывает, что Госдума действительно Documents

Развитие индивидуально-творческих ......Perspectives of Science & Education. 2018. 5 (35) 122 Рис. 2 Диаграмма уровней развития Documents

Figure 1 Figura 1 Figur 1 – VITA Figur 1 Рис. 1 Коронка ......fra Straumann) / Рис. 1– Коронка VITA Mark II при помощи Straumann, полевошпатовая Documents

Информационная система выпускающей кафедрыelar.urfu.ru/bitstream/10995/55822/1/notv_2011_027.pdf · Описываемые модули в настоящее Documents

Moodle · 2018-07-18 · Управление информатизации РГПУ им. А. И. Герцена 7 Рис. 1 — Режим редактирования включен Documents

ИНФОРМАЦИОННАЯ СИСТЕМА «ИС МАДИ: физика»lib.madi.ru/fel/fel1/fel17M599.pdf · новые слайды и ссылки, менять последовательность Documents

Информационная безопасность баз и банков данныхelar.urfu.ru/bitstream/10995/1777/6/1333420_program.pdf · 2019-04-21 · информационных Documents

ИНСТРУКЦИЯ ПО ИСПОЛЬЗОВАНИЮ СЕРВИСА GOOGLE … · Excel), «Рисунки» ... созданного файла Google Документы (рис Documents

MOODLE · 2016-03-30 · Система moodle поддерживает следующие стандартные типы вопросов (см. рис. 2): 1) Множественный Documents

PLC TLT ИН - argoivanovo.ruargoivanovo.ru/download/docs/PLC_TLT_in.pdf · plc-модемом (см. рис. 2). Рис. 2 Вкладка «Настройки» Порт – номер Documents

Candidate brochure ru 200701 · Для подготовки к экзаменам рекомендуется использовать учебный ... Финансы и статистика, Documents

Интеллектуально-информационная поддержка ...elar.urfu.ru/bitstream/10995/525/1/urgu0111s.pdfНа правах рукописи ТКАЧЕНКО Documents

ОсновытехнологииCUDAcrm-en.ics.org.ru/uploads/crmissues/kim_2010_2_3/crm... · 2011-02-09 · Основытехнологииcuda 297 Рис.2.Схематическоеизображениеграфическогоадаптера(gpu Documents

№7 (2368) СРЕДА 19 февраля 2020 годаpdf.kamyshin.ru › 2020 › 02 › ld-2368_FUYR.pdf7 (2368) 19 февраля 2020 г. 2 Рекламно-информационная Documents

Глава 1. В чем различия между Мас и Windows? · «Вид» (View), «Окно» (Window) и «Справка» (Help), как показано на рис Documents

Статистика : учебное пособиеelib.usma.ru/bitstream/usma/1065/1/UMK_2018_018.pdf · СТАТИСТИКА Учебное пособие Екатеринбург Documents

isto9@mailcrimuntur.ru/wp-content/uploads/2019/08/Otchet-o... · 2019-08-16 · 1.6. Подробная карта маршрута. Рис. 2 Картосхема первой части

[email protected]/wp-content/uploads/2019/08/Otchet-o... · 2019-08-16 · 1.6. Подробная карта маршрута. Рис. 2 Картосхема первой части Documents