"Obecnie w Internecie mamy do czynienia z ogromną ilością informacji, których nie jesteśmy w stanie przetworzyć. Jeśli do 2003 r. ludzkość wytworzyła 5 eksabajtów informacji (eksabajt to 10 do potęgi 18 bajtów, czyli miliard GB), to teraz 5 eksabajtów informacji tworzonych jest co dwa dni. Google indeksuje ponad 40 mld stron internetowych. Pojawia się więc problem z docieraniem do informacji" - mówi w rozmowie z PAP dr Marcin Skulimowski z Wydziału Fizyki i Informatyki Stosowanej Uniwersytetu Łódzkiego.
"Chińczyk bez problemu odpowie na pytanie dotyczące chińskiego tekstu, który właśnie przeczytał. Osoba, która nie zna chińskiego może co najwyżej w tym tekście wyszukać jakiś znak bądź ciąg znaków - i tak działają dzisiejsze wyszukiwarki" - porównuje dr Skulimowski. Tak więc na razie wyszukiwarki pokazują linki do stron, na których znajdują się poszukiwane ciągi znaków. Użytkownik musi sam wchodzić na poszczególne strony i sprawdzać, czy o taki kontekst użycia tych słów mu chodziło.
"Kiedy wpisujemy w wyszukiwarkę hasło +wakacje nad morzem+, chcielibyśmy otrzymać listę konkretnych ofert, a nie strony, które takie sformułowanie mają użyte w treści" - podkreśla badacz. Aby komputery skuteczniej przetwarzały informacje, informatycy zaczynają opisywać zasoby Internetu w sposób dla nich zrozumiały. Wykorzystywane są tym celu tzw. ontologie będące reprezentacjami fragmentów rzeczywistości. Składają się one z definicji klas (np. klasy "Matka" i "Kobieta") i relacji między nimi (np. klasa "Matka" zawiera się w klasie "Kobieta").
Powstają już aplikacje, które korzystają z takich danych. Na wielu stronach Wikipedii po prawej stronie znajdują się tzw. infoboksy zawierające najważniejsze informacje związane z przeglądanym hasłem. W przypadku osób znajdziemy tam np. zdjęcie, datę i miejsce urodzenia, zawód, odznaczenia. Dane z infoboksów są już zapisywane w języku RDF. Powstaje w ten sposób tzw. DBpedia – „semantyczna” wersja Wikipedii. W DBpedii znajdują się już miliardy stwierdzeń w języku RDF, które komputery mogą łatwo analizować i przeszukiwać. Dzięki temu możemy np. wyszukać osoby urodzone w Warszawie w 1951 r. "Na razie pytania można zadawać tylko w specjalnym języku, ale jesteśmy coraz bliżej lepszych rozwiązań" - przyznaje dr Skulimowski.
Innym przykładem aplikacji, która zwraca konkretne odpowiedzi, a nie linki do stron jest testowana właśnie wyszukiwarka Facebook Graph Search. Dzięki niej na Facebooku można wśród swoich znajomych np. wyszukać osoby, które mieszkają w danym mieście i lubią chodzić po górach. Co ważne takie zapytanie zapisywane jest w języku naturalnym. "To jest namiastka tego, do czego dążymy w skali całego Internetu" - komentuje dr Skulimowski.
Aplikacją semantyczną staje się też wyszukiwarka Google. Dzięki ogromnej bazie wiedzy Google Knowledge Graph, oprócz tradycyjnych wyników wyszukiwania w postaci linków zwracane są też konkretne informacje. Na razie rozwiązania te są dostępne przede wszystkim w wersji angielskiej oraz w kilku innych językach. Ale kiedy w wyszukiwarkę wpiszemy np. "Uniwersytet Łódzki", po prawej stronie pojawiają się podstawowe dane o uniwersytecie m.in. logo, adres i lokalizacja na mapie.
Technologie stworzone dla Internetu Semantycznego wykorzystali również amerykańscy naukowcy ze szpitala w Cincinnati, którzy próbowali odszukać genetyczne przyczyny chorób sercowo-naczyniowych. Mieli do dyspozycji kilka różnych baz danych z różnymi informacjami np. na temat genów, chorób oraz ich symptomów. Tradycyjne wyszukiwanie podejrzanych genów wymagałoby dużego nakładu pracy związanego z „ręczną” integracją informacji pochodzących z tych baz danych. A to oczywiście wymaga dużo czasu. Naukowcy postąpili jednak inaczej tzn.: zintegrowali ze sobą informacje pochodzące z różnych baz danych zapisując je w przyjaznym komputerom języku RDF. Dzięki temu maszyny mogły łatwo przetwarzać zgromadzone tam informacje. W ten sposób powstał "ranking" genów, które mogą odgrywać rolę w konkretnych schorzeniach kardiologicznych. Okazało się, że technologie semantyczne mogą znaleźć zastosowanie nie tylko w przeszukiwaniu zasobów w Internecie.
"W Internecie jest teraz tak dużo informacji, że Internet Semantyczny to w zasadzie jedyna droga. Dążymy do stworzenia globalnej bazy danych na skalę całego Internetu, dzięki której będziemy mogli wyszukiwać konkretne informacje, a nie ciągi znaków. Być może prawdziwa rewolucja informacyjna jest dopiero przed nami…" - podsumowuje dr Skulimowski.
PAP - Nauka w Polsce, Ludwika Tomala
lt/ ula/
Źródło: www.naukawpolsce.pap.pl
© APLIT Wszelkie prawa zastrzeżone.