ארכיון פוסטים מהקטגוריה "ווב 3.0"

News360 2.0 – אגרגטור של חדשות מדור שני – שילוב של טכנולוגיה סמנטית ואתרים חברתיים

22 באוגוסט, 2011 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

News360  2.0news היא אפליקציה תואמת ווב וגם מגוון פלטפורמות ניידות : iPad, iPhone, BlackBerry PlayBook, Windows Phone, Android אשר מציגה למשתמש חדשות רלוונטיות לו על סמך פעילותו באתרים חברתיים. News360 עושה שימוש בטכנולוגיות סמנטיות וכרית מידע. היא מנתחת את  פעילותו של המשתמש באתרים חברתיים כגון: Facebook, Twitter, Google Reader, Evernote במטרה לבחור חדשות רלוונטיות למשתמש מכול מקור שהוא.. ניתוח הפעילות של המשתמש באתרים החברתיים  מתבצע כמובן בהרשאתו של המשתמש.

החידושים העיקריים בגרסה חדשה זו של האפליקציה היא קיומה בגרסה וובית ותמיכתה בפרסונליציה. הפרסונליצזיה ב- News360 משתמשת בסמנטיקה של התכנים עצמם. היא בונה מפה סמנטית מכל פריט תוכן ומשווה בינו ובין גרף תחומי העניין של המשתמש מהיישומים החברתיים : Evernote, Twitter, Facebook , Twitter ו-Google reader במטרה למצוא תכנים שמעניינים את המשתמש.

לאתר של News360

לכתבה בנושא

I-SEARCH , SemWebVid הווב הסמנטי והחזון לעתיד

25 ביולי, 2011 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

isearchI-Search הוא מנוע חיפוש שפותח/מפותח במסגרת פרויקט מחקרי של האיחוד האירופי ואשר שם לו למטרה כפי שכתוב באתר לפתח מנוע חיפוש שמסוגל לקבל כשאילתה סוגים שונים של קובצי מולטימדיה ותכנים שונים – אובייקטים תלת מימדיים, תמונות דו- מימדיות, אודיו, וידאו, וצירופים שלהם ולאחזר תכנים רלוונטיים מהסוגים השונים של התכנים.

כיום כפי שנראה באתר הוא תומך ב-3 סוגי קבצים בו זמנית כשאילתה – - *.OFF אובייקטים תלת מימדיים, – *.JPG – תמונות דו מימדיות, ו- *.WAV – קובצי אודיו . ממעט החיפושים שערכתי, נראה שהוא באמת עדיין רק בשלבי פיתוח.

SemWebVid – Semantic Web Video הוא פרויקט במסגרת I-SEARCH שמטרתו להוסיף אוטומטית מידע על – כותרים, תיאור וכו' לקובצי וידאו תוך שימוש ב-RDF. הוא עושה שימוש גם בשירותי שפה טבעית בקוד פתוח כגון OpenCalais, Zemanta, and Alchemy כדי להעשיר את המידע ולחלץ זהויות. בשלב זה הפרויקט מתמקד ביוטיוב אבל המטרה היא להכליל את הפרויקט לכל פורטל וידאו אחר.

שני הפרויקטים עדיין בשלבי פיתוח, קשה להעריך את הביצועים, אבל הם יכולים אולי ללמד על הצפוי בעתיד בתחום תעשיית מנועי החיפוש , כדאי לעקוב… .

פרטים נוספים בכתבה
למנוע החיפוש I-Search

CLAROS – כאשר האמנות פוגשת את הווב הסמנטי

15 ביוני, 2011 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

CLAROSclaros2 שהושק ב- 17 במאי 2011 הוא מאגר אמנות שמאגד בתוכו אוספים רבים בארכיאולוגיה ואמנות ממוזיאונים ואוניברסיטאות. כולל למעלה מ-2 מיליון רשומות ותמונות ומהווה כלי מחקרי חשוב בתחום. . אבל כפי שמעידים עליו הוא הרבה מעבר ל"עוד מאגר רגיל" – CLAROS is far more active and dynamic, datacentre more than database, and an important new research capability

והוא "information about the world, from around the world, for the world.

כל זה התאפשר בזכות הווב הסמנטי וטכנולוגיות מתקדמות שאפשרו אינטראופרביליות בין המאגרים תוך שימוש באונטולוגיה CIDOC CRM, ונגישות למאגרים ואפשרות חיפוש על פי טקסט או תמונה מה שמאפשר את חצית מגבלות השפה. הפרויקט הוא פרי של שיתוף פעולה במישור הבינלאומי ומובילה אותו אוניברסיטת אוקספורד.

למאגר

מידע טכני על המאגר

Learning Resources Framework Initiative – חיפוש חומרי לימוד יהיה קל יותר בעתיד

13 ביוני, 2011 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

creativeבפוסט קודם כתבתי על היוזמה המשותפת של שלושת מנועי החיפוש הגדולים בכיוון הווב הסמנטי Schema.org – יוזמה משותפת שתומכת בשפה משותפת לתיוג מידע מובנה בדפי ווב.

על יוזמה דומה Learning Resources Framework – יצירה של מסגרת למידע על ייעודי לחומרי לימוד, הצהירו ב- 7 ביוני 2011 Creative Commons ו- Association of Educational Publishers .

על פי דברי Catherine Casserly, CEO of Creative Commons סטודנטים ואנשי חינוך מחמיצים היום חומרי לימוד והוראה רבים , והיוזמה Learning Resources Framework Initiative באה לפתור זאת ולהקל על איתור חומרי לימוד ברשת, כולל חומרי לימוד שניתנים לשימוש חוזר במסגרת הרישיון הגמיש של Creative Commons. יוזמה זו ליצירת סכימה של מידע על לחומרי לימוד זכתה כבר לתמיכה של ארגונים מסחריים ולא מסחריים מובילים.

אימוץ סכימה זו של מידע על ייעודי לחומרי לימוד יהיה ווֹלוּנְטָרִי מבחינתם של מנועי החיפוש וספקי התכנים, אך בשל התמיכה המשתמעת של ספקי התכנים המסחריים והלא מסחריים יש לצפות שסכימה זו תתקבל בברכה.

פרטים נוספים על היוזמה


לכתבה בנושא

 

 

HealthMash – מנוע חיפוש רפואי סמנטי ואפליקציות ל- iPhone ול- Android

13 ביוני, 2011 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

HealthMashhealthmash הוא מנוע חיפוש רפואי למשתמש שפותח על יד חברת WebLib שמתמחה בטכנולוגית חיפוש ושפה טבעית. על פי מה שנכתב באתר שולבו בפיתוחו טכנולוגיות של הווב הסמנטי כדי לאתר מידע שקשור למחלות, סימפטומים, טיפול, תרופות וגישות של רפואה אלטרנטיבית ממקורות מהימנים בווב. המנוע משלב את התוצאות עם משאפס של תמונות , וידאו, חדשות , בלוגים וציוצים מהווב. המנוע עושה גם שימוש ב-MESH וב- UMLS.

מן הראוי לציין שאפליקציה של  HealthMash נמנית  על האפליקציות שאפשר להוסיף בחיפוש ב- SciVerse של Elsevier,  והיא  פרי של שיתוף פעולה בין Elsevier ו- WebLib.

ב- 8 ביוני 2011 החברה הודיעה על השקת אפליקציות חופשיות של מנוע החיפוש ל- iPhone ול- Android.

האפליקציה ל-iPhone זמינה ב- iPhone appStore ואת האפליקציה ל- Android אפשר להוריד מ- Android Market

להודעה בנושא
למנוע החיפוש בווב

Schema .org , מנועי חיפוש והווב הסמנטי

5 ביוני, 2011 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

schemaב- 2 ביוני 2011 שלושת מנועי החיפוש הגדולים Google, Bing, Yahoo הצהירו על Schema.org – יוזמה משותפת שתומכת בשפה משותפת לתיוג מידע מובנה בדפי ווב.

בעזרת Schema.org בעלי אתרים ומפתחים יוכלו ללמוד יותר על נתונים מובנים, יוכלו להטמיע בקלות יחסית מידע סמנטי בתוך הקוד של דפי הווב הקיימים – דפי5 html – מידע שמכונות יכולות להבין ולחלץ אותו באופן חד משמעי. בכך יסיעו למנועי חיפוש להבין טוב יותר את התכנים של דפי הווב שלהם.

המשמעות מבחינתם של מנועי החיפוש והמשתמשים היא תשובות מדויקות יותר למספר רב יותר של שאלות. כך למשל בתוצאת חיפוש של ספר, מנוע החיפוש יוכל להציג גם את מספרי העמודים שלו ואת ה- ISBN שלו, שכן המידע המובנה יסייע למחשבים להבין את המידע ולחלץ את המידע הדרוש מתוך דפי הווב . המשמעות מבחינת אתרי ווב שיאמצו סכימה זו היא הגדלת הנראות שלהם במנועי חיפוש.

המשמעות של Schema.org היא התקדמות לקראת החזון של הווב הסמנטי שבו מידע על יסייע למחשבים להבין את התכנים, אבל בקהילת הווב הסמנטי הדעות לגבי היוזמה בכל זאת חלוקות. זמן רב עבדו על פיתוח שפות כמו RDF שיקדמו את הווב הסמנטי והם רואים ב- Schema.org מגבלות ביחס ל- RDF , אבל מצד שני בשל הפשטות היחסית שלה אחרים סבורים שיהיה יותר קל לשווק אותה ובכך לקדם את חזונו של הווב הסמנטי.

פירוט יתר על היוזמה והשלכותיה

ההצהרה על היוזמה
לאתר Schema.org

BioPortal – מאגר בינלאומי לאונטולוגיות בתחום הביורפואי

8 במאי, 2011 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

bioportalBioPortal הוא מאגר בינלאומי לאונטולוגיות בתחום הביורפואי. המאגר נוצר ומתוחזק על ידי NCBO . NCBO – The National Center for Biomedical Ontology נוסד ב-2005 כדי לעזור לאנשי מדע בתחום הביורפואי להשתמש באונטולוגיות לצורך ארגון המידע.

NCBO גם מציע כלים ושירותי ווב שמאפשרים למשתמשים גישה ושימוש באונטולוגיות למגוון יישומים. מרכז זה גם תומך בפיתוח טכנולוגיות סמנטיות בתחום הביורפואי.

BioPortal הוא התרומה הנראית העיקרית של NCBO לקהילה הביורפואית. האתר מספק גישה ליותר מ- 200 אונטולוגיות ושפות מבוקרות בתחום הביורפואי. אפשר לדפדף באתר וגם לחפש אונטולוגיות על פי מונחי חיפוש. האתר מאפשר גם מיפוי בין אונטולוגיות לצורך השוואה.

כמו כן האתר מאפשר חיפוש במגוון מקורות של מידע רפואי תוך שימוש במונחי האונטולוגיות שלו. חיפוש זה אפשרי בזכות האינדקס שיצר NCBO מהתכנים של עשרות מאגרים תוך שימוש במונחי האונטולוגיות שב- BioPotal .תוצאות החיפוש מציגות את המאגרים כשליד כל אחד מהמאגר מספר התוצאות מאותו מאגר, במסך התוצאות מתקבלות גם הצעות לעידון השאילתה.

מעבר להיותו של BioPortal מאגר אונטולוגיות, ואינדקס לעשרות מאגרים  הוא מהווה גם קהילה מקוונת למפתחי אונטולוגיות ולמשתמשים שיכולים להעיר הערות ולדון בתכנים של האונטולוגיות.

למרות שהאונטולוגיות ב- BioPortal מיועדות בעיקר לתחום הביורפואי , התוכנה היא לגמרי גנרית וניתנת לשימוש ליצירת מאגרי אונטולוגיות בתחומי מחקר אחרים. פרטים נוספים על הפורטל אפשר למצוא בגיליון 11 של – Nodalitiies המגזין הייעודי לווב הסמנטי 

לפורטל

לפרטים נוספים על הפורטל

מגמות ברשת האינטרנט ב- 2010 ותחזיות לעתיד

9 בפברואר, 2011 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

statisticsעם תחילתה של השנה החדשה מעניין מה היו המגמות ברשת האינטרנט בשנה החולפת ומה הן התחזיות לעתיד. בכתבה מעניינת סוקרת Paula J. Hane מגמות בשנת 2010. על פי סקירה זו אין ספק ששנת 2010 הייתה שנת המחשוב הנייד – השנה של האפליקציות. אבל יחד עם זאת הייתה גם שנת הספר האלקטרוני והקוראים האלקטרוניים.

התחזיות לשנת 2011 מלמדות על המשך ביקוש לאפליקציות של הנייד ואתרי ווב תומכי נייד, מנשקים שתומכים בטכנולוגית מגע, עניין גדל בנתונים מקושרים, דגש על ניידות של ספרים אלקטרוניים וקוראים אלקטרוניים מוזלים, עלייה ביישומים מבוססי מחשוב עננים , והמשך גידול בשימוש בפייסבוק.

נתונים ומגמות דומים ב- 2010 אפשר למצוא בסקירה נוספת ב-ReadWriteWeb שמונה את עשרת הכלים המובילים על פי קטגוריות שונות . גם על פיה הנייד , קוראים אלקטרוניים ופייסבוק מובילים בתחומם.

לאור נתונים אלה ותחזיות אלה ביחס לפייסבוק, נתוני StatCounter Global Stats בכל הקשור לשימוש במדיה חברתית ב-2010 מפתיעים מעט. כאשר מדברים היום על מדיה חברתית מיד חושבים על פייסבוק וטוויטר כאתרים מובילים. אולם על פי נתוני StatCounter Global Stats דווקא StumbleUpon , רשת חברתית שלא כל כך מוכרת אפילו , היא המובילה מבחינת תעבורה ופעילות בארה"ב ב- 2010 – 43% לעומת 38% שלהם זכתה פייסבוק. הנתונים מפתיעים יותר בהתייחס למספר המשתמשים בשתי המערכות -   500 מיליון  משתמשי פייסבוק לעומת 13 מיליון משתמשי StumbleUpon. בעולם כולו התמונה שונה – פייסבוק היא הרשת החברתית  המובילה עם 87% , StumbleUpon תופסת מקום שני עם 21% ו- YouTube את המקום השלישי.

נתונים מפורטים יותר אפשר למצוא בשלושת הכתבות שלהלן :

כתבה של Paula J. Hane ב- Information today

כתבה ב- ReadWriteWeb

נתוני StatCounter Global Stats

מנוע החיפוש הסמנטי Hakia מאחורי השירות החדש לניתוח מניות SENSENews

20 בינואר, 2011 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

sense2מחפשים טיפים בכל הקשור להשקעות במניות – רכישה ומכירה. יתכן שתוכלו בשלב זה להיעזר תמורת תשלום חודשי בשירות החדש SENSENews .

שירות חדש זה שבו מיושמת הטכנולוגיה הסמנטית של מנוע החיפוש Hakia מסנן מידע מחדשות וממדיה חברתית ומעניק ציון לביצועי חברות.

שירות זה פועל על פי עיקרון פשוט – אם מצטברות חדשות טובות על החברה ומחיר המניה עדיין לא הגיב על כך, משמעות העניין שערכה של המניה מוערך בפחות משוויה undervalued , והיא תגיב בסופו של דבר וכדאי לרוכשה. שירות מחוון (אינדיקטור) מניות זה יכול להחליט בכל יום נתון האם המניה היא undervalued או overvalued – מה שיתפרש לרכישה או למכירה.

שלא כשיטות ניתוח מניות אחרות כגון ניתוח טכני שמתבססות על עקומות מחיר, שירות זה מציג עקומה חדשה מסוג אחר . מבחינה טכנית ד"ר ברקן מדען ראשי ב-Hakia  טוען שיש בשירות זה יותר מאשר ניתוח סנטימנט שכן ביצועי חברות אינם יכולים להיות מושתתים על סנטימנט בלבד – הניתוח כרוך באיסוף עובדות, נתונים, אירועים, אינטרפטציות, ספקולציות, גורמים חיצוניים וסנטימנט.

מבחינת מנועי החיפוש שירות זה מרמז על הצעד הבא במנועי חיפוש עסקיים – מנועי חיפוש ללא תיבת חיפוש שעומדים מאחורי מוצרים. כמו כן יש ביישום זה להצביע על העובדה שהטכנולוגיה הסמנטית עדיין מצומצת ליישומים מסויימים ואולי גם על  הקושי ליישמה  באינדקסים גדולים.

לכתבה בנושא

SENSENews

כתב עת חופשי חדש בנושא הווב הסמנטי – Semantic Web – Interoperability, Usability, Applicability

29 בדצמבר, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

semanticjגיליון ראשון של כתב עת חופשי חדש בנושא הווב הסמנטי בשם: Semantic Web – Interoperability, Usability, Applicability יצא לאור בדצמבר 2010.

כתב העת הוא כתב עת שפיט ויתפרסם מדי רבעון . יתקבלו בברכה מחקרים ומאמרים שעוסקים בהיבט החברתי והיישומי של הווב הסמנטי. שמו מלמד על מגוון הנושאים שבהם יעסוק: שיטות וטכנולוגיות חדשות, אינטגרציה של מידע ממקורות הטרוגניים, פרדיגמות חדשות של אחזור מידע , מנשק המשתמש, טכנולוגיות לויזואליזציה של מידע ועוד..

הגיליון הראשון של כתב העת כולל הצהרות על חזונו של הווב הסמנטי , היבטים תיאורטיים ויישומיים של אונטולוגיות , אינטראופרביליות של אונטולוגיות, פיתוח תוכנה, ארגון המידע בווב הסמנטי , הווב הסמנטי וההיבט המדעי ועוד..

לכתב העת

לתוכן העניינים של הגיליון הראשון .

 

ממציא הווב – טים ברנרס-לי – כיצד להגן על הווב ?

23 בנובמבר, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

long-live copyבמאמר מעניין שהתפרסם בגיליון דצמבר 2010 של Scientific American מספר טים ברנרס-לי ממציא הווב על העקרונות עליהם מושתת הווב , הסכנות האורבות לווב וכיצד נוכל להגן עליו מפניהם.

הווב הפך להיות כלי בעל עצמה בשל היותו מושתת על עקרונות שוויוניים ובזכות עבודתם המשותפת של אנשים פרטיים, חברות ואוניברסיטאות במסגרת ה- World Wide Web Consortium למען הרחבת יכולותיו של הווב שמושתתים על עקרונות אלו.

הווב היום ניצב בפני מספר סכנות כאשר חלק מדייריו המוצלחים החלו לכרסם בעקרונות עליהם הוא מושתת. אתרי רשתות חברתיות החלו בהצבת חומות ובחסימת מידע מפני שאר חלקיו של הווב, ספקי אינטרנט אלחוטי פועלים למען האטת התעבורה לאתרים שלא עשו עמם עסקים, ממשלים טוטליטריים ודמוקרטיים כאחד עוקבים אחרי הרגליהם המקוונים של אנשים תוך פגיעה בזכויות אדם חשובות.

אחד העקרונות החשובים עליהם מושתת הווב הוא האוניברסליות. קיימת הזכות לכול להעלות חומרים לווב ולא משנה איזה מחשב, תוכנה, שפה, וסוג תקשורת – אלחוטית או חוטית יש ברשותם. הווב חייב להיות נגיש גם לבעלי מוגבלויות.

דֶּצֶנְטְרָלִיזַצְיָה – ביזור – הוא מאפיין חשוב אחר. אין צורך לקבל אישור משום גוף מרכזי להוסיף אתר או קישור. כל מה שצריך לעשות הוא לעשות שימוש ב- 3 פרוטורקלים – html לכתיבת דף ווב, ULI להענקת כתובת לדף , ו- http להעלות אותו לרשת האינטרנט.

ה- ULI הוא המפתח לאוניברסליות …
מספר תופעות שמאיימות על האוניברסליות קשורות ל-ULI . בידי רשתות חברתיות כגון Facebook, LinkedIn, Friendster יש מידע על המשתמשים שלהן, בו הן משתמשות למען ייעול שירותיהם, אבל המידע הזה אינו זמין לגופים אחרים, כל רשת פועלת כגוף נפרד . אתרי הווב פתוחים לכול אבל לא הנתונים. בידוד זה קורה מכיוון שאין לכל פיסת מידע URI …… הקשר בין הנתונים קיים רק בתוך האתר. באופן זה אתרי רשתות חברתיות הפכו לפלטפורמות סגורות.

סכנה נוספת היא שרשת חברתית גדולה או מנוע חיפוש או דפדפן יהפכו למונופול …. מכיוון שזה עלול להגביל את החדשנות…

תופעת חברות הכבלים אשר מוכרות קישוריות לאינטרנט ושוקלות להגביל את משתמשי האינטרנט להורדה של חבילות הבידור שלהן בלבד, אף היא מאיימת על האוניברסליות..

עיקרון האוניברסליות הוא רק אחד העקרונות עליהם מושתת הווב . עקרונות נוספים הם סטנדרטים פתוחים , עקרון ההפרדה בין השכבות – הפרדה בין הווב והאינטרנט ….

על כך ועוד דברים מעניינים אפשר לקרוא במאמר המלא

Extractiv – כלי לחילוץ מידע מטקסט בשירות הווב הסמנטי – סוקר דפי ווב, מזהה קשרים סמנטיים והופך מידע לא מובנה למובנה

17 בנובמבר, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

הווב מכיל דפים רבים עם מידע מתעדכן ומתחדש – ידיעות חדשותיות, פוסטים בבלוגים וציוצים. לעבד את המידע ידנית היא משימה בלתי אפשרית. מנועי חיפוש מסוגלים לאתר פריטי מידע של מידע אבל מותירים מאחור את התמונה השלמה. Extractiv – שירות לחילוץ מידע מטקסט יכול לסייע במשימה.

Extractiv הוא שירות שהופך באופן אוטומטי טקסט לא מובנה לטקסט סמנטי מובנה. משלב זחלן שסורק דפי ווב על פי בקשה או הגדרת מלות מפתח, ויכולת של ניתוח בשפה טבעית. מזהה זהויות וקשרים ביניהם.

Extractiv מאפשר למשתמש להגדיר מה הוא רוצה לחלץ מהטקסט כך למשל אם מגדירים לו עיר הוא יחלץ את כל הערים , כמו כן הוא מאפשר למשתמש להגדיר באיזה פורמט הוא רוצה לקבל את התוצאות. השירות הוא בתשלום. מדי פעם ג'וב של עד 1000 URL אפשר לקבל חינם לאחר הרשמה חינמית לפורטל.

במהלך תהליך הגדרת המשימה על ידי המשתמש – המשתמש בוחר נושא מתוך רשימת נושאים כגון רפואה, מחשבים, וזהויות שמוצעות למשתמש לבחירה בהתאם לתחום שבחר – כך למשל ברפואה מוצעות זהויות כמו דוקטור, תרופה, מחלה, בתי חולים וכו' , במחשבים – אלגוריתם שפת תכנות ועוד..

המשתמש בוחר קשרים אותם הוא רוצה שהכלי ינתח כמו גיל, מספר טלפון, דת, שפה. אפשר להזין מלות מפתח והיישום מחפש אתרים בהתאם. אפשר לתת רשימת אתרים ממנה יתחיל את הסריקה , אפשר לבקש שיסרוק את כל הקישורים או להתמקד בדומיינים מסוימים , להגדיר את עומק הסריקה, מספר URL שיסרוק, פילטרים , ובאיזה פורמט רוצים לקבל את התוצאות – – JSON, XML, RDF. בעתיד מבטיחים גם . sentiment analysis

שירות כזה יכול להיות יעיל לקבלת מידע על אדם מסוים או חברה מסוימת וגם על נושא מסוים והוא מהווה חזון לעתיד..

לאתר השירות
מידע באתר אודות השירות

kngine – Knowledge Engine – מנוע חיפוש סמנטי

14 בנובמבר, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

kniKngine הוא מנוע חיפוש סמנטי שמשתמש בטכנולוגיות מתקדמות כדי להבין את המשמעות של התכנים , לספק תשובות לשאלות המשתמש ולחפש קשרים בין סוגי מידע שונים שקשורים לשאילתה של המשתמש.

המנוע מבחין בין המשמעויות השונות של מונח מסוים, מספק מידע ישיר במקום שורה של קישורים ועונה על שאילתות בשפה טבעית, מספק למשתמש אפשרות לקבל מידע על אספקטים שונים של מונח החיפוש בהתאם למונח החיפוש, עונה על שאלות היסטוריות וסטטיסטיות, מספק מידע עדכני שקשור למזג אויר, שערי מניות ומטבעות, תוצאות ספורט ועוד..

באתר יש המלצות למשתמש כיצד לחפש כדי להשיג תוצאות אופטימליות כך למשל:
כדי לקבל מידע על תוצאות ספורט יש להוסיף לשאילתה results""
כדי לקבל מידע מה קרה ביום מסוים די לכתוב את התאריך
שאלות יש לכתוב בשפה טבעית
לקבלת מידע על מזג אויר יש להוסיף weather לאחר שם העיר

המלצות נוספות כיצד לחפש אפשר למצוא באתר.

המנוע הוא רק בראשית דרכו ובעתיד מפתחיו מבטיחים שיפורים נוספים. על כך אפשר לקרוא בבלוג של המנוע

למנוע

 

אונטולוגיות והווב הסמנטי

9 בנובמבר, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

האונטולוגיות הם מרכיב חשוב בווב הסמנטי. מה הן אונטולוגיות וכיצד לבנות אותם?
סדרה של מאמרים/מדריכים אשר עשויים לשפוך אור על ההיבט המתודולוגי והמעשי בכל הקשור לאונטולוגיות אפשר למצוא ב-TechWiki

במסגרת מדריכים אלה יש גם רשימה של כ-200 כלים לבניית אונטולוגיות רובם בקוד פתוח

לאתר

 

מאפיינים של חיפוש סמנטי על פי Hakia

27 באוקטובר, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

בבלוג של Hakia שנחשב מנוע חיפוש סמנטי התפרסם פוסט מעניין שמגדיר 10 מאפיינים של חיפוש סמנטי. מאפיינים אלו נבחנו בהשוואה בין מנוע החיפוש HAKIA ובין מנוע החיפוש שמשמש את  pubmed . לצורך  השוואה זו  נעשה  שימוש ב- hakia’s online demo. דמו זה כולל 20 מיליון מסמכים מ-pubmed. בהזנת שאילתה מסוימת מקבלים במקביל תוצאות משני המנועים שמשתמשים במסמכים מאותו מאגר מידע.  אלא שמנוע החיפוש Hakia משתמש בשיטה המיוחדת לו לאחסון וניתוח סמנטי של מסמכים אלו לצורך אחזורם.

על שיטה זו כתבתי בפוסט קודם.שיטה זו שנקראת QDEX – Query Detection and Extraction מחליפה את השיטה המקובלת ליצירת אינדקס. על פי השיטה המקובלת ליצירת אינדקס שמכונה קובץ מהופך –inverted file – האינדקס כולל את המונחים המופיעים בטקסט, ומצביעים אל מונחים אלה מהווים בתהליך אחזור המידע שערי גישה למסמכים. אם נשתמש בשיטת הקובץ המהופך גם להוספת קשרים סמנטיים ייווצר מבנה שיכביד מאוד על הביצועים. בשיטה החדשה של מנוע החיפוש Hakia, לעומת זאת, שערי הגישה לדפי ה-Web אינם מצביעים למלים אלא לשאילתות. המנוע מנתח באמצעות אלגוריתם מתוחכם את כל השאילתות האפשריות בדפי ה- Web והשאילתות מהוות שערי גישה לדפי ה- Web. באופן זה בעת אחזור המידע המנוע עובד על סטים קטנים יחסית של דפי Web ורק עליהם הוא מבצע את הניתוח הסמנטי. בכך נפתרת בעיית המשאבים הרבים שנדרשים לביצוע ניתוח סמנטי על מספר רב של דפים. על פי התיעוד באתר ביצוע הניתוח הסמנטי ודרוג התוצאות מתבצע באמצעות אלגוריתם מתוחכם שעושה שימוש גם באונטולוגיות.

עשרת המאפיינים שמאפיינים חיפוש סמנטי על פי HAKIA ושנבחנו בהשוואה שעליה דובר לעיל הם:
1. Handling morphological variations- טיפול בוַרְיַאצְיות מורפולוגיות – מנוע חיפוש סמנטי אמור לטפל בכל הוריאציות המורפולוגיות של המונח . באופן זה למשל תוצאות החיפוש צריכות להיות זהות אם מקישים כל אחד מהמונחים הבאים: “improve, improves, improving, improved,
2. Handling synonyms with correct senses- טיפול נכון וסמנטי במלים נרדפות תוך הבנת המשמעות הנכונה של המלה הנרדפת
3. Handling generalizations – טיפול בהכללה בצורה נכונה כך למשל השימוש במונח "מחלה" בשאילתה אמור לאחזר את כל המחלות
4. Handling concept matching – הבנת המשמעות הנכונה של מונחים
5. Handling knowledge matching – ממנוע חיפוש סמנטי מצפים שיבין למשל ש- swine flu = H1N1, flu=influenza
6. Handling natural language queries and questions – טיפול נכון בשאילתות בשפה טבעית
7. Ability to point to uninterrupted paragraph and the most relevant sentence – ממנוע חיפוש סמנטי מצפים ליותר מאשר להציג קישורים למסמכים שלמים כפי שעושים מנועי חיפוש מסורתיים אלא גם להציג קטעים רלוונטיים מהמסמך
8. Ability to enter queries freely, no special formats like quotes, or Boolean operators – אפשרות להזנת השאילתה באופן חופשי וללא צורך באופרטורים מיוחדים
9. Ability to operate without relying on statistics, user behavior, and other artificial means – ממנוע חיפוש סמנטי מצפים לאחזר תוצאות רלוונטיות על סמך ניתוח המסמך ולא על סמך אמצעים מלאכותיים שלא תמיד מצויים במסמך
10. Ability to detect its own performance – ממנוע חיפוש סמנטי מצפים שהאלגוריתם שלו לקביעת הרלוונטיות של תוצאות החיפוש לא יסתמך על אמצעים מלאכותיים כגון מספר הקישורים למסמך אלא על סמך מידת ההתאמה של תוצאות החיפוש למשמעות הנכונה של מונח החיפוש. יכולת זאת מאפשרת למפתחים לקבוע "סף משמעות/רלוונטיות" באופן שהמנוע יוכל לשפר אוטומטית את ביצועיו.

פרטים נוספים בפוסט המלא

Aquaring – פורטל עולם המים ושימוש בטכנולוגיות סמנטיות

20 באוקטובר, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

aquar Aquaring הוא פורטל של מקורות מידע באירופה על עולם החי והצומח במים.
המטרה של הפורטל היא לספק נקודת גישה לאוסף ההטרוגני של מקורות דיגיטליים בנושא זה.
האוספים שמשמשים את הפורטל הם של מוזיאונים, אַקְוַרְיוּמִים ומוסדות מחקר באירופה.

המידע באוסף דינמי באופיו בשל תוצאות של המחקר המדעי. כך לדוגמה FishBase  שכולל מידע על מיני הדגים שידועים למדע, כלל 25000 מינים באוקטובר 2006 , ושנתיים וחצי לאחר מכן המספר הגיע ל- 32200 .

מה שמייחד את הפורטל הוא השימוש בטכנולוגיות סמנטיות על מנת לשפר את החיפוש. נעשה שימוש ב-7 אונטולוגיות ופותח עורך מידע-על שאפשר שימוש באונטולוגיות ובתיוג חופשי .

השימוש בטכנולוגיות סמנטיות מאפשר לנהל את האוסף ההטרוגני ביתר קלות, מאפשר שיתוף נתונים בין מקורות המידע ואת התאמת המידע בהתאם למאפיינים של המשתמש – שפה, קהל יעד והעדפות.

אפשר לחפש ולדפדף בנושאים רחבים : Biological species, Marine Biology, Vessels, Fishing Areas, Land Areas, Habitats , Education ולצמצם את החיפוש על פי תתי נושאים נוספים, סוג מסמך, קהלי יעד ועוד.. המנשק הויזואלי תורם לחווית המשתמש.

לפורטל
על הפורטל והטכנולוגיות הסמנטיות בהן נעשה שימוש

הווב הסמנטי מהו?

3 באוקטובר, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

מהו הווב הסמנטי ?   הסבר בהמשכים, ב"מלים פשוטות"  מתפרסם לאחרונה בטכנורטי .הווב  הסמנטי הוא צעד לקראת ווב  3.0 שמטרתו הפיכת התכנים בווב לידידותיים למכונות ..

הווב הסמנטי מתבסס על שפות שמתמקדות בתיוג התכנים  על פי משמעותם.

ווב  סמנטי יותר יאפשר למנועי חיפוש לאחזר תוצאות רלוונטיות יותר מכיוון שהתכנים יהיו מסומנים בצורה כזו שמכונות יוכלו להבין ביתר קלות את משמעות הדברים ולא רק להציג את המידע אלא גם לעשות בו שימוש.

2 דרכים להשגת מטרה זו היא באמצעות נתונים מובנים  ונתונים מקושרים.

לפוסט  זה יש המשך  בשבועות הבאים וכדאי לעקוב..

הבהרות נוספות בנושא הווב הסמנטי עקרונותיו ויישומים שעושים שימוש ב- RDF – אבן הבניין של הווב הסמנטי,  אפשר לשמוע בהרצאה המוקלטת של איל סלע מפעיל משרד ה-W3C הישראלי,אותה נשא ביום ד' ב-23 ביוני 2010  באוניברסיטת בר אילן ושהתפרסמה  באתר משרד ה-W3C הישראלי.

לפוסט

להרצאה

למצגת ההרצאה

הערה: המידע על ההרצאה לקוח מתוך ידיעון יולי – ספטמבר 2010 של W3C הישראלי

מכנס IFLA האחרון – נתונים מקושרים וספריות, אוריינות מידע ועוד..

16 בספטמבר, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

iflaכנס IFLA ה- 76 התקיים השנה ב- 10-15 לאוגוסט בגוטנברג שבשבדיה . הוא עמד בסימן הגישה החופשית למידע ולכל האוכלוסייה והוצגו בו נושאים ספרניים מגוונים: רכש ופיתוח אוספים, קטלוגים, הספקת מסמכים, סוגים שונים של ספריות, ספריות ואוכלוסיות שונות, ניהול ושיווק, אוריינות מידע , ספרים נדירים, שימור, מולטימדיה, טכנולוגיות מידע ועוד..

אחת ההרצאות המעניינות הייתה בנושא נתונים מקושרים וספריות.

היום הווב מאפשר לקשור בין מסמכים קשורים. באופן דומה הוא יכול לאפשר לקשור בין נתונים קשורים. מטרת הנתונים המקושרים היא לאפשר שיתוף בין נתונים מובנים בווב באותה קלות שניתן היום לשתף מסמכים.

היום עדיין ספריות מבודדות במונחים של חילופי נתונים מכיוון שהנתונים בעיקרם נאספים על ידי ספרנים למען ספרנים, והתהליך של חילופי נתונים ושיתופן עם מוסדות לא ספרניים הוא עדיין בחתוליו.

שיתוף פעולה קיים בעיקרו בין ספריות, והנתונים הספרניים הם עדיין אינם חלק אינטגרלי מהווב. הסיבה העיקרית לכך היא דרגה נמוכה של קישוריות בין מאגרי הספרייה ומאגרים מתחומים אחרים, אבל גם בשל תהליך איסוף המידע והפורמטים של המידע.

הווב הסמנטי ובמיוחד יוזמת הנתונים הפתוחים והמקושרים מעודדים מוסדות לפרסם, לשתף ולכונן קישורים עם מקורות מידע אחרים. זה רלוונטי למוסדות מסחריים ולמוסדות שלא למטרות רווח. מבחינת הספריות – להיות חלק מרשת הנתונים המקושרים או הענן הסמנטי משמעותו גם שספריות יוכלו לענות יותר טוב על ציפיות המשתמשים כמו מידע נגיש בפורמט שמובן גם לא למומחים בספרנות .

פעילות במסגרת מאגר המידע ההולך וגדל של הענן תוכל להוריד מהנטל הקיים היום על הספרנים בתחזוקת מאגרי המידע שלהם, וגם לסלול דרך לשירותים חדשים שמתבססים על יותר מנתונים של מוסד בודד.

המאגרים הספרניים הם איכותיים ומקצועיים ולפיכך יש להם את הפוטנציאל להפוך עמוד התווך לאמינות בווב הסמנטי שהולך וגדל.

ספריות החלו להבין את הפוטנציאל שטמון בווב הסמנטי, ומספר מוסדות מתכוננים לפרסם את הנתונים שלהם כנתונים מקושרים. בפועל זהו תהליך מאתגר. בנוסף למכשולים הארגוניים , ההיבט הטכני של פרסום נתונים בווב הסמנטי ושימוש בנתונים מהווב הסמנטי יכולים להערים בעיות לא מבוטלות למוסדות מסורתיים כמו ספריות, במיוחד אלו עם תקציבי IT מצומצמים יותר. מאידך, התנאים להגשמתו של חזון זה מבטיחים, שכן מוסדות אלה משתמשים בסטנדרטים משותפים כמו MARC21 או RAKWB ,  למרות שהם צריכים עדיין להתאים עצמם לתהליך חילופי הנתונים הכללי בווב .

נייר עבודה מעניין שהוצג בכנס IFLA האחרון שהתקיים באוגוסט 2010 עוסק בנתונים המקושרים מפרספקטיבה של ספריות ומוסדות תרבות אחרים. כמו כן מתאר את ניסיונה של הספרייה הלאומית בגרמיה לכונן שירות כזה. פרסום המאגר המקומי בצורת נתונים מקושרים הוא צעד עיקרי לקראת החזון. אך אתגרים לא מעטים ניצבים בדרך:אתגרים טכניים, קונספטואליים שקשורים למידול הנתונים ובחירה באונטולוגיות מתאימות ולהגדרת ה- URIs, ואתגרים משפטיים . המאמר מתאר את האתגרים בפניהם עמדה הספרייה הלאומית בגרמניה בבואה להקים שירות של נתונים מקושרים. אתגרים אלה כללו – המרת הנתונים ל-RDF והעשרתם בהפניות למקורות חיצוניים כגון וויקיפדיה ו-דיביפדיה, בחירת הנתונים ובחירת אונטולוגיות מתאימות למודל הנתונים.

במאמר יש גם תיאור של הישגים ומטרות בטווח הקצר והרחוק. .
בכינון שירות מסוג זה הספרייה צעדה צעד אחד לקראת החזון התרבותי הגלובלי, אבל המטרה הרחוקה תושג כאשר גישה זו של פרסום וחילופי נתונים תזכה לתמיכה רחבה.

נושא אחר שנדון בכנס הוא אוריינות מידע .
קישורים למספר מצגות מהרצאות בנושא זה זמינים כעת

לאתר הכנס
לנייר עבודה – ספריות ונתונים מקושרים
למצגת בנושא ספריות ונתונים מקושרים
למצגות בנושא אוריינות מידע

ספריות והנתונים המקושרים

16 באוגוסט, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

היום הווב מאפשר לקשור בין מסמכים קשורים. באופן דומה הווב יכול לאפשר לקשור בין נתונים קשורים. וזוהי מטרתו של הווב הסמנטי אשר מורכב למעשה מנתונים מקושרים . מטרת הנתונים המקושרים היא לאפשר שיתוף בין נתונים מובנים בווב באותה קלות שניתן היום לשתף מסמכים. הנתונים המובנים יכולים לכלול מידע בנושאים שונים: מדע, בריאות, חדשות, מידע ממשלתי ועוד .. 

מה הם העקרונות, ההיבט הפרקטי? הפוטנציאל של הנתונים המקושרים? ותפקיד הספריות בתחום זה?

היום מספר ארגונים בווב כגון: data.gov.uk וה- bbc אימצו את הנתונים המקושרים. גם לספריות יש יוזמות בתחום.

מידע על יזמות אלו ונושאים כלליים בנושא אפשר למצוא בהרצאות שהתקיימו ביום הפתוח שארגנה TALIS ב- British Library ביולי 2010.

כל הרצאות הוידיאו זמינות עתה לצפייה חופשית

להרצאות

קטלוג הספרייה כחלק מהווב הסמנטי

11 באוגוסט, 2010 מאת יפה אהרוני, הספרייה למדעי החיים ולרפואה

היום הווב מאפשר לקשור בין מסמכים קשורים. באופן דומה הווב יכול לאפשר לקשור בין נתונים קשורים. וזוהי מטרתו של הווב הסמנטי אשר מורכב למעשה מנתונים מקושרים . מטרת הנתונים המקושרים היא לאפשר שיתוף בין נתונים מובנים בווב באותה קלות שניתן היום לשתף מסמכים. הנתונים המובנים יכולים לכלול מידע בנושאים שונים: מדע, בריאות, חדשות, מידע ממשלתי ועוד .. 

קטלוג הספרייה כולל כמות גדולה של מידע איכותי מובנה. למרות זאת מידע זה אינו נגיש ליישומים סמנטיים. נייר עבודה מכנס שעסק בנושא דבלין קור ויישומי מידע-על – 2008 , מתאר כלים וטכניקות בהם השתמשו בקטלוג המאוחד בשוודיה – LIBRIS כדי להפוך את הקטלוג לחלק מהווב הסמנטי והנתונים המקושרים (linked data ) . ובכך לחשוף את המידע שבו.

LIBRIS מאחד 175 ספריות וכולל 6 מיליון רשומות.
המטרות ביצירת מנשק וובי חדש ל-LIBRIS הייתה:
• לאפשר באופן שקוף את זמינות המידע , שמוצג היום למשתמש, גם למכונות/לרובוטים של הווב.
• לאפשר הכנסתו לקטלוג של מידע לא אִינְהֶרֶנְטִי לרשומה עצמה כמו הערות משתמש וקישור לרשומות אחרות
• לטפל בחוסר העקביות בקטלוג שהיה תוצאה של שינויים בכללי הקטלוג במהלך השנים.

נייר העבודה כולל סקירה על ההיבט הטכני של המנשק החדש של הקטלוג ומתמקד יותר בקישורים אל ובין מקורות המידע והמכניזם שאפשרו את נגישות הנתונים יותר מאשר בתיאור מלא של מקורות המידע .

במסגרת פיתוח מנשק חדש שיהיה חלק מהווב הסמנטי פותחו מספר מרכיבים שמטרתם הייתה להפוך את מערכת ניהול הספרייה לדוברת RDF . נגישות הקטלוג למערכות מחוץ לקהילת הספרייה מתאפשר בשל שימוש בסטנדרטים מקובלים לתיאור פריטי המידע – Dublin core לתיאור המידע הביבליוגרפי, FOAF לתיאור אנשים וארגונים ו- SKOS לשפות מבוקרות. הכנסת קישורים בין רשומות עם אותו מפתח וקישורים למקורות חיצוניים כגון: Wikipedia ו- DBpedia מאפשרים למשתמש לאתר מידע נוסף על כל אחד מפריטי המידע.

פרטים נוספים בנייר העבודה עצמו
ה-proceeding של הכנס : international conference on Dublin Core and Metadata Applications