• Àüü
  • ÀüÀÚ/Àü±â
  • Åë½Å
  • ÄÄÇ»ÅÍ
´Ý±â

»çÀÌÆ®¸Ê

Loading..

Please wait....

±¹³» ³í¹®Áö

Ȩ Ȩ > ¿¬±¸¹®Çå > ±¹³» ³í¹®Áö > Çѱ¹Á¤º¸°úÇÐȸ ³í¹®Áö > Á¤º¸°úÇÐȸ ³í¹®Áö B : ¼ÒÇÁÆ®¿þ¾î ¹× ÀÀ¿ë

Á¤º¸°úÇÐȸ ³í¹®Áö B : ¼ÒÇÁÆ®¿þ¾î ¹× ÀÀ¿ë

Current Result Document :

ÇѱÛÁ¦¸ñ(Korean Title) ÅؽºÆ® ºí·Ï ÁÖº¯ÀÇ ¹®¸ÆÀ» ÀÌ¿ëÇÑ HTML ¹®¼­ º»¹® ÃßÃâ
¿µ¹®Á¦¸ñ(English Title) Contents Extraction from HTML Documents using Text Block Context
ÀúÀÚ(Author) ¼Û¿ø¹®   ±è¿ì½Â   ±è¸í¿ø   Wonmoon Song   Wooseung Kim   Myungwon Kim  
¿ø¹®¼ö·Ïó(Citation) VOL 40 NO. 03 PP. 0155 ~ 0163 (2013. 03)
Çѱ۳»¿ë
(Korean Abstract)
´Ù¾çÇÑ À¥ ÀúÀÛ µµ±¸ ¹× »õ·Î¿î À¥ Ç¥ÁØÀÇ ÃâÇö°ú À¥¿¡ ´ëÇÑ Á¢±Ù¼ºÀÌ º¸´Ù Æí¸®ÇØÁö¸é¼­ ¸Å¿ì ´Ù¾çÇÑ Á¾·ùÀÇ À¥ ÄÜÅÙÃ÷µéÀÌ ¾ÆÁÖ ºü¸£°Ô »ý»êµÇ°í ÀÖ´Ù. ÀÌ¿Í °°Àº È¯°æ¿¡¼­, »ç¿ëÀÚÀÇ ¿ä±¸¿¡ ÀûÇÕÇÑ À¥ ¼­ºñ½º¸¦ Á¦°øÇϱâÀ§Çؼ­´Â À¥ ¹®¼­·ÎºÎÅÍ ±¤°í¿Í °°Àº ºñ º»¹® ¿µ¿ª µîÀ» Á¦°ÅÇÏ°í º»¹®¿¡ ÀûÇÕÇÑ Á¤º¸¸¸À» Á¤È®ÇÏ°í ºü¸£°Ô ÃßÃâÇϴ °ÍÀÌ Áß¿äÇÏ´Ù. ÀÌ¿¡ º» ³í¹®¿¡¼­´Â HTML ÇüÅÂÀÇ À¥ ¹®¼­·ÎºÎÅÍ º»¹® ¿µ¿ªÀ» Á¤È®ÇÏ°Ô ÃßÃâÇϴ ¹æ¹ýÀ» Á¦¾ÈÇÑ´Ù. Á¦¾ÈÇÑ ¹æ¹ý¿¡¼­´Â ¹®¼­³»ÀÇ °¢°¢ÀÇ ÅؽºÆ® ºí·ÏµéÀÌ º»¹® ¿µ¿ª¿¡ ÇØ´çÇÏ´ÂÁö ºÐ·ùÇϱâ À§ÇÏ¿© ÀÇ»ç°áÁ¤Æ®¸®¸¦ »ý¼ºÇÏ°í ÀÌ¿ëÇÏ¿´À¸¸ç ºÐ·ù¸¦ À§ÇѠƯ¡À¸·Î´Â ÅؽºÆ® ºí·ÏÀÇ ´Ü¾î ¹× ¸µÅ© ¹Ðµµ¿Í HTML Å±נºÐÆ÷ ¹× ÅؽºÆ® ºí·Ï°£ °Å¸® µîÀ» Æ÷ÇÔÇϴ ¹®¸Æ Á¤º¸¸¦ »ç¿ëÇÏ¿´´Ù. °ø°³µÈ µ¥ÀÌÅÍ ¹× º» ¿¬±¸ÆÀ¿¡¼­ Á÷Á¢ ¼öÁýÇÑ µ¥ÀÌÅ͸¦ ÀÌ¿ëÇÑ ½ÇÇèÀ» ÅëÇØ ±âÁ¸ÀÇ ¹æ¹ý¿¡ ºñÇØ F-Measure°¡ ¾à 19% Çâ»óµÇ¾úÀ½À» º¸¿´´Ù.
¿µ¹®³»¿ë
(English Abstract)
Due to various Web authoring tools, the new web standards, and improved web accessibility, a wide variety of Web contents are being produced very quickly. In such an environment, in order to provide appropriate Web services to users' needs it is important to quickly and accurately extract relevant information from Web documents and remove irrelevant contents such as advertisements. In this paper, we propose a method that extracts main contents accurately from HTML Web documents. In the method, a decision tree is built and used to classify each block of text whether it is a part of the main contents. For classification we use contextual features around text blocks including word density, link density, HTML tag distribution, and distance between text blocks. We experimented with our method using a published data set and a data set that we collected. The experiment results show that our method performs 19% better in F-measure compared to the existing methods.
Å°¿öµå(Keyword) À¥ ÆäÀÌÁö ºÐ¼®   º»¹® ÃßÃâ   ÅÂ±× ºÐÆ÷   ºí·Ï°£ °Å¸®   ¹®¸Æ Á¤º¸   web document analysis   contents extraction   tag distribution   block distance   context  
ÆÄÀÏ÷ºÎ PDF ´Ù¿î·Îµå